感謝bri的分享,特別推薦這篇好文章!
--
ptt作者:bri(本文節錄自 ptt NBA板 ─ 淺論NBA中的數據分析 (3)、(4))
Hoopdata.com 提供了更多樣化的數據,使用介面也更為便利,更重要的是網站
的作者 Tom Haberstroh,是首批使用 Google 的動態圖表功能的分析人員,這
讓一般人更容易理解。
Hoopnumbers.com 提供了另一種分析+/-的方向,網站的營運者 Joe Sill 利用
脊迴歸(Ridge regression) 來預測明星球員的影響,據說是更為準確的。
John Hollinger 寫了包括 Pro Basketball Forecast/Prospectus 一系列四本
書,現在他是 ESPN Insider 的專欄作家。即使對數據分析沒有特別研究的人
也知道他的名字,這讓他在推廣這個概念時相當有優勢。
Hollinger 最早在1996年就建立了叫做 Alleyoop.com 的網站,一開始是出於
興趣。他宣稱這是個「提供給會思考的球迷的籃球網頁」,藉此吸引網友的興趣,
而他也跟隨著 Dean Oliver 和 Bob Bellotti 的腳步,追尋更極致的籃球數據。
在這個網站建立初期,Hollinger 把進攻效率和防守效率,當作評量球員對球隊
整體貢獻的工具,這點倒是跟 Oliver 相同。儘管這種方法不是獨創,不過他的
寫作風格和見解卻吸引了 Web 雜誌和華爾街日報。
接下來的三年,Hollinger 成為 OregonLive.com 的運動編輯,讓他更加了解
NBA的運作模式,不管是球賽本身,或是這整個產業,也就是在這個階段,Hollinger
創造出著名的 PER,企圖用這個數值來涵蓋球員整體的攻防表現。
後來,Hollinger 當過 SI.com 的運動編輯,然後從2002年開始發行 Pro Basketball
Prospectus/Forecasts。2005年,他離開SI投向 ESPN.com,而ESPN也把他的
PER捧成數據分析的聖杯。
David Berri 在1991年從 Nebraska Wesleyan 大學經濟系畢業,並進而在 Colorado
State 大學拿到碩士和博士學位,他曾經在Coe學院和 California State University
-Bakersfield 任教,不過2008年他轉赴 Southern Utah 大學執教。
Berri在數據分析最有名的成就,就是在2006年跟 Martin Schmidt 和 Stacey Brook
合寫了「The Wages of Wins:Taking Measure of the Many Myths in Modern
Sport」,在這本書中,他們從更學術、更經濟學的觀點研究美國的四大運動,並且探討
薪資結構和勝利之間的關係,NFL裡四分衛的角色,還有棒球界裡的競爭平衡等問題。
但是這本書中最引人注意的,卻是 Berri 對NBA裡球員表現的分析。Berri發展出一
套叫做「Wins Produced」的模型,據他表示,可以解釋球隊勝利中95%的因素。
NBA聯盟對於數據分析也抱持積極的角色。NBA雇用了前籃網隊顧問 Ken Catanella
作為籃球分析經理,他發明了 StatsCube,那是一個可以幫助球隊在分析時可以更有
效率的工具。
這個 StatsCube 記錄了從1996年開始的每一次得分、籃板、助攻、抄截、火鍋、失
誤、投籃不進、犯規和換人,還包括了每個事件發生的時點,還有那時候場上的球員。
最重要的是,它可以逐筆切割出來審視,並且交叉分析。
NBA也和 Synergy Sports Technology 合作,讓它成為比賽影片的主要提供者。
目前為止,Synergy Sports 還是分析為什麼某個戰術或球員會成功最好的工具。這
項服務是由 Garrick Barr 負責營運,他已經替鳳凰城太陽隊服務了11年,他的工作
就是記錄每場比賽的每一次球權,所以能夠告訴你每個球員的動作造成的結果,而不
只限於分數盒子之內。
Barr 是加州人,他曾經是高中和大學的籃球校隊,畢業之後他投入航空業。但是他
始終無法忘情於籃球,於是到了三十出頭,他到了鳳凰城擔任大學籃球教練。1992年,
他的高中校隊隊友,太陽隊的 Paul Westphal 雇用了他,試圖把科技導進教練和球探
的工作,他也替球隊建立了一個資料庫,為了選秀會可以使用。
1998年,Barr 創立了 Quantified Scouting Service(日後改名為 Synergy Sports
Technology)。2004年,他得到了微軟工程師,也是科技諮詢顧問的 Nils Lahr 加盟,
Lahr 曾經建立的 VXtreme streaming media solutions,那時已經被微軟收購,
成為 Windows Media 和 MPEG4 中的重要部份。
今年 Synergy 已經有超過100個員工,聯盟中有27隊是他們的客戶。他們把每場球賽
完全分解成30分鐘的片段。對數據分析人員、教練或是總管來說,這套服務最重要的
是讓他們親眼看見,那些數據裡面埋藏的細節都是真實的,可以支持分析的結論。
回到數據分析與球隊營運來。
這些數據分析人員哪裡來的呢?一般有兩種途徑。
第一種情形是內升。比如說一個在球團裡面工作很久,慢慢晉升的年輕人,也許
他一開始待在球隊錄影部門,後來慢慢升到球探等等。通常這種人對統計學的了
解不多,也沒有受過專業的訓練,但是透過自學,或者是和其他專家討論來學習。
另一種情形是外雇。從學界雇用一兩個受過專業訓練的分析人員,然後把他放在
球團裡面,或是成為顧問。這樣的人員在技術上沒有問題,可以從一團混亂的數
據中理出頭緒,分析出一些有關數據的獨到見解,但是他們懂不懂籃球呢?也許
懂,但是不用期待太多。
而從上面15支球隊裡數據分析人員的配置,大概也可以分成兩個模式:制服組模
式和教練團模式。
一般人的理想中,可能覺得數據分析應該是全面性地影響一支球隊的運作,然而
事實上並不是如此,其中主要的原因是因為制服組和教練團的分工本就不同。
制服組的工作是要把一支球隊組織起來,所以在這個部分,數據分析比較關注的
是自由球員的簽約、交易的選擇、選秀會的策略,總的來說,是嘗試建立一個可
以評量各種球員的系統和方式,當球隊需要簽下一個球員、和別的球隊作交易,
或是使用僅有的選秀籤時,才能給球員一個適當的價值作為依據。
薪資上限和豪華稅在這裡也扮演了一點角色,大部分的球隊都不想付豪華稅,或
是即便老闆願意掏錢,也不會希望浪擲,所以如何在有限的薪資額度內找尋最適
宜的球員組合,是數據分析可以派上用場的地方,所以你可以看到有些球隊的數
據分析人員,負責的領域也包括了選秀、自由球員簽約等等。
在這個模式下,數據分析人員的頭銜常常是籃球營運副總裁之類的。
另一方面,教練團的工作是如何把手上有的食材料理成美味。所以教練團比較關
注的是球員組合。球隊裡哪五個球員同時在場上的時候,最有得分效率、最能壓
制對手進攻等等。所以在這個模式,數據分析比較關注的是場上五人組合的產出,
或是一個球員在場上或場下時對球隊的影響。
當然也有兩種模式並行的,比如說小牛隊。
Mark Cuban 本身就是個熱愛數據分析的老闆,所以數據分析明顯在球隊營運決策
上提供了不同的角度,而教練團也受到一定程度的影響。Avery Johnson 就曾經
說過他剛加入小牛隊時,是個再傳統不過的籃球人了,不過加入之後,受到 Cuban
的影響,也開始思考不同數據所代表的意義,並進而影響他在場上的調度。
如果從 Dean Oliver 加入金塊隊起算,數據分析這條路在籃球界,也不過就是
短短的四到五年,雖然很迅速地在聯盟中蔓延開來,但是其實還有很多爭議的地方。
比方說,數據分析派和傳統籃球派。
現在很多球隊都把數據分析看的越來越認真,但是大多數球隊對數據分析人員的
態度,就好像是後母一樣,把他們藏在球隊裡面,無論如何都不讓他們出來露面。
這部分最大的原因可能是,球隊嘗試用這些數據分析人員來替代那些傳統的籃球人,
而不是用來輔助。棒球界也是如此,結果這造成了這些人和傳統棒球界之間的誤
會和裂痕更大。
籃球界的問題也是一樣。
不過由於球員間的互動在解讀數據上扮演很重要的角色,所以籃球界的數據分析
不像棒球,可以切割的比較乾淨。如果數據分析人員對籃球的了解不夠,他提出
的理論就會受到更多人的存疑,也不會有人認真參考。
不過有些數據分析人員基於某種原因,會提出一些譁眾取寵的數據。也許這樣可
以讓他們聲名大噪,但是如果這些數據最後被證明是錯誤的,結果只會損害整個
數據分析界的信譽。重點不在於數據出了錯,而是這些數據分析人員不自覺流露
出來的優越感。要知道,這些傳統的籃球人每個都花了無數的時間在打籃球、看
籃球,結果最後卻被一個看不懂的電腦系統指正,可以想見會遭受多大的抵抗。
而解決這個問題的方法,需要雙方大量的溝通與彼此了解。塞爾蒂克的教練 Doc
Rivers 就對數據分析存疑,所以 Mike Zarren 花了很長的時間跟他溝通,即便
是 Dean Oliver 也曾經覺得籃球界的人跟數據分析界的人好像在說兩種不同的
語言。
而就連數據分析這個圈子裡的人,對於哪種數據有價值的看法都有很大的出入。
比如說PER派和+/-派。
其實概括來說,所謂的 PER 派是個廣泛的統稱,簡單來說,這派的分析素材來
自於球員留下的數據。他們可能會把分數盒子裡面的每個欄位拿來加加減減,或
者乘上一定的比例,最後算出一個數值,算是當作這個球員的「分數」。
不過籃球場上有太多不可量化的元素,而這些是不會在分數盒子裡面呈現的。比
如說防守。一直很難有個可得紀錄的數據,顯示球員在場上的防守表現。抄截也
許是一個角度,但是很多球員為了被紀錄抄截一次,失掉了自己原本應該有的防
守位置,賭博性站位,沒有持續緊跟自己的防守對象,這樣似乎稱不上好的防守。
火鍋也是相同,有球員為了製造火鍋,所以採取賭博性的防守,再者,把球搧出
場外,通常等於給對手重新組織進攻的機會,這樣算的上成功的防守嗎?
或者球場上跟其他隊友的合作,也不能在分數盒子中顯現出來。
在這個情形下,+/- 的紀錄方式出現,因為它紀錄的是一個球員在場上時,本身
球隊和對方球隊的分數差。
如果這個球員在場上「創造」了一點不同,讓自己球隊比對手多得了一點分,或
少失了一點分,這就是球員的價值所在。
然而,這樣的數據也不是沒有瑕疵。比如說隊友的素質有很大的影響,如果這個
球員跟四個聯盟一等的先發球員同場,幾乎可以預估他的表現,會比跟四個替補
球員一起要好的多。
比賽的強弱也有關聯,當球賽比數已經拉開進入垃圾時間,雙方的防守自然會比
較鬆懈,得分的機會比較容易,所以這時候的+/-是不是會隨之失準。
這兩種方式的支持者有時候會批評彼此。設計出 Win Shares 的 David Berri 就
批評+/-,說一個決策者應該知道的資訊,已經全部涵蓋在分數盒子裡了,Dan
Rosenbaum 則回敬 David Berri 說那種想法是種謬論,並且說+/-是比較受歡迎
的數據。
而光是如何客觀地評量一個球員,就有幾種不同的方式,每個發明者也都宣稱自己
的數值比較好。比如說 David Berri 就批評 John Hollinger 的PER,在設計每個
數據的權重時,沒有經過回歸分析,純粹出自於 Hollinger 的直覺。
除此之外,數據分析的圈子裡也少不了其他歧見。
比如說有深厚學術背景出身的(像是經濟學或統計學),會認為論壇裡面那些沒有
經過學術殿堂洗禮的,所提出的數據分析欠缺嚴謹的論證,沒有經過仔細的檢驗和
思辯。
甚至比如說,數據分析人員應不應該隨隊。隨著球隊出征的好處是可以看到很多數
據裡看不到的,教練的溝通技巧和指揮能力,球員之間的互動等等,在解讀數據上
也許會有很多幫助。但是球隊找這些人來,似乎就是為了提供一個客觀第三者的角
度,為了不受到干擾和影響,是不是應該隔著一段距離,才能提出一般人看不到的
想法。
我們大家都會看數據。就連最傳統的籃球人都會看分數盒子和場均數據。所以數據
分析的價值不在於他們是唯一看得懂數字的人,而是因為他們對數據有很好的判斷
能力,而這來自對於籃球和數據分析兩者都要很深入的了解。
但是這樣的門檻相當高。籃球跟棒球不一樣,團隊運作的模式、球員與球員間的互
動都會對數據產生影響。所以分析人員更要了解球員的角色,甚至包括他的隊友和
對手,所以光是對數字很敏感是不夠的,籃球的數據分析人員需要對各種數據要有
更深入的了解。
球隊在運用數據分析的理想模式應該跟棒球不一樣。這樣的人員在球隊裡應該是個
功能性球員,他要努力在籃球界裡變得更好,同時也要讓他周圍的所有籃球員變得
更好,除了讓進階數據分析更能被理解,更重要的是,他們應該更正確地解讀數據,
並且了解什麼時候應該注意哪個數字,而什麼時候又該把某些數字忽略不管。
這最後一點是很困難的,對於不真正了解數據的人來說,他們會花上無數的時間研
究某個數據,而最後被這個數字誤導,沒有產生有用的結果。即便是具有深厚學術
素養的人也會犯這個錯,假使他們對籃球不夠了解的話。
所以最後終歸一句話,如何有技巧地解讀數據,其實要有良好的判斷能力。如果球
隊如此倚賴數據分析,結果這樣的人沒有受到很好的專業訓練,外加深厚的籃球素
養,無疑反而是極大的風險。
數據分析還有一個很大的問題:資源浪費與重複。
在評價一個球員時,你得要作相當多的功課,把每場球賽的每一球紀錄下來,分門
別類地整理,每天都要維護與更新,這是非常非常浪費時間的。讓這種情形更惡化
的,是因為各隊都把自己數據分析的方法當成秘密,所以每隊所作的整理很可能有
大半都是其他球隊也在作的,只不過沒有被揭露出來。
無怪乎有錢如 Mark Cuban,有次都曾經開玩笑說,希望各隊在數據分析人員的
花費上,也要設定一個薪資上限。
數據分析在 NBA的現況大致簡述如上,可以預料的是,會有越來越多的球隊在這上
面砸上金錢,也許真是出於對數據分析的肯定,但也有可能是因為其他球隊投入後,
所不得不為的防禦性策略,不管如何,對所有球隊來說,有一點都是很清楚的:數
據分析不是萬能。
數據分析只是盡可能地替所有籃球場上發生的事找出對應的價值,並且作為決策
的參考依據之一。但是還有很多變因是不能預測的,比如說球員的心態與心情,
教練的領導能力與溝通,甚至裁判或是場邊的球迷或場館,都有可能會影響分析
的準確度。
所以我們要知道,數據分析能作的,不是預測並且掌握籃球場上發生的每一件事,
而只是盡可能極大化對自己有利事件的發生機率,並且盡可能極小化對自己不利
事件的發生機率,剩下的,還是要交給場上的球員去決定了。
最後,如果你對數據分析有了一點興趣,下面這個網址是個必去的論壇,這是 Kevin
Pelton所建立的論壇,上面提到的所有名字,大概有七成都在這裡有帳號:
最後的最後,補充一個花絮。對於數據分析界來說最大的謎團,也是今年為止最常
被拿來開玩笑的題材,是這個球員-Gerald Green。
看看他待過的球隊吧:波士頓塞爾蒂克、(明尼蘇達灰狼隊)、休士頓火箭隊、
達拉斯小牛隊。現在他在俄國的 Lokomotiv Kuban 隊。
留言列表