0

Glöm Moneyball. Vad sägs om att definiera mätmetoder för NBA Awards? Hur svårt kan det vara? (Bild: NBA)
NBA meddelar sitt årliga utmärkelser idag. Detta är en mycket efterlängtade händelsen som har diskuterats och analyserats utförligt om sport media och bortom. Förutsägelser och argument om vem som bör utses och vem som ska vinna varje pris har pågått nästan sedan början av säsongen.
Att hålla fans engagerade är bra, men det finns fler aspekter att priser som dessa: De kan ge media något att prata om, öka spelare och laget status, och vem som helst kan satsa på resultaten.
Att vara en del av popkulturen, och som har potential att göra eller bryta karriär och förmögenhet innebär det att det finns mer att NBA Utmärkelser som möter ögat. Låt oss försöka kika in bakom spegeln och använda data vetenskap och analytics för att svara på en fråga på många NBA-fans sinnen: Vem var det mest förbättrade spelare (MIP) i NBA den här säsongen?
Definiera en “förbättrad”
Till att börja med, vem som får definiera förbättras och hur? Som en NBA författare en gång uttryckte det: “Det finns få saker som är mer frustrerande än att försöka avgöra vad det innebär att vara MIP”. Å andra sidan, som gör det intressant och öppen för tolkning. Sedan NBA inte säger mycket om dess kriterier och utvärderingsmetod, andra har försökt att komma med sina egna.
Det traditionella sättet NBA-skribenter att göra detta är genom att sätta samman en panel av experter och få dem att väga in. I genomsnitt expertutlåtanden kan vara mer på den objektiva sidan än att bara få en uppfattning, men det är fortfarande inte räknas som data-driven forskning i de flesta uppgifter analytikernas böcker.
Adam Fromal från Här Rapporten hävdade att MIP är “för några år lämnas till en spelare som bibehållit sin nivå spela (eller ens fallit tillbaka något) när du fyller en mycket större roll. Andra gånger, ligan belönar en bidragsgivare som gjort märkbara framsteg på båda ändarna av golvet och gjorde det legitimt att förbättra per minut. Stjärnor kan vinna för att nå en ny nivå, även om priset ofta går till låg – eller mid-level rotation medlem som gjort hoppa till legitimitet. Här, vi står för allt av återstående helt objektiv.”
Det är ett starkt påstående. Här är vad Fromal gjorde och vad vi kan lära av detta.
Fromal s metod bygger på att rensa ut spelare som är bättre för ingen annan anledning än nyvunna möjlighet, och betygssättning spelarna hur mycket de bättre i två olika övergripande statistik. Fromal ville belöna både de spelare som blir bättre för varje minut och de som stagnera när de fyller större roller.
Fromal presenterade sin analys i vad han kallade “en nedräkning som avsiktligt undviker subjektivitet.” Det har inte alltid tagits väl emot av alla. Fromal har fått allt från svordomar till anklagelser om partiskhet, och han har också varit komiskt plagiat, som copycat misstolkade hans resultat. Men hur väl har Fromal göra?
Fromal är tre omfattar två av de tre spelare som nominerats av NBA för MIP — Giannis Antetokounmpo på Nr 2 och Rudy Gobert på Nr 3. Hans Nr 1 var Myles Turner, en spelare som förbises av ganska mycket någon annan. Fromal missade Denver Nicola Jokic, som för de flesta analytiker och fans var en självklar utmanare.
Detta kan ge Fromal några objektivitet kredit, som han är en Denver hemvist, men väcker frågan om var gjorde NBA och data-driven analys del sätt. Svaret ligger kanske i vad Fromal själv konstaterar: Andraårsstuderande (som Turner) är normalt förväntas förbättra. I andra analyser, andraårsstuderande är undantagna från MIP diskussion.
Fortfarande, hur kan Jokic inte vara i denna lista? Är det Fromal som saknas något självklart eller NBA, som har sitt eget sätt att tänka? Kanske ännu viktigare, bör den? Gör NBA se något Fromal analys inte, eller gör folk det gör deras val inte helt och hållet baserad på data-driven kriterier och metoder?
Data, träffa ögonen
Fromal är en professionell NBA författare, och även om han inte har en formell bakgrund på analys av data, han verkar göra en hel del för hans arbete. Jay Spanbauer å andra sidan är inte proffs på något sätt-bara en Dollar fläkt som började titta på spelet på ett annat sätt med tillströmningen av matematik och data i NBA. Men kanske Spanbauer data-driven analys lyckats där Fromal misslyckats.
Båda analyserna var gjort innan NBA meddelade MIP nominerade, men Spanbauer är föregås Fromal-talet av en månad och minskat ner MIP striden mellan Jokic och Antetokounmpo. Inte bara det, men han påpekade också att en skillnad mellan dem som kan leda till att även NBA att ge Antetokounmpo MIP pris i en tävling som verkar mestadels mellan dessa två: Försvar.
Spanbauer används en måttenhet som kallas Defensiv Vinner Aktier för att visa den största skillnaden mellan de två. Han påpekade att trots defensiva förmåga är svår att beräkna exakt, det kan ses som Jokic ligger nedanför league-genomsnittet, medan Antetokounmpo är över två och en halv gånger högre. Kanske är det självklart nu, men ingen annan verkar ha data som används för att spika detta när Spanbauer gjorde.
Det kan tyckas självklart nu, men inte många som tänkte på att jämföra MIP kandidater baserat på deras data och visualisera detta för andra att se. (Bild: Jay Spanbauer)
Det är ett klart definierat mått och skillnad, men varför då fokusera på dessa två spelare i första hand? Till skillnad från Fromal, Spanbauer gick med en kombination av instinkt och uppgifter:
“Jag tror att i slutändan uppgifter ska användas för att “kontrollera” vad våra ögon ser. Den som såg NBA i år såg den fantastiska språng Giannis Antetokounmpo gjort. En närmare titt på hans siffror bekräftar detta.
Med nonstop täckning, bloggar, Twitter, etc, det finns tillräckligt med information och nog diskursen för en grupp av de nominerade till ganska bestämt. Jag har fortfarande förtroende i det traditionella sättet nominerade är utvalda, särskilt för en utmärkelse som “öppen” eller “vätska” som MIP. Case-in-punkten: Den tydliga nominerade till MIP i 2017 är Antetokounmpo och Jokic. Tittar på siffror och bearbeta data skulle sannolikt ta dig till samma resultat.”
Förutom att det gjorde det inte-åtminstone inte med Fromal s statistik och data. Vilket leder oss till en viktig punkt: Även när något är baserade på data och har tydliga definitioner, som inte gör det en gudagiven sanning. Uppgifter gör att stödja en synpunkt mer trovärdig, och att det också kan göra det möjligt att upptäcka mönster som kan vara på annat sätt svåra att upptäcka. Men data-driven inte nödvändigtvis lika obestridligt.
Problemet med data-driven beslutsfattande
Vi har redan nämnt “nej andraårsstuderande för MIP -” regel som används av några NBA analytiker. Om NBA skulle ha gått för att Turner skulle med rätta vara att inte vara en MIP-kandidat, men inte heller skulle vara Jokic. Så, om Turner nummer är bättre än Jokic, vad är NBA: s resonemang där?
Det är den typ av fråga som kan värma upp debatter. Det kan också användas för att peka ut ett par av fakta om data-driven beslutsfattande.
Kommer upp med “rätt” kriterierna är hårda och ad-hoc. Så kanske de kriterier för MIP ska komma ner till vad Fromal används. Och kanske andraårsstuderande bör uteslutas, utom i vissa fall. Men vad skulle då dessa fall vara? Vad sägs om spelare som gör comeback efter ett dåligt år? Eller nickar till en spelare som skulle kunna använda den uppmuntran eller en marknad att förbundet vill växa?
Om något av ovanstående är legitima kriterier — eller om och hur de betraktas av NBA-är öppna för tolkning. Ibland sådana övergripande organisatoriska mål och förare är klart, ibland de inte. Men låt oss inte glömma: Organisation chefer har ett enormt inflytande på dessa, oavsett om uppgifterna används för att fånga upp och utvärdera dem.
Att gå från kriterier för att statistik är svårt och ad-hoc. Låt oss anta att någon har på något sätt minskat ner MIP kriterier och skrivit dem i sten. Vad är det mått som bäst uttrycker var och en? Och hur bör de kombineras med varandra för att få en övergripande betyg?
Även den mest använda statistik härrör av någon vid något tillfälle och medföra deras skapare fel och brister — uppfattas eller på annat sätt. I fall av basket, förmodligen den mest kända mått är PER. Oavsett om det är den bästa övergripande mått för att fånga spelarens förmåga och inflytande i spelet diskuteras.
Det finns mer statistik också, som ständigt utvecklas, och de flesta av dem kräver en viss grad av kompetens i både domän (basket) och tekniker (data-vetenskap) för att till fullo kunna förstå och utvärdera.
DataOps är kultur och praxis för att använda data och analyser för att driva beslutsfattande i organisationer. Men det är inte ofelbar. (Bild: Qubole)
Att ha rätt data för jobbet är hårt och inte en tanke på. Vissa uppgifter som i dag används för att härleda uppgifter om NBA-spelarnas defensiva förmåga, som stjäl och block, har inte tagits fram till 70-talet. Detta återspeglar inte bara den ökande betydelsen av data överallt, men också utvecklingen av domänen själv.
När betydelsen av försvar i spel av basket fick större erkännande, att uppgifter som funnit sin plats. Gradvis, mer och mer data som läggs till NBA-arsenal, inklusive visuella och spatio-temporala data, liv statistik och innehåll i sociala medier.
Processen finns det två sätt. Ibland kommer någon att komma med en idé att kvantifiera något som det inte finns någon data, och ibland möjlighet att få vissa uppgifter som finns kan användas på oväntade sätt.
Att arbeta med fem-åringar är svårt, period. Det är kanske föga förvånande, inte alla som bryr sig om NBA blir eller bryr sig om att data och analyser. MIP nominerade har inte uttryckt några åsikter mot sådana analyser, och inte många fans verkar vara ute för att göra vad Spanbauer gjorde.
Vissa skulle säga att fans och spelare är mer som fem-åringar hur som helst, men sanningen är att om saker och ting är inte så enkelt att en femåring skulle få, NBA analytics kommer att vara på staten alla andra analytics är just nu: Något som ett fåtal experter och några entusiaster kan använda, vissa andra har hört av sig och kan kanske följa, och för de flesta förblir mumbo-jumbo.
Som alla analytics-program, att tillämpa NBA analytics, rätt datakällor måste hittas, data måste bearbetas och integreras, domän kunskap tillämpas, analys har gjorts, och resultaten visualiseras och förklaras.
Så, bör NBA vara mer öppen om kriterierna för dess priser? Och vad skulle resultatet bli av detta? Kan det göra allt deterministiska, med kul-och pengar-ur det?
Kommer data pro
Spanbauer är inte den första icke-pro för att engagera dig med NBA-analys av data. Det finns en rad NBA-analytics-entusiaster, och ett antal personer som arbetar professionellt inom området. Och gränsen mellan de två är inte alltid tydlig, eftersom Seth Partnow berättelse visar. Partnow är en ex-bloggare vände analytiker som nu arbetar med Pengar. John Hollinger, den person som introducerade PER, som nu arbetar för Grizzlies.
Men vad folk använder för NBA data och analyser för? Det beror på vem de är, vad de är ute efter, och vilka verktyg de har till sitt förfogande. Vad du kan göra med sovrum analyser kommer bara ta dig så långt. För vissa saker, high school math + kalkylblad/internet + casual fan kunskap + ett par timmar kommer att göra. För andra, det är nog mer som en PhD + IBM Watson + basket guru-status + ett par månader.
Vi vet alla filmen Moneyball, och många basket fans är bekant med Kawhi Leonard framsteg genom analytics. Vi vet också hur topp lag i alla sporter gradvis blir data driven, och vi har sett IBM: s Watson tippad som ett verktyg för att hjälpa NBA-lag. Några av oss hört talas om det felaktiga i den Varma Sidan”.
För lag i första hand är att analysera spelet av sina egna spelare och motståndarnas spel i syfte att förbättra och motverka den respektive. Scouting för nyanställda är också av betydelse, och i slutet av dagen, kommer det hela ner till att vinna fler spel, som också kvalificerar sig för att göra mer vinst.
NBA-lag verkar vara att använda analytics program över hela spektrat: Från att förstå vad som har hänt och varför, för att förutsäga vad som kommer att hända, och för att göra det hända — beskrivande, diagnostik, förebyggande och normativ analys.
Data i alla former och storlekar som används överallt, och NBA kunde vara något undantag.
För spelande entusiaster, det är inte så mycket om själva spelet, men mest om att försöka göra rätt förutsägelse som kommer att förvandla dem till vinnare. För fans som Spanbauer, det handlar mest om att få mer insikt i spelet. Som en representant för en data-driven kultur sipprade ned, hans åsikter är intressanta:
“Det är svårt att ignorera den roll och påverka avancerad statistik och statistik har haft i basket och andra sporter. Medan analytics är inte det enda sättet att analysera spelet, jag gillar att tänka på det som en annan lins genom vilken du ska leta.
Jag skulle inte säga att analytics handlar om förutsägelser. Eller ens resultat, för att vara ärlig. Det handlar om att förändra den traditionella synen på organisationer, och utvecklingen av front office. Du ser mer pengar som satsas på forskning, och mer jobb på att öppnas i området analytics.
I slutet av dagen, siffror är bara siffror. En hel del uppmärksamhet är betalt till dem – ibland mer än nödvändigt. Den mänskliga delen av spelet kan inte och bör inte ignoreras. Det finns fortfarande immateriella tillgångar som vi inte kunnat mäta, och kanske inte kommer att kunna mäta.
Som sagt, vi bör fortsätta att söka svar genom att att använda så mycket data som vi kan. Fler siffror och information som matas in i någon modell kommer att ge mer korrekta resultat.
Jag tror inte nödvändigtvis tror utmärkelser bör ha någon form av kriterier. Utmärkelser för fans, och en del av det roliga av utmärkelser diskuterar bland andra fans din åsikt om vem som bör eller inte bör vinna. Dock, med tilldelning val som bestämmer löner och förmåner som de utsedda-spelare undantag, viss hänsyn till kriterier som skall förvisso bliva given.
Det finns tillräckligt med information ute för att motivera att spendera pengar och använda analytics för att mäta många olika områden. Ägare och general managers är på egen hand för att avgöra om de vill eller inte vill att lita på sig själva, eller nummer.”
Andra berättelser:
Automatisera automatisering: ett ramverk för att utveckla och marknadsföra djupt lärande modelsSpark blir automation: att Analysera koden och tuning kluster i productionPepperdata Code Analyzer för Apache Gnista
0