0

Glem Moneyball. Hvordan om at definere variabler for NBA Awards? Hvor svært kan det være? (Billede: NBA)
NBA annoncerer sin årlige awards i dag. Dette er en meget forventede begivenhed, der er blevet talt om og analyseret grundigt på sport, medier og videre. Forudsigelser og argumenter for, hvem der skal nomineres og hvem, der skal vinde hver tildeling har stået på næsten lige siden begyndelsen af sæsonen.
At holde fans engageret, er god, men der er flere aspekter til priser som disse: De kan give medierne noget at tale om, øge spiller og hold statusser, og alle kan spille på resultaterne.
At være en del af pop-kultur, og har potentiale til at gøre eller bryde karriere og formuer betyder, at der er mere til NBA-Awards, der møder øjet. Lad os prøve at kigge bag spejlet og bruge data, videnskab og analytics til at besvare et spørgsmål om mange NBA fans sind: hvem Der var den mest forbedrede spiller (MIP) i NBA i denne sæson?
Definere en “forbedret”
Til at begynde med, hvem der får lov til at definere bedre, og hvordan? Som en NBA forfatter engang udtrykte det: “Der er få ting mere frustrerende end at forsøge at bestemme, hvad det betyder at være i forbindelse med makroøkonomiske ubalancer”. På den anden side, der gør det interessant og åbne for fortolkning. Da NBA siger ikke meget om dens kriterier og evaluering metode, andre har forsøgt at komme med deres egne.
Den traditionelle måde NBA forfattere gøre dette på er ved at samle et panel af eksperter og få dem til at veje ind. I gennemsnit ekspertudtalelser kan være mere på den objektive side, end bare at få en udtalelse, men det er stadig ikke tæller som data-drevet forskning i de fleste data analytikere’ bøger.
Adam Fromal fra Bleacher Report argumenteret for, at den makroøkonomiske ubalancer “for nogle år afleveret til en spiller, der fastholdt sit niveau af spillet (eller endda tilbagegang lidt), mens fylde en langt større rolle. Andre gange, liga belønner en bidragyder, der har gjort mærkbare fremskridt på begge ender af gulvet og gjorde det legitimt at forbedre på en per-minut-basis. Stjerner kan vinde for at nå et nyt niveau, selvom prisen går ofte til en lav – eller mid-niveau rotation medlem, der gjorde springet til legitimitet. Her, vi tegner sig for alt, som de resterende helt objektiv.”
Det er en stærk påstand er der. Her er, hvad Fromal gjorde, og hvad vi kan lære af dette.
Fromal ‘ s metode var baseret på at luge ud i spillere, der er bedre for ingen anden grund end nyfundne mulighed for, og sortering af spillere ved, hvor meget de har forbedret sig i to forskellige overordnede statistikker. Fromal ønskede at belønne begge spillere, der får bedre på en per-minut-basis, og dem, der stagnere, mens påfyldning større roller.
Fromal præsenterede sin analyse i, hvad han kaldte “en nedtælling, der bevidst undgår subjektivitet.” Der har ikke altid været lige godt modtaget af alle. Fromal har modtaget noget fra bandeord til beskyldninger om bias, og han har også været afsindigt plagieret, som copycat fejlfortolket hans resultater. Men hvor godt gjorde Fromal gøre?
Fromal top tre omfatter to ud af de tre spillere, der er udpeget af NBA for MIP — Giannis Antetokounmpo på Nr 2 og Rudy Gobert på No. 3. Hans No. 1 var Myles Turner, en spiller overset af temmelig meget alle andre. Fromal glip af Denver ‘ s Nicola Jokic, som for de fleste analytikere og fans var en oplagt kandidat.
Dette kan give Fromal nogle objektivitet kredit, som han er en Denver bopæl, men rejser spørgsmålet om, hvor gjorde NBA og data-drevet analyse en del måder. Svaret måske ligger i, hvad Fromal selv bemærker: Sophomores (som Turner) er typisk forventes at forbedre. I andre analyser, sophomores er udelukket fra MIP diskussion.
Stadig, hvordan kan Jokic ikke være på listen? Er det Fromal der mangler noget indlysende, eller NBA, der har sin egen måde at tænke på? Måske endnu vigtigere er, skal det? Gør NBA se noget Fromal ‘ s analyse ikke, eller ikke mennesker, der gør deres valg ikke udelukkende baseret på data-drevet kriterier og metoder?
Data, mødes øjne
Fromal er en professionel NBA forfatter, og selv om han ikke har en formel baggrund for analyse af data, synes han at gøre en masse af det for hans arbejde. Jay Spanbauer på den anden side er ikke professionel på nogen måde-bare en Bukke fan, der begyndte at se på spillet på en anden måde med tilstrømningen af matematik og data i NBA. Men måske Spanbauer ‘ s data-drevet analyse lykkedes, hvor Fromal mislykkedes.
Begge analyser blev udført før NBA annonceret MIP nominerede, men Spanbauer er forud Fromal er af en måned og indsnævret MIP kamp mellem Jokic og Antetokounmpo. Ikke kun det, men han pointerede også, at der er en forskel mellem dem, der kan også føre NBA til at give Antetokounmpo MIP-prisen i et kapløb, der synes for det meste mellem disse to: Forsvaret.
Spanbauer anvendes en variabel kaldet Defensive Vinde Aktier for at vise den største forskel mellem de to. Han påpegede, at på trods af defensive evner at være vanskelig at beregne præcist, kan det ses, at Jokic sidder under den liga gennemsnittet, mens Antetokounmpo er over to-og-en-halv gange højere. Måske er det indlysende nu, men ingen andre synes at have anvendt data for denne søm, når Spanbauer gjorde.
Det kan synes indlysende nu, men ikke mange mennesker troede om at sammenligne MIP kandidater baseret på deres data og visualisere det for andre at se. (Billede: Jay Spanbauer)
Der er en klart defineret metrik og forskel, men hvorfor så fokusere på disse to spillere i første omgang? I modsætning til Fromal, Spanbauer gik med en kombination af instinkt og data:
“Jeg tror i sidste ende data, der skal bruges til at ‘se’, hvad vores øjne ser. Enhver, der overværede NBA dette år oplevede den fantastiske spring Giannis Antetokounmpo lavet. Et nærmere kig på hans tal bekræfter dette.
Med nonstop dækning, blogs, Twitter, osv., der er nok oplysninger og nok tale om en gruppe af nominerede til at være temmelig besluttet. Jeg har stadig tillid i den traditionelle måde nominerede er udvalgt, især til en pris som ‘open-ended’ eller ‘flydende’, som MIP. Sag i punkt: Den klare kandidater til MIP i 2017, er Antetokounmpo og Jokic. Ser man på tal og knasende data vil sandsynligvis bringe dig til det samme resultat.”
Bortset fra at det ikke-i hvert fald ikke ved hjælp af Fromal ‘ s målinger og data. Hvilket bringer os til en vigtig pointe: Selv når noget er baseret på data og har klare definitioner, der ikke gør det til en Gud-given sandhed. Data, der gør at støtte et synspunkt, som er mere troværdige, og det kan også tillade at opdage mønstre, som kan være anderledes svært at få øje på. Men data-drevet svarer ikke nødvendigvis til diskussion.
Problemet med data-drevet beslutningstagning
Vi har allerede nævnt det, “ingen sophomores for MIP” regel, der benyttes af nogle NBA analytikere. Hvis NBA ville være gået til, at Turner vil være med rette ikke være en MIP kandidat, men ingen af delene ville blive Jokic. Så, hvis Turner ‘s nummer’ s er bedre end Jokic, hvad der er NBA ‘ s argumentation er der?
Det er den slags spørgsmål, som kan varme op debatter. Det kan også tjene til at påpege et par fakta om datadrevne beslutninger.
Kommer op med den “rigtige” kriterier er hårdt og ad-hoc. Så måske kriterierne for MIP skulle komme ned til, hvad Fromal anvendes. Og måske sophomores bør være udelukket, undtagen i nogle tilfælde. Men hvad så ville disse tilfælde være? Hvad om spillere, der gør et comeback efter et dårligt år? Eller nikker til en spiller, der kunne bruge den opmuntring, eller et marked, der er i ligaen ønsker at vokse?
Om nogen af ovenstående er lovlige kriterier-eller, om og hvordan de er behandlet af NBA — er åben for fortolkning. Nogle gange er sådanne overordnede organisatoriske mål og chauffører er klar, nogle gange er de ikke. Men lad os ikke glemme, at Organisationens ledere har en enorm indflydelse på disse, uanset om data er brugt til at fange og evaluere dem.
Går ud fra kriterierne, at målinger er hårdt og ad-hoc. Lad os antage, at en person har på en eller anden måde indsnævret MIP kriterier og skrevet dem i sten. Hvad er den variabel, der bedst udtrykker hver enkelt? Og hvordan bør de kombineres med hinanden for at udlede en samlet score?
Selv de mest anvendte målinger blev afledt af en person på et tidspunkt, og medfører deres skaber er bias og svagheder — opfattet eller på anden måde. I tilfælde af basketball, nok den mest kendte værdi er PR. Uanset om det er den bedste samlede værdi at fange en spillers evner og indflydelse i spillet er at blive debatteret.
Der er flere variabler, der er i konstant udvikling, og de fleste af dem kræver en vis grad af ekspertise inden for både domæne (basketball) og teknikker (data videnskab) at være i stand til fuldt ud at forstå og vurdere.
DataOps er den kultur og praksis for brug af data og analytics, til at drive beslutningsprocessen i organisationer. Men det er ikke ufejlbarlig. (Billede: Qubole)
At have de rigtige data, til jobbet er hårdt og ikke givet. Nogle data, som i dag bruges til at udlede oplysninger om NBA spillere defensive evner, som stjæler og blokke, som ikke blev registreret indtil 70’erne. Dette afspejler ikke blot den stigende betydning af data overalt, men også udviklingen af domænet selv.
Når betydningen af forsvaret i spillet af basketball fik mere anerkendelse, at data, der fandt sin plads. Efterhånden, som mere og mere data bliver tilføjet til NBA-arsenal, herunder visuelle og spatio-temporale data, stress-statistikker, og sociale medier indhold.
Den proces, der er to-vejs. Nogle gange nogen kan komme op med en idé til at kvantificere noget, som der ikke er nogen data, og nogle gange mulighed for at få nogle data til rådighed, kan anvendes på helt uventede måder.
Arbejder med fem-årige, der er svært, periode. Måske ikke overraskende er det ikke alle, der bekymrer sig om NBA får eller bekymrer sig om data og analytics. MIP nominerede har ikke udtrykt nogen stemning mod sådanne analyser, og der er ikke mange fans synes at være ude, der gør, hvad Spanbauer gjorde.
Nogle vil måske sige, fans og spillere, der er mere som fem-årige, alligevel, men sandheden er, hvis tingene ikke er simpelt nok til, at en fem-årig ville få, NBA analytics vil være på det statslige alle andre analytics er lige nu: Noget, et par eksperter og nogle entusiaster kan bruge, nogle andre har hørt om, og måske kan følge med, og for de fleste forbliver mumbo-jumbo.
Ligesom alle analytics-applikationer, til at anvende NBA analytics, de rigtige data kilder skal være fundet, har data, der skal behandles og integreres, domæne viden anvendes, analyse udført, og resultaterne visualiseres og forklaret.
Så skal NBA være mere åbenhed om kriterierne for sin awards? Og hvad ville være resultatet af at gøre dette? Kunne det gøre alt deterministisk, idet det sjovt-og penge-ud af det?
Vil data pro
Spanbauer er ikke den første ikke-pro til at engagere sig med NBA data analyse. Der er en bred vifte af NBA analytics-entusiaster, og en række mennesker, der arbejder professionelt i området. Og grænsen mellem de to er ikke altid klar, som Seth Partnow historie viser. Partnow er en ex-blogger vendt analytiker, som nu arbejder med Bukke. John Hollinger, den person, der introducerede PER, der nu arbejder for Grizzlies.
Men hvad er folk bruger NBA-data og analytics for? Det afhænger af, hvem de er, hvad de er ude efter, og hvilke redskaber de har til rådighed. Hvad du kan gøre med soveværelse analyser vil kun tage dig så langt. For nogle ting, high school math + regneark/internet + casual fan viden + et par timer vil gøre. For andre, det er nok mere som en Ph.d. – + IBM Watson + basketball guru-status + et par måneder.
Vi alle kender filmen Moneyball, og mange basketball-fans der er bekendt med Kawhi Leonard fremskridt gennem analytics. Vi ved også, hvordan top hold i alle sportsgrene er gradvist ved at blive drevet data, og vi har set IBM ‘ s Watson bliver udråbt som et værktøj til at hjælpe NBA-hold. Nogle af os har hørt om den manglende logik i den Varme Hånd fejlslutning.
For hold, er det første prioritet er at analysere spillet af deres egne spillere, og at deres modstandere med henblik på at forbedre og imødegå det, hhv. Scouting for nye rekrutter er også af betydning, og ved udgangen af den dag, det hele kommer ned til at vinde flere spil, som også kvalificerer sig til at gøre mere profit.
NBA-hold synes at være ved hjælp af analytics-programmer på tværs af spektret: Fra en forståelse af, hvad der er sket og hvorfor, til at forudsige, hvad der vil ske, og til at gøre det ske-beskrivende, diagnostik, intelligent, og med analytics.
Data i alle former og størrelser, der bruges overalt, og NBA kunne være nogen undtagelse.
For spil entusiaster, er det ikke så meget om selve spillet, men for det meste om at forsøge at gøre de rigtige forudsigelse, der vil gøre dem til vindere. For fans som Spanbauer, handler det mest om at få mere indsigt i spillet. Som en repræsentant for en data-drevet kultur piblede ned, hans synspunkter er interessante:
“Det er svært at ignorere den rolle og indflydelse avancerede målinger og statistikker har haft i basketball – samt andre sportsgrene. Mens analytics er ikke den eneste måde at analysere spil, jeg kan lide at tænke på det som en linse, hvorigennem man kan se.
Jeg ville ikke sige, at analytics handler om forudsigelser. Eller endda resultater, for at være ærlig. Det handler om at ændre den traditionelle opfattelse af organisationer, og den udvikling af front office. Du kan se mere penge, der bliver brugt til forskning, og flere arbejdspladser åbning inden for analytics.
Ved slutningen af dagen, tal er lige tal. En masse opmærksomhed til dem – nogle gange mere end nødvendigt. Det menneskelige element i spillet, kan ikke og bør ikke ignoreres. Der er stadig immaterielle aktiver, der har vi ikke været i stand til at måle, og måske ikke vil være i stand til at måle.
Det sagt, skal vi stadig fortsætte med at søge svar ved at udnytte så meget data, som vi kan. Flere tal og oplysninger, der fodres ind i enhver model vil give mere præcise resultater.
Jeg behøver ikke nødvendigvis mener, awards, bør have en form for kriterier. Priser er for fans, og en del af det sjove af priser, er diskuterer, blandt andre fans din mening om, hvem der skal eller ikke skal vinde. Men med tildeling valg dikterer løn og ydelser, som de udpegede-afspiller undtagelse, nogle hensyn til kriterier, der bør helt sikkert være givet.
Der er nok information ud til at retfærdiggøre at bruge penge og bruge analytics til at måle mange forskellige områder. Ejere og ledere generelt er på deres egne til at beslutte, hvorvidt de ønsker at have tillid til sig selv, eller de numre.”
Andre historier:
Automatisering automation: en ramme for udvikling og markedsføring af dyb læring modelsSpark får automation: at Analysere koden og tuning klynger i productionPepperdata Code Analyzer for Apache Gnist
0