NBA analytics: data pro

0
120

0

6a27ba60-94d6-419a-a142-4d6fff9b78b2-nba11280x720.jpg

Vergeet Moneyball. Hoe zit het met het definiëren van gegevens voor de NBA Awards? Hoe moeilijk kan dat zijn? (Afbeelding: NBA)

De NBA kondigt haar jaarlijkse awards vandaag. Dit is een langverwachte gebeurtenis die is besproken en geanalyseerd uitgebreid over sport-media en daarbuiten. Voorspellingen en argumenten die moeten worden genomineerd en wie zou moeten winnen elke award zijn al bijna sinds het begin van het seizoen.

Het houden van fans die betrokken is goed, maar er zijn meer aspecten aan awards, zoals deze: Ze kunnen de media iets om over te praten, het stimuleren van de speler en het team statussen, en iedereen kan inzetten op de resultaten.

Als onderdeel van de pop-cultuur, en hebben het potentieel om maken of breken carrière en fortuin betekent dat er meer naar de NBA-Awards die voldoet aan de ogen. Laten we het proberen en neem een kijkje achter de spiegel en gebruik gegevens van de wetenschap en analytics om een vraag te beantwoorden op vele NBA-fans gedachten: Wie was de meest verbeterde speler (MIP) in de NBA dit seizoen?

Het definiëren van een ‘verbeterde’

Om te beginnen, wie krijgt te definiëren verbeterd, en hoe? Als een NBA schrijver heeft ooit gezegd: “Er zijn een paar dingen meer frustrerend dan te proberen om te bepalen wat het betekent om de MIP”. Aan de andere kant, dat maakt het interessant en open voor interpretatie. Sinds de NBA zegt niet veel over de criteria en de evaluatie methode, anderen hebben geprobeerd om te komen met hun eigen.

De traditionele manier NBA schrijvers dit doen, is door montage van een panel van deskundigen, en om ze te wegen. Gemiddelde van de meningen van de deskundigen kan meer op de objectieve kant dan alleen het verkrijgen van een advies, maar het nog steeds niet tellen als data-driven onderzoek in de meeste data-analisten’ boeken.

Adam Fromal van Bleker Rapport betoogd dat de MIP is “een paar jaar overhandigd aan een speler die gehandhaafd zijn niveau van spelen (of zelfs op het beslissende licht) tijdens het vullen van een veel grotere rol. Andere tijden, de competitie beloningen die een medewerker die merkbare vooruitgang op beide uiteinden van de vloer en deed rechtmatig verbeteren op een per-minuut. Sterren kunnen winnen voor het bereiken van een nieuw niveau, al is de prijs vaak gaat om een low – of mid-level rotatie lid die de sprong naar legitimiteit. Hier hebben we de boekhouding voor alles met de resterende helemaal objectief.”

Dat is een sterke claim. Hier is wat Fromal gedaan en wat we hiervan kunnen leren.

Fromal de methodologie is gebaseerd op het wieden van spelers die beter zijn voor geen andere reden dan nieuwe kans, en grading spelers door hoeveel ze verbeterde in twee verschillende overkoepelende statistieken. Fromal willen belonen beide spelers die je beter op een per-minuut en degenen die stagneren tijdens het vullen van grotere rollen.

Fromal presenteert zijn analyse van wat hij noemde “een countdown die opzettelijk vermijdt subjectiviteit.” Dat is niet altijd goed ontvangen door iedereen. Fromal heeft ontvangen iets van vloeken naar beschuldigingen van bias, en hij is ook hilarisch plagiaat, als de copycat verkeerd geïnterpreteerd zijn resultaten. Maar hoe goed heb Fromal doen?

Fromal de top drie bestaat uit twee uit de drie spelers aangewezen door de NBA voor de MIP — Giannis Antetokounmpo op Nummer 2 en Rudy Gobert op Nummer 3. Zijn Nummer 1 was Myles Turner, een speler over het hoofd gezien door vrijwel iedereen anders. Fromal gemist Denver ‘ s Nicola Jokic, die voor de meeste analisten en fans was een voor de hand liggende kandidaat.

Dit kan aanleiding geven Fromal sommige objectiviteit krediet, want hij is een Denver ingezeten, maar roept de vraag op waar heeft de NBA en data-gedreven-analyse onderdeel manieren. Het antwoord is misschien ligt in wat Fromal zelf opmerkingen: praktische oefeningen (zoals Turner) zijn doorgaans verwacht te verbeteren. In andere analyses, praktische oefeningen zijn uitgesloten van de MIP discussie.

Nog steeds, hoe kan Jokic niet in die lijst? Is het Fromal ontbreekt er iets duidelijk is, of de NBA heeft zijn eigen manier van denken? Misschien nog belangrijker, toch? Doet de NBA zien iets Fromal analyse niet, of doen de mensen er hun keuze niet geheel gebaseerd op gegevens gebaseerde criteria en methoden?

Gegevens voldoen aan de ogen

Fromal is een professionele NBA schrijver, en hoewel hij niet over een formele achtergrond op data-analyse, lijkt hij doet veel voor zijn werk. Jay Spanbauer aan de andere kant is het niet een pro met alle middelen-slechts een Dollar fan die begon te kijken naar het spel op een andere manier met de instroom van de wiskunde en de gegevens in de NBA. Maar misschien Spanbauer de data-gedreven analyse is geslaagd waar Fromal mislukt.

Beide analyses zijn gedaan voor de NBA aangekondigd MIP genomineerden, maar Spanbauer voorafgegaan Fromal door een maand en verengd de MIP strijd tussen Jokic en Antetokounmpo. Niet alleen dat, maar hij is ook gewezen op een verschil tussen hen, dat kan ook leiden de NBA te geven Antetokounmpo de MIP award in een race die lijkt meestal tussen die twee: de Verdediging.

Spanbauer gebruikt een gegeven genoemd Defensieve Winnen Aandelen aan te tonen is het grootste verschil tussen de twee. Hij wees erop dat ondanks de defensieve mogelijkheden moeilijk te berekenen nauwkeurig kan worden gezien dat Jokic ligt onderaan de league gemiddelde, terwijl Antetokounmpo is meer dan twee-en-een-half keer hoger. Misschien is het nu duidelijk, maar niemand anders lijkt te hebben voor de gebruikte gegevens naar nail dit als Spanbauer deed.

1-xizncsmshpsmsh26xjx8-w.jpg

Het ligt voor de hand nu, maar niet veel mensen dachten over het vergelijken van de MIP kandidaten op basis van hun gegevens en het visualiseren van deze voor anderen om te zien. (Afbeelding: Jay Spanbauer)

Dat is een duidelijk gegeven en verschil, maar waarom dan focus op deze twee spelers op de eerste plaats? In tegenstelling tot Fromal, Spanbauer ging met een combinatie van instinct en gegevens:

“Ik denk dat uiteindelijk de gegevens moeten gebruikt worden om te ‘controleren’ wat onze ogen zien. Iedereen die keek naar de NBA dit jaar zag de geweldige sprong Giannis Antetokounmpo gemaakt. Een kijkje op zijn cijfers bevestigen dit.

Met non-stop dekking, blogs, Twitter, etc, er is genoeg informatie en genoeg discours voor een groep van genomineerden redelijk besloten. Ik heb nog steeds vertrouwen in de traditionele manier genomineerden zijn geselecteerd, zeker voor een award als ‘open’ of ‘vocht’, zoals de MIP. Case-in-point: Het duidelijk genomineerden voor de MIP in 2017 zijn Antetokounmpo en Jokic. Op zoek naar cijfers en het berekenen van gegevens zou waarschijnlijk brengen u tot hetzelfde resultaat.”

Behalve dat het niet — althans niet met Fromal statistieken en gegevens. Die brengt ons naar een belangrijk punt: Zelfs als er iets is op basis van gegevens en heeft een duidelijke definities, dat maakt het niet een van God gegeven waarheid. Gegevens ter ondersteuning van een standpunt geloofwaardiger, en het kan ook toestaan dat het ontdekken van patronen die anders moeilijk te herkennen zijn. Maar de data-gedreven niet noodzakelijkerwijs gelijk te ontkennen.

Het probleem met de data-driven besluitvorming

We noemden al de “geen tweedejaarsstudenten voor MIP” regel gebruikt door sommige NBA analisten. Als de NBA zou zijn gegaan, Turner zou worden terecht niet een MIP kandidaten, maar geen van beide zou worden Jokic. Dus, als Turner het nummer is beter dan Jokic, wat is de NBA redenering er?

Dat is het soort vragen dat kan de warmte van de debatten. Het kan ook dienen om een paar feiten over data-driven besluitvorming.

Coming up met de “juiste” criteria is de vaste en ad-hoc. Dus misschien de criteria voor de MIP moet naar beneden komen om wat Fromal gebruikt. En misschien tweedejaars moet worden uitgesloten, behalve in sommige gevallen. Maar wat zou die gevallen worden? Wat te denken van spelers die een comeback na een slecht jaar? Of knikkend naar een speler die konden gebruik maken van de aanmoediging, of een markt die de competitie wil groeien?

Of een van de bovenstaande zijn legitieme criteria — of, wanneer en hoe zij worden beschouwd als door de NBA — is open voor interpretatie. Soms zijn dit algemene organisatorische doelen en stuurprogramma ‘ s zijn duidelijk, soms zijn ze niet. Maar laat ons niet vergeten: Organisatie leidinggevenden hebben een grote invloed gehad op deze, ongeacht of de data wordt gebruikt om vast te leggen en te evalueren.

Gaande van criteria om statistieken is de vaste en ad-hoc. Stel, dat iemand een of andere manier verengd de MIP criteria en geschreven in steen. Wat is het gegeven dat het beste uitdrukking geeft aan elk? En hoe moeten ze worden met elkaar gecombineerd voor het afleiden van een algemene score?

Zelfs de meest wijd en zijd gebruikte gegevens werden afgeleid door iemand op een bepaald moment en houden hun schepper vooroordelen en tekortkomingen — waargenomen of anderszins. In het geval van basketbal, waarschijnlijk het meest bekend gegeven is de PER. De vraag of dat de beste algemene gegeven voor het vastleggen van een speler op het vermogen en de invloed in het spel wordt besproken.

Er zijn meer gegevens, ook die zijn voortdurend in ontwikkeling, en de meeste van hen vereisen een zekere mate van expertise in het domein (basketbal) en de technieken (data science) in staat zijn om volledig te begrijpen en te evalueren.

bigdatamaturity.png

DataOps is de cultuur en praktijk van het gebruik van data en analytics om te rijden de besluitvorming in organisaties. Maar het is niet onfeilbaar. (Afbeelding: Qubole)

Het hebben van de juiste gegevens voor de taak is moeilijk en niet een gegeven. Sommige gegevens die vandaag worden gebruikt om gegevens af te leiden over de NBA-spelers’ defensieve mogelijkheden, zoals steelt en blokken, werden niet opgenomen tot de jaren ‘ 70. Dit weerspiegelt niet alleen het toenemend belang van data overal, maar ook de evolutie van het domein zelf.

Wanneer het belang van de verdediging in het spel van basketbal kreeg meer erkenning, dat de gegevens zijn plaats gevonden. Geleidelijk aan worden er meer en meer gegevens worden toegevoegd aan de NBA arsenaal, waaronder visueel en ruimtelijk-temporele gegevens, drukte statistieken en social media content.

Het proces verloopt in twee richtingen. Soms zal iemand komen met een idee te kwantificeren iets voor dat er geen gegevens zijn, en soms ook de optie hebben om enkele van de beschikbare gegevens kan worden gebruikt op een onverwachte manier.

Werken met vijf-jarigen is hard, periode. Misschien niet verrassend, niet iedereen die zich bekommert over de NBA krijgt of geeft om gegevens en analyses. MIP genomineerden hebben niet tot enig sentiment in de richting van dergelijke analyses, en niet veel fans lijken er te doen wat Spanbauer deed.

Sommigen zullen misschien zeggen de fans en de spelers zijn meer als vijf-jarigen in ieder geval, maar de waarheid is als de dingen zijn niet eenvoudig genoeg dat een vijf jaar oud zou krijgen, NBA analytics zal worden in de staat alle andere analyses zijn nu: Iets van een paar deskundigen en sommige liefhebbers kunnen gebruiken, sommige anderen hebben gehoord en misschien kunt volgen, en voor de meeste blijft mumbo-jumbo.

Net als alle analytics-toepassingen, van toepassing NBA analytics, de juiste gegevens bronnen moeten worden gevonden, gegevens worden verwerkt en geïntegreerd, domein kennis toegepast, analyse gedaan, en de resultaten gevisualiseerd en toegelicht.

Dus, moet de NBA transparanter worden over de criteria die voor de awards? En wat zou het resultaat zijn van dit te doen? Zou het alles deterministisch, het nemen van de leuke — en geld-uit?

Gaan van gegevens pro

Spanbauer is niet de eerste niet-pro aan te gaan met de NBA data-analyse. Er is een scala van NBA analytics-liefhebbers, en een aantal mensen die professioneel te werken in het gebied. En de grenzen tussen de twee zijn niet altijd even duidelijk, als de Seth Partnow verhaal laat zien. Partnow is een ex-blogger draaide analist die nu werkt met de Bucks. John Hollinger, de persoon die introduceerde de PER, werkt nu voor de Grizzlies.

Maar wat zijn mensen met behulp van NBA gegevens en analyses voor? Het hangt af van wie ze zijn, wat ze na, en wat zijn de instrumenten die ze tot hun beschikking hebben. Wat u kunt doen met slaapkamer analyses zal alleen neemt u dan zo ver. Voor sommige dingen, high school math + spreadsheet/internet + casual fan kennis + een paar uur doen. Voor anderen is het waarschijnlijk meer als een PhD + IBM Watson + basketbal guru status + een paar maanden.

We kennen allemaal de film Moneyball, en veel basketbal fans zijn bekend met Kawhi Leonard de vooruitgang door middel van google analytics. We weten ook hoe de top teams in alle sporten zijn geleidelijk steeds meer gegevens gereden, en we hebben gezien IBM ‘ s Watson wordt aangeprezen als hulpmiddel om de NBA-teams. Sommigen van ons gehoord over de drogreden van het Warme Hand drogreden.

Voor teams, de eerste prioriteit is voor het analyseren van het spel van hun eigen spelers en die van hun tegenstanders om te verbeteren en tegen het respectievelijk. Scouting voor nieuwe medewerkers is het ook van belang, en aan het einde van de dag, het komt allemaal neer op het winnen van meer games, die ook in aanmerking komt voor het maken van meer winst.

NBA-teams lijken te zijn met google analytics-toepassingen over het hele spectrum: van het begrijpen Van wat er is gebeurd en waarom, om te voorspellen wat er zal gebeuren, en aan het maken van het gebeuren — beschrijvende diagnose, voorspellende en prescriptive analytics.

data-lake2.jpg

Gegevens in alle vormen en maten en overal gebruikt, en de NBA was geen uitzondering.

Voor het wedden liefhebbers, het gaat niet zozeer om het spel zelf, maar vooral over het proberen om de juiste voorspelling die ze aan de winnaars. Voor fans zoals Spanbauer, het gaat vooral over het krijgen van meer inzicht in het spel. Als vertegenwoordiger van een data-gedreven cultuur naar beneden druppelen, zijn standpunten zijn interessant:

“Het is moeilijk om te negeren van de rol en de invloed op de geavanceerde statistieken en statistieken hebben gehad in de basketbal – evenals andere sporten. Hoewel google analytics is niet de enige manier voor het analyseren van het spel, ik denk dat het als een andere lens te kijken.

Ik zou niet zeggen dat analytics is alles over voorspellingen. Of zelfs resultaten, om eerlijk te zijn. Het gaat over het veranderen van de traditionele denkwijze van de organisaties, en de evolutie van de front office. Zie je meer geld wordt besteed aan onderzoek, en meer banen opening in het gebied van analytics.

Aan het einde van de dag, de nummers zijn gewoon nummers. Veel aandacht is er voor hen – soms meer dan nodig. Het menselijke element van het spel kan en mag niet genegeerd worden. Er zijn nog immateriële zaken die we niet hebben kunnen meten, en misschien niet in staat zal zijn om te meten.

Dat gezegd hebbende, moeten we steeds blijven zoeken naar antwoorden door gebruik te maken van zoveel mogelijk gegevens kan. Meer cijfers en informatie ingevoerd in een model zal meer accurate resultaten.

Ik hoef niet per se geloven awards moet een soort van criteria. Awards zijn voor de fans, en een deel van het plezier van de awards is het debat over onder andere de fans uw mening over wie wel of niet mag winnen. Echter, met selecties dicteren van de bezoldigingen en voordelen, zoals de aangewezen-speler uitzondering, wat aandacht naar de criteria moet zeker worden gegeven.

Er is genoeg informatie te vinden om te rechtvaardigen dat het uitgeven van geld en het gebruik van google analytics te meten veel verschillende gebieden. Eigenaren en algemene managers zijn op hun eigen om te beslissen of ze wel of niet wilt vertrouwen op zichzelf, of de nummers.”

Andere verhalen:

Het automatiseren van de automatisering: een kader voor de ontwikkeling en marketing van diep leren modelsSpark krijgt automatisering: het Analyseren van de code en afstemming clusters in productionPepperdata Code Analyzer voor Apache Vonk

0