De staat van AI in 2021: machine learning in productie, MLOps en datacentrische AI

0
119

George Anadiotis

Door George Anadiotis voor Big on Data | 14 oktober 2021 | Onderwerp: Big Data Analytics

Het is weer die tijd van het jaar: rapporten over de staat van AI voor 2021 zijn uit. Een paar dagen geleden was het het Machine learning, Artificial Intelligence and Data-rapport van Matt Turck, dat ZDNet Big on Data-collega Tony Baer behandelde. Deze week is het het rapport State of AI 2021, door Nathan Benaich en Ian Hogarth.

Na het uitbrengen van wat waarschijnlijk het meest uitgebreide rapport over de staat van AI in 2020 was, zijn Air Street Capital en RAAIS-oprichter Nathan Benaich en AI-engelinvesteerder en UCL IIPP-professor Ian Hogarth terug voor meer.

In wat een gewaardeerde jaarlijkse traditie wordt, spraken we met Benaich en Hogarth over onderwerpen die ons opvielen in het rapport.

MLOps, machine learning in productie

Ten eerste is er overlap met de onderwerpen die Turck behandelde en Baer rapporteerde, en terecht. Zoals Baer opmerkte, verandert de golf van beursintroducties en de verspreiding van eenhoorns deze markt in een eigen sector, en dat is onmogelijk te negeren. Voor een overzicht van markttrends raden we lezers aan om Baer's berichtgeving te bekijken.

Dat gezegd hebbende, is ons gevoel dat het State of AI 2021-rapport meer onderwerpen behandelt: de nieuwste ontwikkelingen in AI-onderzoek, industrie, talent en politiek, terwijl het ook waagt aan voorspellingen. In feite houden Benaich en Hogarth hun voorspellingen bij, en ze doen het redelijk goed. In 2020 voorspelden ze bijvoorbeeld correct de obstakels bij de overname van Arm door Nvidia, en AI en biotech-gerelateerde IPO's.

Zoals Benaich opmerkte, hebben ze, omdat ze investeerders zijn in verschillende, meestal vroege stadia van machine learning-bedrijven, toegang tot grote AI-labs, academische groepen, opkomende startups, grotere bedrijven en mensen die bij de overheid werken. Dus proberen ze al die verschillende invalshoeken te synthetiseren in een publiek goed product dat open source is en als doel heeft alle belanghebbenden holistisch te informeren.

We hebben een aantal overkoepelende thema's gekozen die ons opvielen in het rapport, zoals we hebben gedaan identificeerde ze ook het hele jaar door. De eerste is MLOps: de kunst en wetenschap om machine learning tot productie te brengen. Bij het operationaliseren van AI verschuift de nadruk van glimmende nieuwe modellen naar misschien meer alledaagse, maar praktische aspecten.

datacentric0

Met de toenemende kracht en beschikbaarheid van machine learning-modellen, zijn de voordelen van modelverbeteringen marginaal geworden. In deze context wordt de machine learning-gemeenschap zich steeds meer bewust van het belang van betere gegevenspraktijken, en meer in het algemeen betere MLOps, om betrouwbare machine learning-producten te bouwen.

Hazy Research, Stanford

Met de toenemende kracht en beschikbaarheid van machine learning-modellen, zijn de voordelen van modelverbeteringen marginaal geworden. In deze context wordt de machine learning-gemeenschap zich steeds meer bewust van het belang van betere gegevenspraktijken, en meer in het algemeen betere MLOps, om betrouwbare machine learning-producten te bouwen.

Benaich merkte op dat ze het belangrijk vonden om vernieuwde aandacht te besteden aan aandacht in meer branchegericht academisch werk rond gegevenskwaliteit en verschillende problemen die kunnen voorkomen in gegevens die zich uiteindelijk verspreiden naar ML-modellen, om te bepalen of modellen goed voorspellen of niet:

“Veel academici waren gericht op het concurreren op statische benchmarks, het offline tonen van modelprestaties op deze benchmarks en vervolgens de industrie in. Dus generatie één ging veel over – laten we gewoon een model krijgen dat werkt voor een specifiek probleem, en dan omgaan met eventuele problemen of wijzigingen wanneer ze zich voordoen.

Google-onderzoekers definiëren datacascades als 'compounding events die negatieve, downstream-effecten van dataproblemen veroorzaken'. Ondersteund door een enquête onder 53 praktijkmensen uit de VS, India, Oost- en West-Afrikaanse landen waarschuwen dat de huidige praktijken datakwaliteit onderwaarderen en resulteren in datacascades.

Het is een vrij intuïtief idee – het domino-effect. Als je in het begin een probleem hebt, zal het waarschijnlijk naar beneden komen tegen de tijd dat je bij de laatste dominosteen bent. Wat opvalt, is dat de overgrote meerderheid van de datawetenschappers meldt een van deze problemen te hebben ondervonden.

Toen ze probeerden toe te schrijven waarom deze problemen zich daadwerkelijk hebben voorgedaan, was dit meestal te wijten aan een gebrek aan erkenning van het belang van gegevens in de context van hun werk in AI, of een gebrek aan training in het domein, of het niet krijgen van toegang tot voldoende gespecialiseerde gegevens voor de bepaald probleem dat ze aan het oplossen waren.

Waar dat op wijst, is dat er in de wereld van machine learning meer nuance is dan 'goede gegevens' en 'slechte gegevens'. Aangezien datasets veelzijdig zijn, met verschillende subsets die in verschillende contexten worden gebruikt en verschillende versies evolueren, is context de sleutel bij het definiëren van datakwaliteit. De inzichten van machine learning in productie zetten aan tot een verschuiving van de focus van modelgerichte naar datagerichte AI.

Datacentrische AI ​​is een begrip dat is ontwikkeld in Hazy Research, Chris Ré's Research Group aan Stanford. Zoals opgemerkt, is het belang van gegevens niet nieuw — er zijn gevestigde wiskundige, algoritmische en systeemtechnieken voor het werken met gegevens, die in de loop van tientallen jaren zijn ontwikkeld.

Wat wel nieuw is, is hoe u voortbouwen op deze technieken en deze opnieuw onderzoeken in het licht van moderne AI-modellen en -methoden. Nog maar een paar jaar geleden hadden we geen langlevende AI-systemen of het huidige ras van krachtige diepe modellen.

Doe volgende week met ons mee terwijl we het gesprek met Benaich en Hogarth voortzetten, over onderwerpen als taalmodellen, AI-commercialisering en AI-aangedreven biotechnologie.: 

Big Data

Vertica versnelt duik in de cloud Observe Inc en het avontuur om een ​​van Snowflake's beste gebruikers te zijn Digitale transformatie is aan het veranderen. Dit is wat er daarna komt De beste carrières die je kunt beginnen met een informatica-diploma

Verwante onderwerpen:

Tech Industrie Digitale Transformatie Robotica Internet of Things Innovatie Enterprise Software George Anadiotis

Door George Anadiotis voor Big on Data | 14 oktober 2021 | Onderwerp: Big Data-analyse