Skrevet av Tiernan Ray, Bidragende Writer
Tiernan Ray Bidragsforfatter
Tiernan Ray har dekket teknologi og virksomhet i 27 år.
Full bio 12. januar 2022 | Emne: Kunstig intelligens
Fagtet dyplæring har lidd under det du kan kalle en Big Data-feilslutning, troen på at mer og mer data alltid er en god ting.
Det kan være på tide å fokusere på kvalitet fremfor bare kvantitet.
“Det er et veldig grunnleggende problem som mange AI står overfor,” sa Andrew Ng, grunnlegger og administrerende direktør for Landing AI, en oppstart som jobber med å perfeksjonere teknologien for industriell bruk, i et intervju med ZDNet denne uken .
“Mye AI er fokusert på å maksimere antall kalorier, som fungerer opp til et visst punkt,” sa han.
“Og noen ganger har du mye data, men når du har et lite datasett, er det mer kvaliteten på dataene enn det store volumet.”
Ng, som drev utvikling av storskala AI-systemer inkludert talegjenkjenningsteknologier da han var grunnlegger av Google Brain-enheten hos Google for et tiår siden, har nå mandatet til å bygge AI-teknologi som skal brukes av bedriftskunder til praktiske formål, som f.eks. inspeksjon på fabrikkgulvet.
Landing AI har mottatt 57 millioner dollar i finansiering til dags dato i én runde i november i fjor, fra McRock Capital Insight Partners, Taiwania Capital, Canada Pension Plan Investment Board, Intel Capital, Samsung Catalyst Fund, Far Eastern Groups DRIVE Catalyst, Walsin Lihwa, og AI-fondet.
Ng er også medgründer av Coursera, det elektroniske læreplanselskapet, og en adjunkt i informatikk ved Stanford University.
Big Data-feilen har sin opprinnelse i det tekniske behovet dyplæringsformer for AI har for store utvalg av et gitt undersøkelsesdomene. Dyplæringstilnærminger har fokusert på å få nok datapunkter for å unngå det som kalles “overtilpasning”, der stadig større nevrale nettverk ganske enkelt vil huske treningsdata.
Hvis dyp læring husker treningsdata, klarer den ikke å generalisere om arten av disse dataene, som vanligvis er nøkkelen til at et nevralt nettverk er nyttig for å lage spådommer.
Men et budsjett på millioner eller til og med milliarder av data er ikke mulig i noen sammenhenger, for eksempel et produksjonsinspeksjonssystem, der en enkelt defekt av en million identiske deler kan være den eneste dataen om produksjonsfeil .
“Jeg har bygget AI-systemer med hundrevis av millioner bilder,” sier Ng, som var grunnlegger av Googles Google Brain-gruppe, og sjefforsker ved Baidu. “Disse teknikkene fungerer egentlig ikke når du bare har 50 bilder,” sa han.
Landing AI
“Jeg har bygget AI-systemer med hundrevis av millioner bilder” hos Google og som sjefforsker i Baidu. “Disse teknikkene fungerer egentlig ikke når du bare har 50 bilder,” sa han.
Ng sa at Landing AI har vært i stand til å utvikle nyttige industrielle modeller for klienter med en relativ håndfull dataprøver.
“I stedet for Big Data, har vi måttet fokusere på gode data,” sa Ng.
I motsetning til den typiske tenkningen om Big Data, kan bruk av en så liten prøvestørrelse på dusinvis i stedet for millioner av eksempler være gjennomførbar.
Også: AI må takle sparsomhetsutfordringen, sier Landing AIs Gopi Prashanth
“Jeg har gjentatte ganger blitt overrasket over hvor godt vi kan få et nevralt nettverk til å gjøre med bare 50 bilder hvis du sørger for at det har 50 virkelig gode bilder,” sa Ng. “Verktøyene vi har innovert på Landing AI er at du bare har 50 bilder, så hvordan merker du det for å få best mulig ytelse ut av bare 50 bilder.”
“Jeg føler at vi har knekt oppskriften” for bruk av dyp læring i produksjon, sa han.
På en måte kan Big Data-feilen ses på som halen som logrer med hunden. For å unngå overtilpasning dreide all oppmerksomhet i dyplæring seg om hvordan man kunne få dyplæringsmodellen, programmets struktur, til å fungere optimalt.
Nå argumenterer Ng for et større fokus på hvilke datapunkter som er viktigst, og få modellen til å passe til det.
“Oppskriften som folk som meg og mange av vennene mine har utviklet for å få AI til å fungere i forbrukerprogramvarefirmaer, fungerer ikke for produksjonsbedrifter og mange andre selskaper,” sa Ng.
“Det grunnleggende problemet er, hvis du har hundre milliarder eller millioner brukere, kan du bygge et monolitisk AI-system; produksjon er noe annet.”
“Han er en guru,” sier Ng fra pioneren innen datasyn og industriell automasjon David L. Dechow.
Landing AI
Behovet er mange, mange arkitekturer, mange forskjellige nevrale nett som passer til dataene.
“Utfordringen som feltet AI står overfor er hvordan vi kan hjelpe produksjonen med å bygge ikke én eller et dusin AI-modeller, men å hjelpe 10 000 forskjellige produsenter med å bygge 10 000 forskjellige AI-modeller fordi hver fabrikk, hver komponent trenger sin egen modell.”
Utfordringen for en oppstart er selvfølgelig “hvordan gjøre det uten at jeg ansetter 10 000 ingeniører.” I Landing AIs tidlige dager – selskapet ble grunnlagt i 2017 – sa Ng at han hadde vært «naiv».
“I de første dagene gjorde vi mye konsulentarbeid, prøvde å gjøre mye av tilpasningen selv, og det ble bare ikke skalert.” Ng tror mange AI-startups støter på det problemet, og blir konsulentfirmaer.
Også: Absci og dyp lærings søken etter det perfekte proteinet
Bedriften satset på å lage verktøy for å få alle disse kundene til å gjøre tilpasningen. Det samme, sa han, må være tilnærmingen i bransjer som helsevesenet.
“Å utvikle dataene er virkelig utfordrende,” observerte Ng. “Jeg tror det er erfarne Ai-ingeniører som har gjort intuitivt i lang tid, men å bygge verktøy som gjør det raskt og enkelt for mange mennesker å gjøre det vellykket, det var en veldig dyp teknisk utfordring.”
Ng har spredd evangeliet i samtaler om den nye vektleggingen av kvalitet, og om hvordan man kan gjøre dataene klare for maskinlæringsmetoder.
Han kaller synet sitt “datasentrisk AI.”
Mer om Ngs tankegang kan sees i et videointervju tilbake i mars.
Selskapet kunngjorde onsdag at de har ansatt David L. Dechow, en pioner innen datasynsteknologi, som tidligere var hovedarkitekt for synssystemer for oppstarten Integro Technologies.
Mye av maskinlæringsarbeidet som har blitt gjort i industrien i mange år har handlet om å sette kameraer på butikkgulvet for å observere produksjonslinjen, bemerket Ng. Dechow har vært en pioner i denne observasjonsflyttingen til fabrikken, sa han.
Også: AI-oppstart Abacus.ai tar 50 millioner dollar i serie C for å fremme hybride dyplæringsmodeller
“I mange tiår, selv før den nylige boomen i datasyn, har produsenter satt kameraer i fabrikker,” sa Ng. “Kameraer er veldig gode til å måle den nøyaktige lengden på en del, og oppdage visse typer defekter hvis du kan kode en regel for å spesifisere nøyaktig hva du leter etter.”
Med moderne dyplæringssystemer er målet å gjøre mye mer fleksibel AI for defektdeteksjon uten slike rigide regelbaserte tilnærminger.
“I maskinsynsverdenen og industriell automasjonsverden er han en guru,” sa Ng fra Dechow. “Generasjoner av synsingeniører i dag har blitt trent av David.
“Hvis du kunne hente inn én person fra maskinsynsfeltet, ville det vært ham,” sa Ng.
se også
Kunstig intelligens i den virkelige verden: Hva kan det faktisk gjøre det?
Hva er grensene for AI? Og hvordan går du fra å administrere datapunkter til å injisere AI i bedriften?
Les mer
Digital transformasjon | CXO | Internet of Things | Innovasjon | Enterprise Software | Smart Byer