Design af AI kan ændre sig med open source Apache TVM og lidt hjælp fra opstarten OctoML

0
129

Tiernan Ray

Af Tiernan Ray | 25. november 2021 | Emne: Kunstig intelligens

I de senere år har kunstig intelligens-programmer ført til ændringer i designet af computerchips, og nye computere har ligeledes muliggjort nye former for neurale netværk i AI. Der foregår en feedback-loop, som er kraftfuld.

I centrum af det sidder softwareteknologien, der konverterer neurale netprogrammer til at køre på ny hardware. Og i centrum af det sidder et nyligt open source-projekt, der tager fart.

Apache TVM er en compiler, der fungerer anderledes end andre compilere. I stedet for at omdanne et program til typiske chip-instruktioner til en CPU eller GPU, studerer det “grafen” af beregningsoperationer i et neuralt net, i TensorFlow- eller Pytorch-form, såsom foldninger og andre transformationer, og finder ud af, hvordan de bedst kortlægges. operationer til hardware baseret på afhængigheder mellem operationerne.

I hjertet af den operation sidder en to år gammel startup, OctoML, som tilbyder ApacheTVM som en service. Som udforsket i marts af ZDNets George Anadiotis, er OctoML inden for MLOps, der hjælper med at operationalisere AI. Virksomheden bruger TVM til at hjælpe virksomheder med at optimere deres neurale net til en bred vifte af hardware.

Også: OctoML scorer $28M for at gå på markedet med open source Apache TVM, en de facto standard for MLOps

I den seneste udvikling inden for hardware- og forskningsfeedbacksløjfen kan TVMs optimeringsproces allerede være ved at forme aspekter af, hvordan AI udvikles.

“Allerede i forskning kører folk modelkandidater gennem vores platform og ser på ydeevnen,” sagde OctoML-medstifter Luis Ceze, der fungerer som CEO, i et interview med ZDNet via Zoom. De detaljerede præstationsmålinger betyder, at ML-udviklere kan “faktisk evaluere modellerne og vælge den, der har de ønskede egenskaber.”

I dag bruges TVM udelukkende til inferens, den del af AI, hvor et fuldt udviklet neuralt netværk bruges til at lave forudsigelser baseret på nye data. Men hen ad vejen vil TVM udvide til træning, processen med først at udvikle det neurale netværk.

“Allerede i forskning kører folk modelkandidater gennem vores platform og ser på ydeevnen,” siger Luis Ceze, medstifter og administrerende direktør for startup OctoML, som kommercialiserer open-source Apache TVM-kompileren til maskinlæring og gør den til en cloud-tjeneste. De detaljerede præstationsmålinger betyder, at ML-udviklere kan “faktisk evaluere modellerne og vælge den, der har de ønskede egenskaber.”

“Træning og arkitektursøgning er i vores køreplan,” sagde Ceze med henvisning til processen med at designe neurale netarkitekturer automatisk ved at lade neurale net søge efter det optimale netværksdesign. “Det er en naturlig forlængelse af vores land-og-udvid tilgang” til at sælge den kommercielle tjeneste fra TVM, sagde han.

Vil udviklere af neurale net så bruge TVM til at påvirke, hvordan de træner?

“Hvis de ikke er det endnu, formoder jeg, at de vil begynde,” sagde Ceze. “En der kommer til os med et træningsjob, vi kan træne modellen for dig” mens vi tager højde for, hvordan den trænede model ville klare sig på hardware.

Den voksende rolle for TVM og OctoML-tjenesten er en konsekvens af, at teknologien er en bredere platform, end hvad en compiler typisk repræsenterer.

“Du kan tænke på TVM og OctoML i forlængelse heraf som et fleksibelt, ML-baseret automatiseringslag til acceleration, der kører oven på alverdens forskellig hardware, hvor maskinlæringsmodeller kører – GPU'er, CPU'er, TPU'er, acceleratorer i skyen,” sagde Ceze til ZDNet.

“Hver af disse stykker hardware, det er lige meget hvilken, har deres egen måde at skrive og udføre kode på,” sagde han. “At skrive den kode og finde ud af, hvordan man bedst udnytter denne hardware i dag, foregår i dag manuelt på tværs af ML-udviklere og hardwareleverandører.”

Compilatoren og tjenesten erstatter den håndjustering – i dag på inferensniveauet, med modellen klar til implementering, i morgen, måske i den faktiske udvikling/træning.

Også: AI ændrer hele computerens natur

Kernen i TVM's tiltrækningskraft er større ydeevne i form af gennemløb og latens og effektivitet i forhold til computerens strømforbrug. Det bliver mere og mere vigtigt for neurale net, der bliver ved med at blive større og mere udfordrende at køre.

“Nogle af disse modeller bruger en vanvittig mængde beregning,” bemærkede Ceze, især naturlige sprogbehandlingsmodeller såsom OpenAI's GPT-3, der skaleres til en billion neurale vægte eller parametre og mere.

Da sådanne modeller opskaleres, kommer de med “ekstrem omkostninger,” sagde han, “ikke kun i træningstiden, men også serveringstiden” for udledning. “Det er tilfældet for alle de moderne maskinlæringsmodeller.”

Som en konsekvens, uden at optimere modellerne “i en størrelsesorden,” sagde Ceze, er de mest komplicerede modeller ikke rigtig levedygtige i produktionen, de forbliver blot forskningsmæssige kuriositeter.

Men at udføre optimering med TVM involverer sin egen kompleksitet. “Det er et væld af arbejde at få resultater, som de skal være,” bemærkede Ceze.

OctoML forenkler tingene ved at gøre TVM til mere en trykknap-sag.

“Det er en optimeringsplatform,” sådan karakteriserer Ceze cloud-tjenesten.

“Fra slutbrugerens synspunkt uploader de modellen, de sammenligner modellerne og optimerer værdierne på et stort sæt hardwaremål,” sådan beskrev Ceze tjenesten.

“Nøglen er, at dette er automatisk – ingen sved og tårer fra ingeniører på lavt niveau, der skriver kode,” sagde Ceze.

OctoML udfører udviklingsarbejdet med at sikre, at modellerne kan optimeres til en stigende konstellation af hardware.

“Nøglen her er at få det bedste ud af hvert stykke hardware.” Det betyder “specialisering af maskinkoden til de specifikke parametre for den specifikke maskinlæringsmodel på et specifikt hardwaremål.” Noget som en individuel foldning i et typisk foldningsneuralt netværk kan blive optimeret til at passe til en bestemt hardwareblok i en bestemt hardwareaccelerator.

Resultaterne er påviselige. I benchmark-tests, der blev offentliggjort i september for MLPerf-testpakken for neural net-inferens, havde OctoML en topscore for inferensydelse for den ærværdige ResNet-billedgenkendelsesalgoritme med hensyn til billeder behandlet pr. sekund.

OctoML-tjenesten har været i en pre-release, tidlig adgangstilstand siden december sidste år.

For at fremme sin platformstrategi annoncerede OctoML tidligere på måneden, at de havde modtaget $85 millioner i en serie C-runde af finansiering fra hedgefonden Tiger Global Management sammen med eksisterende investorer Addition, Madrona Venture Group og Amplify Partners. Finansieringsrunden bringer OctoML's samlede finansiering til $132 millioner.

Finansieringen er en del af OctoML's indsats for at sprede indflydelsen fra Apache TVM til mere og mere AI-hardware. Også i denne måned annoncerede OctoML et partnerskab med ARM Ltd., det britiske firma, der er i færd med at blive købt af AI-chipkraftværket Nvidia. Det følger tidligere offentliggjorte partnerskaber med Advanced Micro Devices og Qualcomm. Nvidia arbejder også med OctoML.

ARM-partnerskabet forventes at sprede brugen af ​​OctoML's service til licenstagerne af ARM CPU-kernen, som dominerer mobiltelefoner, netværk og Internet of Things.

Feedback-sløjfen vil sandsynligvis føre til andre ændringer udover design af neurale net. Det kan påvirke mere bredt, hvordan ML er kommercielt indsat, hvilket jo er hele pointen med MLOps.

Eftersom optimering via TVM spredes, kan teknologien dramatisk øge portabiliteten i ML-servering, forudser Ceze.

Fordi skyen tilbyder alle slags afvejninger med alle slags hardwaretilbud, betyder det at kunne optimere på farten til forskellige hardwaremål i sidste ende at være i stand til at bevæge sig mere smidigt fra et mål til et andet.

“I bund og grund er det nyttigt at kunne presse mere ydeevne ud af ethvert hardwaremål i skyen, fordi det giver mere målfleksibilitet,” sådan beskrev Ceze det. “At være i stand til at optimere automatisk giver portabilitet, og portabilitet giver valg.”

Det inkluderer at køre på enhver tilgængelig hardware i en cloud-konfiguration, men også at vælge den hardware, der tilfældigvis er billigere for de samme SLA'er, såsom latens, gennemløb og omkostninger i dollars.

Med to maskiner, der har samme latenstid på ResNet, f.eks. “tager du altid den højeste gennemstrømning pr. dollar”, den maskine, der er mere økonomisk. “Så længe jeg rammer SLA'erne, vil jeg køre det så billigt som muligt.”

Skyprioriteter | Digital transformation | CXO | Internet of Things | Innovation | Enterprise Software