Gjør GenAI mer effektiv med en ny type brikke

0
20
 encharge-2024-verma-chip-prototype-01

En prototype blandet digital og analog brikke gjør mest krevende deler av GenAI, akkumuleringsoperasjonen, i analoge kretser med lav effekt.

EnCharge AI

2024 forventes å bli året da generativ kunstig intelligens (GenAI) settes i produksjon, når bedrifter og forbrukerelektronikk begynner faktisk å bruke teknologien til å lage spådommer i store volum – en prosess kjent som inferens.

For at det skal skje, må de veldig store, komplekse kreasjonene av OpenAI og Meta, som ChatGPT og Llama, på en eller annen måte kunne kjøres i energibegrensede enheter som bruker langt mindre strøm enn de mange kilowattene som brukes i skydatasentre.< /p>

Også: 2024 kan være året AI lærer i håndflaten din

Denne slutningsutfordringen inspirerer til grunnleggende forskningsgjennombrudd mot drastisk mer effektiv elektronikk.< /p>

Onsdag kunngjorde halvlederoppstarten EnCharge AI at deres partnerskap med Princeton University har mottatt et stipend på 18,6 millioner dollar fra US's Defense Advanced Research Projects Agency, DARPA, for å fremme nye typer laveffektkretser som kan brukes i slutninger.< /p>

“Du begynner å distribuere disse modellene i stor skala i potensielt energibegrensede miljøer og enheter, og det er der vi ser noen store muligheter”," sa EnCharge AI-sjef og medgründer Naveen Verma, professor ved Princetons avdeling for elektroteknikk, i et intervju med ZDNET. 

EnCharge AI, som sysselsetter 50, har samlet inn 45 millioner dollar til dags dato fra venturekapitalfirmaer inkludert VentureTech, RTX Ventures, Anzu Partners og AlleyCorp. Selskapet ble grunnlagt basert på arbeid utført av Verma og teamet hans i Princeton i løpet av det siste tiåret eller så.

EnCharge AI planlegger å selge sin egen akseleratorbrikke og tilhørende systemkort for AI i "edge computing," inkludert bedriftens datasenterstativ, biler og personlige datamaskiner. 

Også: Nvidia øker sin 'superchip' Grace-Hopper med raskere minne for AI

Ved dette begir selskapet seg dit andre startups har prøvd og feilet — for å gi en løsning på slutningsproblemet på kanten, hvor størrelse , kostnader og energieffektivitet dominerer. 

EnCharge AIs tilnærming er en del av en tiår lang innsats for å forene logiske kretser og minnekretser kjent som in-memory compute (IMC). 

Den virkelige energisvinet innen databehandling er minnetilgang . Kostnaden for å få tilgang til data i minnekretser kan være større enn energien som kreves av de logiske kretsene for å operere på disse dataene.

naveen-verma-encharge-2024

Når det kommer til å knekke slutningsmarkedet for AI, sier EnCharge AIs Naveen Verma, “Having en stor differensiering i energieffektivitet er en viktig faktor."

EnCharge AI

GenAI-programmer bruker enestående mengder minne for å representere parametrene, de nevrale “vektene” av store nevrale nettverk, og tonnevis mer minne for å lagre og hente de virkelige dataene de opererer på. Som et resultat stiger GenAIs energibehov.

Løsningen, hevder noen, er å utføre beregningene nærmere minnet eller til og med i selve minnekretsene.  

EnCharge AI mottok finansieringen som en del av DARPAs 78 millioner dollar-program rettet mot IMC — Optimum Processing Technology Inside Memory Arrays (OPTIMA). et bredt mål om å nå 300 billioner operasjoner per sekund (TOPS) per watt forbrukt energi, det kritiske målet på energieffektivitet i databehandling. Det ville være 15 ganger bransjens nåværende toppmoderne.

Også: Intel setter søkelyset på AI i nye Core Ultra, 5. generasjons Xeon-brikker

Nøkkelinnsikten til Verma og andre pionerer innen IMC-forskning er at AI-programmer domineres av et par grunnleggende operasjoner som trekker på hukommelsen. Løs de minnekrevende oppgavene, og hele AI-oppgaven kan gjøres mer effektiv.

Hovedberegningen i hjertet av GenAI-programmer som store språkmodeller er det som er kjent som en “matrisemultiplikasjonsakkumulering”. Prosessoren tar én verdi i minnet, inngangen, og multipliserer den med en annen verdi i minnet, vektene. Den multiplikasjonen legges sammen med massevis av andre multiplikasjoner som skjer parallelt, som en "akkumulering" av multiplikasjoner, kjent som en “akkumulere” operasjon.

Når det gjelder IMC, tar EnCharge AI og andre sikte på å redusere minnebruken i en matrise multiplisere-akkumulere ved å gjøre noe av arbeidet i analoge minnekretser i stedet for tradisjonelle transistorer. Analog kan utføre slike matrise-multiplikasjonsakkumuleringer parallelt med langt lavere energi enn digitale kretser. 

Også: Ettersom AI-agenter sprer seg, øker risikoen også, sier forskere

"Slik løser du databevegelsesproblemet," forklarte Verma. "Du kommuniserer ikke individuelle biter, du kommuniserer dette reduserte resultatet" i form av akkumulering av mange parallelle multiplikasjoner.

Analog databehandling er imidlertid notorisk vanskelig å oppnå, og formuen til de som har gått foran EnCharge AI har ikke vært god. Chip-industriens nyhetsbrev Microprocessor Report bemerket at en av de mest omtalte startups innen analog databehandling for AI, Mythic Semiconductor, som mottok 165 millioner dollar i risikokapital, nå «knapt henger på».

"Hvordan får du analog til å fungere? Det er slangen som bet Mythic, det er slangen som bet forskere i flere tiår," observerte Verma. “Vi har visst i flere tiår at analog kan være 100 ganger mer energieffektiv og 100 ganger mer arealeffektiv” enn digital, men “problemet er at vi ikke bygger analoge datamaskiner i dag fordi analog er støyende.”

Også: Hvordan Apples AI går videre kan lage eller ødelegge iPhone 16

EnCharge AI har funnet en måte å finjustere utfordringene med analog. Den første delen er å dele opp problemet i mindre problemer. Det viser seg at du ikke trenger å gjøre alt analogt, sa Verma. Det er nok til å gjøre bare akkumuleringsoperasjonen mer effektiv.

I stedet for å utføre hele en matrisemultiplikasjonsakkumulering i analog, utføres den første delen – matrisemultiplikasjonen – i normale digitale kretser i EnCharge AI-brikken, som betyr transistorer. Bare akkumuleringsdelen gjøres i analoge kretser via et lag med kondensatorer som sitter over de digitale transistorene.

"Når du bygger et datasystem i minnet, er det reduksjonen i den akkumulerte [funksjonen] ] som virkelig løser databevegelsesproblemet," sa Verma, “Det er den som er kritisk for minnet.”

encharge-2021-prototype-in-memory-chip

Plattegning av en 2021-prototype av EnCharge AI-brikken. Compute-in-memory-kjerner koblet sammen med et nettverk delte opp arbeidet med å beregne en stor språkmodell eller annet AI-program parallelt.

EnCharge AI

encharge-2021-prototype-in-memory-chip-cima -detail

En detalj av innsiden av hver datablokk i minnet, der analoge kretser utfører "akkumulering" av verdiene til et nevralt nettverk. 

EnCharge

Den andre nye metoden som EnCharge har brukt, er å gå med en mindre utfordrende tilnærming til analog. I stedet for å måle strømmen til en analog krets, som er et spesielt støyende forslag, bruker selskapet enklere kondensatorer, kretser som kort lagrer en ladning.

"Hvis du bruker en kondensator, gjør du det ikke bruker strøm, bruker du ladekondensatorer, så du legger sammen ladning og ikke strøm," sa Verma, som er en iboende mindre støyende prosess.

Å bruke kondensatorer er også mer økonomisk enn tidligere tilnærminger til analoge, som krevde eksotiske produksjonsteknikker. Kondensatorer er i hovedsak gratis, sa Verma, i den forstand at de er en del av normal halvlederproduksjon. Kondensatorene er laget av de vanlige metalllagene som brukes til å koble sammen transistorer.

Også: For AI PC-ens tidsalder kommer her en ny test av hastighet sterk>

“Hva er viktig med disse metalltrådene?” sa Verma, “har de ikke noen materielle parameteravhengigheter som [bærer] mobilitet” som andre minnekretser som de som brukes av Mythic. “De har ingen temperaturavhengigheter, de har ingen ikke-lineariteter, de er bare avhengige av geometri – i utgangspunktet hvor langt fra hverandre disse metalltrådene er.

"Og det viser seg , er geometri den eneste tingen du kan kontrollere veldig, veldig godt i avanserte CMO-teknologier," sa han og refererte til komplementær metalloksid-halvlederteknologi, den vanligste typen silisium-databrikkeproduksjonsteknologi. 

Alle dataene som mates til de digitale kretsene for matrisemultiplikasjon og til kondensatorene for akkumulering kommer fra en standard SRAM-minnekrets innebygd i brikken som en lokal cache. Smart programvare designet av Verma og teamet organiserer hvilke data som skal legges i cachene slik at de mest relevante verdiene alltid er i nærheten av multiplikasjonstransistorene og akkumuleringskondensatorene. 

Så langt har prototypene som er produsert allerede gitt en slående forbedring i energieffektivitet. EnCharge AI har vært i stand til å vise at den kan behandle 150 billioner operasjoner per sekund per watt når den håndterer nevrale nettverksslutningsverdier som har blitt kvantisert til åtte biter. Tidligere tilnærminger til inferens – slik som Mythic's – har produsert høyst titalls TOPS per watt. EnCharge AI refererer til brikkene som “30x” mer effektiv enn tidligere innsats. 

Også: 2024 kan være året AI lærer i håndflaten din

“De beste akseleratorene fra Nvidia eller Qualcomm er, på en måte, på 5, kanskje 10, maks, TOPS per watt for åtte-bits databehandling,”" sa Verma.

I tillegg til effektivitetsgjennombruddet løser smart programvare et annet problem, nemlig skala. For å håndtere veldig store modeller av den typen OpenAI og andre bygger, som skaleres til billioner av nevrale nettverksvekter, vil det aldri være nok minne i en SRAM-cache på brikken til å holde alle dataene. Så programvaren "virtualiserer" tilgang til minne utenfor brikken, for eksempel i DRAM, ved å effektivt orkestrere hvilke data som lagres hvor, på og utenfor brikken. 

"Du har fordelen av alt dette større, minne med høy tetthet, helt ut til DRAM, og likevel, på grunn av måtene du administrerer databevegelse mellom disse [minnene], ser det hele ut som førstenivåminner når det gjelder effektivitet og hastighet," sa Verma.

Også: Microsoft avduker første AI-brikke, Maia 100 og Cobalt CPU

EnCharge AI, som formelt ble spunnet ut av Vermas laboratorium i 2022, har produsert flere prøver med økende kompleksitet ved bruk av kondensatortilnærmingen. “Vi brukte en god del tid på å forstå det, og bygge det fra en grunnleggende teknologi til en full arkitektur til en full programvarestabel”," sa Verma.

Detaljer om et første produkt vil bli annonsert senere i år, sa Verma. Selv om de første produktene vil være fokusert på slutningsmuligheten, kan tilnærmingen til kondensatorer for IMC også skalere til treningen, insisterte Verma. “Det er ingen grunn, fundamentalt sett, til at teknologien vår ikke kan trene, men det er mye programvare som må gjøres for å få det til å fungere,”" sa han.

Selvfølgelig kan markedsplassfaktorer ofte begrense nye løsninger, som det er klart av det faktum at mange startups ikke har klart å gjøre fremskritt mot Nvidia på AI-treningsmarkedet, startups som Samba Nova Systems og Graphcore, til tross for fordelene ved deres oppfinnelser.& #xA0;

Selv Cerebras Systems, som har annonsert svært store salg av sin treningsdatamaskin, har ikke svekket Nvidias momentum. 

Også: AI-pioneren Cerebras har 'et monsterår' i hybrid AI-databehandling

Verma tror utfordringene i slutninger vil gjøre markedet til noe av en annen historie. "Faktørene som kommer til å avgjøre hvor det er verdi i produktene her, kommer til å være annerledes enn det de har vært i det treningsområdet," sa Verma. “Å ha en stor differensiering i energieffektivitet er en viktig faktor her.”

"Jeg tror ikke det kommer til å bli CUDA" som dominerer, sa han, med henvisning til Nvidias programvare, så formidabel som den er. “Jeg tror det kommer til å være, du må distribuere disse modellene i stor skala, de må kjøre i svært energibegrensede miljøer, eller i svært økonomisk effektive miljøer — disse beregningene kommer til å være det som er kritisk her ."

For å være sikker, la Verma til, “Å sørge for at den generelle løsningen er brukbar, veldig transparent brukbar, slik Nvidia har gjort, vil også være en viktig faktor for EnCharge AI for å vinne og lykkes her." 

Også: AI på kanten: 5G og tingenes internett ser raske tider fremover

EnCharge AI planlegger å forfølge ytterligere finansiering. Halvlederselskaper krever vanligvis hundrevis av millioner dollar i finansiering, noe Verma er svært klar over. på kundens behov," sa Verma. “Vi befinner oss i en situasjon hvor trekkraften til kundene akselererer, og vi må sørge for at vi er kapitalisert på riktig måte for å kunne gjøre det, og det faktum at vi har noe av trekkraften betyr definitivt at vi” kommer snart tilbake på blokken."