Gen AI-treningskostnadene stiger, men risikoen er dårlig målt, sier Stanford AI-rapport

0
8

Antallet betydelige nye AI-modeller som kommer ut av industrien har økt de siste årene i forhold til akademia og regjeringen. 

Stanford HAI

Den syvende årlige rapporten om den globale tilstanden for kunstig intelligens fra Stanford Universitys Institute for Human-Centered Artificial Intelligence gir noen bekymringsfulle tanker for samfunnet : teknologiens økende kostnader og dårlig måling av risikoen. 

I følge rapporten «The AI ​​Index 2024 Annual Report»," publisert mandag av HAI, øker kostnadene ved å trene store språkmodeller som OpenAIs GPT-4 — de såkalte grunnmodellene som brukes til å utvikle andre programmer –. 

< strong>Også: Dana-Farber Cancer Institute finner de viktigste GPT-4-bekymringene inkluderer usannheter, høye kostnader

"Opplæringskostnadene til toppmoderne AI-modeller har nådd enestående nivåer," skriver rapportens forfattere. “For eksempel brukte OpenAIs GPT-4 anslagsvis 78 millioner dollar i beregning for å trene, mens Googles Gemini Ultra kostet 191 millioner dollar for beregning.”

(En "AI-modell" er den delen av et AI-program som inneholder mange nevrale nettparametere og aktiveringsfunksjoner som er nøkkelelementene for hvordan et AI-program fungerer.)

Samtidig, heter det i rapporten, er det for lite i veien for standardmål på risikoen ved slike store modeller fordi mål på "ansvarlig AI" er sprukket. 

Det er “betydelig mangel på standardisering i ansvarlig AI-rapportering”," står det i rapporten. Ledende utviklere, inkludert OpenAI, Google og Anthropic, tester først og fremst modellene sine mot forskjellige ansvarlige AI-standarder. Denne praksisen kompliserer arbeidet med å systematisk sammenligne risikoene og begrensningene til topp AI-modeller."

Begge spørsmålene, kostnader og sikkerhet, er en del av et spirende industrielt marked for AI, spesielt Gen AI, der kommersielle interesser og implementeringer i den virkelige verden tar over fra det som i mange tiår hovedsakelig har vært et forskningsfellesskap av AI-forskere.& #xA0;

Også: OpenAIs GPT-er for aksjeinvestering mislykkes i dette grunnleggende spørsmålet om aksjeinvestering

"Investeringer i generativ AI skjøt i været" i 2023, bemerker rapporten, ettersom industrien produserte 51 “bemerkelsesverdige” maskinlæringsmodeller — langt flere enn de 15 som kom ut av akademia i fjor. "Flere Fortune 500-inntektssamtaler nevnte AI enn noen gang før."

Den 502-siders rapporten går i betydelig detalj på hvert punkt. På det første punktet – opplæringskostnad – gikk rapportens forfattere sammen med forskningsinstituttet Epoch AI for å estimere opplæringskostnadene til grunnmodeller. "AI Index-estimater bekrefter mistanker om at kostnadene for modelltrening har økt betydelig de siste årene," står det i rapporten. 

For eksempel, i 2017, kostet den originale Transformer-modellen, som introduserte arkitekturen som ligger til grunn for praktisk talt alle moderne LLM, rundt $900 å trene. RobERTa Large, utgitt i 2019, som oppnådde toppmoderne resultater på mange kanoniske forståelsesbenchmarks som SQuAD og GLUE, kostet rundt $160 000 å trene. Spol frem til 2023, og opplæringskostnadene for OpenAIs GPT-4 og Googles Gemini Ultra er estimert til å være henholdsvis rundt $78 millioner og $191 millioner.

Rapporten bemerker at treningskostnadene øker med den økende størrelsen på beregningene som kreves for de stadig større AI-modellene. Den originale Google Transfomer, den dype læringsmodellen som utløste kappløpet om GPT-er og andre store språkmodeller, krevde omtrent 10 000 petaFLOP-er, eller 10 000 billioner flyttalloperasjoner. Gemini Ultra nærmer seg hundre milliarder petaFLOPs.

stanford-hai-2024-growth-of-ai-training -compute-jpeg.png Stanford HAI

Samtidig er det vanskelig å vurdere AI-programmene for deres sikkerhet – inkludert åpenhet, forklaring og personvern. Det har vært en spredning av benchmark-tester for å vurdere “ansvarlig AI”," og utviklere bruker mange av dem slik at det ikke er konsistens.  “Testing av modeller på forskjellige benchmarks kompliserer sammenligninger, ettersom individuelle benchmarks har unike og idiosynkratiske natur,” står det i rapporten. “Ny analyse fra AI-indeksen antyder imidlertid at standardisert referanserapportering for evalueringer av ansvarlig AI-evne mangler.”

Også: Som AI-agenter sprer seg, det samme gjør risikoen, sier forskere

AI-indeksen undersøkte et utvalg av ledende AI-modellutviklere, spesielt OpenAI, Meta, Anthropic, Google og Mistral AI. Indeksen identifiserte én flaggskipmodell fra hver utvikler (GPT-4, Llama 2, Claude 2, Gemini og Mistral 7B) og vurderte referansene som de evaluerte modellen deres på. Noen få standard benchmarks for generell evneevaluering ble ofte brukt av disse utviklerne, for eksempel MMLU, HellaSwag, ARC Challenge, Codex HumanEval og GSM8K. Imidlertid manglet konsistens i rapporteringen av ansvarlige AI-benchmarks. I motsetning til generelle evneevalueringer, er det ingen universelt akseptert sett med ansvarlige AI-benchmarks brukt av ledende modellutviklere.

En tabell med benchmarks rapportert av modellene viser en stor variasjon, men ingen konsensus om hvilke benchmarks. for ansvarlig AI bør betraktes som standard.

stanford-ai-report-2024-responsible-ai-benchmarks Stanford HAI

"For å forbedre ansvarlig AI-rapportering," ; Forfatterne konkluderer med, “det er viktig at det oppnås enighet om hvilke referansemodeller som utviklere konsekvent bør teste.”

Også: Cyberkriminelle bruker Meta's Llama 2 AI, ifølge CrowdStrike

Positivt understreker studiens forfattere at data viser at AI har en positiv innvirkning på produktiviteten. "AI gjør det mulig for arbeidere å fullføre oppgaver raskere og forbedre kvaliteten på produksjonen deres," viser forskningen.

Spesifikt bemerker rapporten at profesjonelle programmerere så frekvensen av prosjektgjennomføring øke ved hjelp av AI, ifølge en anmeldelse fra Microsoft i fjor. Gjennomgangen fant at “sammenligning av ytelsen til arbeidere som bruker Microsoft Copilot eller GitHubs Copilot – LLM-baserte produktivitetsforbedrende verktøy – med de som ikke gjorde det, fant at Copilot-brukere fullførte oppgaver på 26 % til 73 % mindre tid enn sine kolleger uten AI-tilgang." 

Økt evne ble funnet i andre arbeidsgrupper, ifølge andre studier. En rapport fra Harvard Business School fant at “konsulenter med tilgang til GPT-4 økte produktiviteten på et utvalg konsulentoppgaver med 12,2 %, hastigheten med 25,1 % og kvaliteten med 40 %, sammenlignet med en kontrollgruppe uten AI-tilgang."  

Også: Kan bedriftsidentiteter fikse feilene til Gen AI? Denne IAM-oppstarten mener det

Harvard-studien fant også at mindre dyktige konsulenter så et større løft fra AI, i form av forbedret ytelse på oppgaver, enn mer dyktige kolleger, noe som tyder på at AI bidrar til å tette et kompetansegap.

“På samme måte rapporterte National Bureau of Economic Research at kundesenteragenter som brukte AI håndterte 14,2 % flere anrop per time enn de som ikke bruker AI.” Til tross for risikoen for ting som f.eks. som "hallusinasjoner," Juridiske fagfolk som bruker OpenAIs GPT-4 så fordeler “med hensyn til både arbeidskvalitet og tidseffektivitet på tvers av en rekke oppgaver” inkludert kontraktutforming.

Det er imidlertid en ulempe med produktivitet. En annen Harvard-artikkel fant at bruken av AI av profesjonelle talentrekrutterere svekket ytelsen deres. Enda verre, de som brukte kraftigere AI-verktøy så ut til å se enda større forringelse i jobbytelsen. Studien teoretiserer at rekrutterere som bruker "god AI" ble selvtilfreds, og stolte overdrevet på AIs resultater, i motsetning til de som bruker “dårlig AI”, som var mer årvåkne når det gjaldt å granske AI-utdata.

Studieforfatter Fabrizio Dell'Acqua ved Harvard Business School kaller fenomenet selvtilfredshet midt i AI-bruk som “å sovne ved rattet”.