Meta slipper OpenEQA for å teste hvordan AI forstår verden, for hjemmeroboter og smarte briller

0
24
skjermbilde-2024-04-12-at-9-01-46-am.png

Et eksempel på hvordan Metas OpenEQA kan skape legemliggjort intelligens i hjemmet

Meta

Meta ønsker å hjelpe AI med å forstå verden rundt seg – og bli smartere i prosessen. Selskapet avduket torsdag Open-Vocabulary Embodied Question Answering (OpenEQA) for å vise hvordan AI kunne forstå rommet rundt det. Rammeverket med åpen kildekode er designet for å gi AI-agenter sensoriske input som lar den samle ledetråder fra omgivelsene, “se” plassen den befinner seg i, og ellers gir verdi til mennesker som vil be om AI-hjelp i det abstrakte.

“Tenk deg en legemliggjort AI-agent som fungerer som hjernen til en hjemmerobot eller et stilig par smarte briller”," Meta forklarte. “En slik agent må utnytte sensoriske modaliteter som syn for å forstå omgivelsene og være i stand til å kommunisere på et tydelig, dagligdags språk for å hjelpe mennesker effektivt.”

Også: Meta avslører andre generasjons AI-trening og inferensbrikke

Meta ga en rekke eksempler på hvordan OpenEQA kunne fungere i naturen, inkludert å spørre AI-agenter hvor brukere plasserte en gjenstand de trenger, eller om de fortsatt har mat igjen i pantryet.

“La oss si at du gjør deg klar til å forlate huset og ikke finner kontormerket ditt. Du kan spørre smartbrillene dine om hvor du la dem, og agenten kan svare at merket ligger på spisebordet ved å utnytte dets episodiske minne," Meta skrev. “Eller hvis du var sulten på vei hjem, kan du spørre hjemmeroboten din om det er frukt igjen. Basert på sin aktive utforskning av miljøet, kan den svare at det er modne bananer i fruktkurven."

Det høres ut som om vi er på god vei til en hjemmerobot eller et par smarte briller som kan hjelpe oss med å styre livene våre. Det er imidlertid fortsatt en betydelig utfordring med å utvikle en slik teknologi: Meta fant ut at vision+language-modeller (VLM-er) fungerer dårlig. “Faktisk, for spørsmål som krever romlig forståelse, er dagens VLM-er nesten “blinde” – tilgang til visuelt innhold gir ingen vesentlig forbedring i forhold til modeller som kun er på språk," Meta sa.

Det er nettopp derfor Meta laget OpenEQA åpen kildekode. Selskapet sier at å utvikle en AI-modell som virkelig kan "se" verden rundt den som mennesker gjør, kan huske hvor ting er plassert og når, og deretter kan gi kontekstuell verdi til et menneske basert på abstrakte spørsmål, er ekstremt vanskelig å skape. Selskapet mener et fellesskap av forskere, teknologer og eksperter må jobbe sammen for å gjøre det til en realitet.

Dessuten: Meta vil legge til AI-etiketter på Facebook, Instagram og Threads

Meta sier at OpenEQA har mer enn 1600 «ikke-maler»; spørsmål og svar-par som kan representere hvordan et menneske vil samhandle med AI. Selv om selskapet har validert parene for å sikre at de kan besvares riktig av algoritmen, må det gjøres mer arbeid.

"Som et eksempel, for spørsmålet “I'm siting on the living”. rom sofa ser på TV. Hvilket rom er rett bak meg?», modellene gjetter forskjellige rom i hovedsak tilfeldig uten å dra nevneverdig fordel av visuell episodisk hukommelse som skal gi en forståelse av rommet," Meta skrev. “Dette antyder at ytterligere forbedringer på både persepsjons- og resonnementfronter er nødvendig før legemliggjorte AI-agenter drevet av slike modeller er klare for primetime.”

Så det er fortsatt tidlig. Hvis OpenEQA viser noe, er det imidlertid at selskaper jobber veldig hardt for å skaffe oss AI-agenter som kan omforme hvordan vi lever.