Apples nye AI-modell kan forstå startskjermen din og superlade Siri

0
31
Getty Images/Yuuji

Til tross for at Apple ikke har lansert ny AI siden den generative AI-mani begynte, brygger Apple noen AI-prosjekter. Bare forrige uke delte Apple-forskere en artikkel som avduket en ny språkmodell selskapet jobber med, og innsidekilder rapporterte at Apple har to AI-drevne roboter på gang. Nå viser lanseringen av nok en forskningsartikkel at Apple ikke stopper der. 

Mandag avduket Apple-forskere en forskningsartikkel som presenterte Ferret-UI, en ny multimodal stor språkmodell (MLLM) som kan forstå skjermer for mobilbrukergrensesnitt (UI). 

Også: Å generere musikk ved hjelp av AI i Copilot ble akkurat enda bedre

MLLM-er skiller seg fra standard LLM-er fordi de går utover tekst, og viser en dyp forståelse av multimodale elementer som bilder og lyd. I dette tilfellet er Ferret-UI opplært til å gjenkjenne de forskjellige elementene på en brukers startskjerm, for eksempel appikoner og liten tekst. 

Å identifisere appskjermelementer har vært utfordrende for MLLM-er tidligere på grunn av deres lille natur. For å overvinne dette problemet, ifølge papiret, la forskerne til “enhver løsning” på toppen av Ferret som lar den forstørre detaljene på skjermen. 

Med utgangspunkt i det har Apples MLLM også “henvisnings-, jordings- og resonneringsevner”," som lar Ferret-UI forstå UI-skjermer fullt ut og utføre oppgaver når de blir instruert basert på innholdet på skjermen, i henhold til papiret, som vist på bildet nedenfor. 

Apple Ferret-UI-bilde K. You et al.

For å måle hvordan modellen presterer sammenlignet med andre MLLM-er, bruker Apple forskere sammenlignet Ferret-UI med GPT-4V, OpenAIs MLLM, i offentlige benchmarks, elementære oppgaver og avanserte oppgaver. Resultatene kan overraske deg. 

Også: De beste AI-bildegeneratorene å prøve akkurat nå

Ferret-UI overgikk GPT-4V på tvers av nesten alle oppgaver i den elementære kategorien, inkludert ikongjenkjenning, OCR, widgetklassifisering, finnikon og finn widgetoppgaver på iPhone og Android, med det eneste unntaket er finntekstoppgaven på iPhone der GPT -4V overgikk litt Ferret-modellene, som vist i diagrammet nedenfor. 

Apple Ferret-UI-diagram K. You et al.

Når det kommer til jording av samtaler om funnene i brukergrensesnittet , GPT-4V har en liten fordel, og overgår Ferret 93,4 % til 91,7 %. Forskerne bemerker imidlertid at Ferret UIs ytelse fortsatt er “bemerkelsesverdig” siden den genererer råkoordinater i stedet for settet med forhåndsdefinerte bokser GPT-4V velger fra. Du finner et eksempel nedenfor. 

Apple Ferret-UI-bilde K. You et al.

Papiret tar ikke for seg hva Apple planlegger å utnytte teknologien til, eller om den vil i det hele tatt. I stedet uttaler forskerne mer generelt at Ferret-UIs avanserte evner har potensial til å påvirke brukergrensesnitt-relaterte applikasjoner positivt.

"Ankomsten av disse forbedrede egenskapene lover betydelige fremskritt for en rekke nedstrøms brukergrensesnitt. applikasjoner, og dermed forsterke de potensielle fordelene som tilbys av Ferret-UI i dette domenet," skrev forskerne. 

Også: Google oppdaterer Gemini og Gemma på Vertex AI, og gir Imagen en tekst-til-live-bilde-generator

< p> Mulighetene for Ferret-UI for å forbedre Siri er imidlertid åpenbare. På grunn av den grundige forståelsen modellen har av en brukers appskjerm, og kunnskap om hvordan man utfører visse oppgaver, kan den brukes til å overlade Siri og potensielt få assistenten til å faktisk utføre oppgaver for deg. 

Vi har sett tidevannet snu seg mot denne typen assistenter, og appellen til nye AI-innretninger som Rabbit R1 er at de faktisk kan utføre en hel oppgave for deg, for eksempel å bestille en fly eller bestille et måltid, uten at du trenger å instruere dem trinn for trinn.