Stanfords VR-gjennombrudd kan bety slutten på klønete hodesett – takket være AI

0
16
heightpriority=

Forskerteamet på Stanford fra venstre til høyre: Brian Chao, Manu Gopakumar, Gun-Yeal Lee, Gordon Wetzstein, Suyeon Choi (Foto av Andrew Brodhead).

Bilde: Stanford Engineering

En av de største kritikkene av AR og VR, og spesielt Apples visjon om det de kaller “spatial computing”, " er hoveddelen av briller. Det er ingen tvil om at vi har nådd det punktet hvor noen XR-enheter og opplevelser er fantastiske, men det er en ganske høy vegg av irritasjon å klatre opp for å bruke dem.

Enhetene er tunge, stygge og ubehagelige, og mens den fire år gamle Quest 2 er tilgjengelig for 200 dollar, går prisene opp og opp, med Apple Vision Pro på 3500 dollar som får lommebøker til å implodere .

Også: Hvorfor Metas Ray-Ban smarte briller er mitt favorittteknologikjøp i år

Selv om vi lenge har sett løftet om VR, og vi alle forventer at teknologien blir bedre, vi har stort sett måttet stole på det historiske tempoet i teknologiske fremskritt for å gi oss forsikring om en mer praktisk fremtid. Men nå begynner vi å se virkelig vitenskap skje som viser hvordan alt dette kan være mulig.

Et team av forskere ved Stanford University, ledet av ingeniørlektor Gorden Wetzstein, har bygget en prototype av lette briller som kan vise digitale bilder foran øynene dine, og blande dem sømløst med den virkelige verden. Teamet hans spesialiserer seg på databehandlings- og skjermteknologier. De har jobbet med å integrere digital informasjon i vår visuelle oppfatning av den virkelige verden.

"Hodesettet vårt fremstår for omverdenen akkurat som et vanlig par briller, men det brukeren ser gjennom linsene er en beriket verden dekket med levende, fullfarge 3D-databehandlingsbilder," sier Wetzstein. "Holografiske skjermer har lenge vært ansett som den ultimate 3D-teknikken, men den har aldri helt oppnådd det store kommersielle gjennombruddet…Kanskje nå har de den mordere appen de har ventet på i alle disse årene."

Også: De beste VR-headsettene i 2024: Eksperttestet og gjennomgått

Så hva gjør Wetzsteins team som er annerledes enn arbeidet på Apple og Meta?

arglasses-mannequin

Protype holografiske briller

Bilde: Stanford Engineering

Stanford-teamet fokuserer på grunnleggende teknologier og vitenskapelige fremskritt innen holografisk utvidet virkelighet og databehandling. De forsker på å skape nye måter for å generere mer naturlige og oppslukende visuelle opplevelser ved hjelp av sofistikerte teknikker som metasurface-bølgeledere og AI-drevet holografi.

Metasurface-bølgeledere?

La oss dekonstruere begge ordene. En metasurface er et konstruert materiale som består av bittesmå, nøyaktig arrangerte strukturer på en overflate. Disse strukturene er mindre enn bølgelengdene til lyset de samhandler med.

Ideen er at disse bittesmå nanostrukturene, kalt bølgeledere, manipulerer lys på strategiske måter, endrer fase, amplitude og polarisering når det krysser materialet. Dette lar ingeniører utøve svært detaljert kontroll over lys.

Det vi har sett med både Quest 3 og Vision Pro er bruken av tradisjonelle dataskjermer, men nedskalert for å passe foran øynene våre . Skjermteknologien er imponerende, men det er fortsatt en utvikling av skjermutdata.

arglasses-highquality-glassesdesigns.png Bilde: Stanford Engineering

Stanfords tilnærming kaster det ut slik at datamaskinen ikke direkte driver en skjerm. I stedet kontrollerer den lysbaner ved hjelp av bølgelederne. Radikalt overforenklet bruker den disse tre tilnærmingene:

Rolig lysmodulasjon: En datamaskin-CPU eller GPU kontrollerer romlige lysmodulatorer (SLM) som justerer lyset som kommer inn i bølgelederne. Dette er små enheter som brukes til å kontrollere lysets intensitet, fase eller retning piksel-for-piksel. Ved å manipulere lysets egenskaper leder og manipulerer de selve lyset på nanonivå.

Komplekse lysmønstre: En VR-enhet beregner og genererer komplekse lysmønstre, som lar hodesettet diktere de spesifikke måtene lyset samhandler med metaoverflaten. Dette endrer i sin tur det eventuelle bildet som en bruker ser.

Sanntidsjusteringer:Datamaskiner foretar deretter sanntidsjusteringer av nanolyssekvensene, basert på brukerinteraksjon og miljøendringer. Tanken er å sørge for at innholdet som vises er stabilt og nøyaktig for ulike forhold og lysaktiviteter.

Du kan se hvorfor AI er kritisk i denne applikasjonen

Det er ikke lett å gjøre all denne industrielle lysmagien. AI må gjøre mye av de tunge løftene. Her er noe av det AI må gjøre for å gjøre dette mulig:

Forbedre bildedannelsen: AI-algoritmer bruker en kombinasjon av fysisk nøyaktig modellering og lærte komponentattributter for å forutsi og korrigere hvordan lys krysser det holografiske miljøet.

Optimalisering av bølgefrontmanipulasjon: AI-ene må justere fasen og amplituden til lyset i ulike stadier for å generere et ønsket visuelt resultat. De gjør dette ved å bruke en presis manipulasjon av bølgefrontene i XR-miljøet.

Håndtere komplekse beregninger: Dette krever selvfølgelig mye matematikk. Det er nødvendig å modellere oppførselen til lys i metaoverflatens bølgeleder, for å håndtere diffraksjon, interferens og spredning av lys.

Selv om noen av disse utfordringene kan være mulige ved bruk av tradisjonell ovenfra-og-ned-databehandling, krever det meste av prosessen evner som er utenfor mulighetene til tradisjonelle tilnærminger. AI må øke på følgende måter:

Kompleks mønstergjenkjenning og tilpasning:Et kjennetegn på AI-evne, spesielt når det gjelder maskinlæring, er evnen til å gjenkjenne komplekse mønstre og tilpasse seg nye data uten eksplisitt å kreve ny programmering. Med holografi AR lar denne evnen AI håndtere de tusenvis av variabler som er involvert i lysutbredelse (faseskift, interferensmønstre, diffraksjonseffekter og mer), og deretter korrigere for endringer dynamisk.

Sanntidsbehandling og optimalisering:Den dynamiske korreksjonen må gjøres i sanntid, og når vi snakker om lys som kommer inn i øyet, er behovet for virkelig umiddelbar respons. Selv den minste forsinkelse kan forårsake problemer for brukeren, alt fra lett ubehag til voldsom kvalme. Men med AIs evne til å behandle enorme mengder data mens den flyter, og deretter foreta øyeblikkelige justeringer, er menneskekompatibel lysbehandling for AR-syn mulig.

Maskinlæring fra tilbakemelding: Maskinlæring gjør det mulig for XR-systemene å forbedre seg dynamisk over tid, behandle kameratilbakemeldinger og kontinuerlig avgrense de projiserte holografiske bildene, redusere feil og forbedre bildekvaliteten.

Håndtering av ikke-lineære og høydimensjonale data: Matematikken involvert i hvordan lys interagerer med komplekse overflater, spesielt metaoverflatene som brukes i holografi, krever ofte beregninger basert på data som er vilt ikke-lineære og inneholder store mengde data poeng. AI'er er bygget for å administrere disse dataene ved å utnytte maskinlærings evne til å håndtere komplekse datasett og utføre sanntidsbehandling.

Integrasjon av ulike datatyper:Dataene som er tilgjengelige for å produsere bildene som kreves i holografisk AR er ikke begrenset til bare gigantiske sett med X/Y-koordinater. AI-er er i stand til å behandle optiske data, romlige data og miljøinformasjon, og bruke alt dette til å lage sammensatte bilder.

Hva betyr det hele?

Uten tvil er hoveddelen av headsettet den største enkeltfaktoren som holder tilbake populariteten til XR og romlige dataenheter. Hvis funksjonalitet som den som finnes i Quest 3 eller Vision Pro var tilgjengelig i et par tradisjonelle briller, ville potensialet vært stort.

Også: Meta Quest 2 vs Quest 3: Hvilket VR-headset bør du kjøpe?

Det er en grense for hvor små briller kan bli når man bygger inn tradisjonelle skjermer. Men ved å endre de optiske egenskapene til selve glasset, ville forskerne bygge på historiens mest aksepterte augmented reality-enhet: brillene våre.

Dessverre er det Stanford-teamet har nå en prototype. Teknologien må utvikles mye mer for å gå fra forskning, inn i grunnleggende vitenskap, inn i ingeniørlaboratoriet, og deretter videre til produktisering. Selv om Stanford-teamet ikke spådde hvor lang tid det ville ta, ville det være rimelig å anta at denne teknologien er minst fem til ti år ute.

Men ikke la det ta motet fra deg. Det har gått omtrent 17 år siden den første iPhone ble utgitt, og selv i enhetens første tre eller fire år så vi en enorm forbedring. Jeg forventer at vi vil se lignende forbedringer i løpet av de neste årene for den nåværende avlingen av romlig databehandling og XR-enheter.

Selvfølgelig er fremtiden der ute. Hvordan vil dette være om 17 år? Kanskje Stanford-teamet har gitt oss vårt første glimt.

Du kan følge mine daglige prosjektoppdateringer på sosiale medier. Sørg for å abonnere på mitt ukentlige oppdateringsnyhetsbrev, og følg meg på Twitter/X på @DavidGewirtz, på Facebook på Facebook.com/DavidGewirtz, på Instagram på Instagram.com/DavidGewirtz og på YouTube på YouTube.com/DavidGewirtzTV.< /p>