Hur Microsoft gör sin mest känsliga HoloLens djup sensor ännu

0
191

Noll

hololensimage-sensors.jpg

Sensorer, inklusive djup kamera, i den ursprungliga HoloLens.

Bild: Microsoft

Nästa generations HoloLens sensor är en bedrift av forskning och design som crams avancerad signalbehandling och kisel engineering i ett litet, tillförlitlig module att Microsoft har för avsikt att sälja till kunder och andra tillverkare som Projektet Kinect för Azure. Företaget kommer också att använda den nya sensorn i sina egna produkter, inklusive nästa HoloLens.

På att Bygga detta år, Satya Nadella lovade att det skulle vara “den mest kraftfulla sensor med minsta möjliga buller”, och med ett extremt brett synfält. Det är tillräckligt liten och låg effekt nog för att använda i mobila enheter. Men vad gör sensor göra, och hur ska en HoloLens (eller något annat med hjälp av it) ” se ” världen som den blandar 3D-hologram?

Det finns olika sätt att mäta djup. Några forskare har försökt att använda ultraljud, medan den traditionella geometriska metoder använder just strukturerat mönster av ljus, stereo, med två strålar av ljus som träffar samma objekt, kan du beräkna avståndet från den vinkeln mellan strålarna. Microsoft har använt stereoskopisk sensorer i det förflutna, men den här gången tog det en annan metod, som kallas ‘fasas time-of-flight”.

Cyrus Östlin, hårdvara arkitekten som ledde laget till att bygga Microsofts första time-of-flight (ToF) kameran till Kinect sensor som kom med En Xbox, förklarade ZDNet hur den nya sensorn fungerar.

Det börjar med att belysa scenen med ett antal lasrar, med cirka 100 milliwatt av makt vardera att agera som en strålkastare. Det är en enhetlig överallt, täcker hela scenen på en gång och slår på och av mycket snabbt.

Som ljuset från lasern studsar 3D-objekt som murar och människor, att det reflekterar tillbaka på sensorn. Avståndet är inte mätas direkt av hur snabbt ljuset reflekteras tillbaka (som en radar), utan av hur mycket den fas av ljus kuvertet som kommer tillbaka har flyttats från den ursprungliga signalen att lasrar avger. Jämför skillnaden i fas (ta bort alla övertoner som infördes genom mindre förändringar i spänning eller temperatur för att rensa upp signalen längs vägen) och du får en mycket exakt mätning av hur långt borta punkten är att ljuset reflekteras.

Som ingående information är inte bara användbar för skalning hologram för att vara rätt storlek så du ser dig omkring i blandade verkligheten, det är också avgörande för att datorseende mer exakt. Tror trick fotografier av människor som driver över det Lutande Tornet i Pizza: med en djup kamera du kan omedelbart se att det är en trick shot.

Microsofts fasas time-of-flight sensorer är liten och tunn nog att passa i små mobila enheter, och tillräckligt robust för att gå in i konsumenternas prylar som kan åka runt. Det beror, till skillnad från stereo vision system, de är inte dyr precision optik som måste hållas i en exakt justering: de kan hantera en signal gjort stökigare än vanligt av spänningen i den elektriska strömmen doppa något eller utrustning för uppvärmning, och använder de enkla beräkningar som kräver mindre processorkraft än den komplexa algoritmer som krävs för stereo vision beräkningar.

Beroende på hur du vill använda det, sensorn kan du välja olika djupet varierar, bildhastighet och upplösning, liksom att plocka ett medelstort eller stort synfält.

Nästa generations HoloLens sensor i aktion på Microsoft 2018 Fakulteten Forskning Toppmötet.

Och det bästa av allt, fasas ToF sensorer är kisel som kan massproduceras i stora volymer i en fab hjälp av standard-CMOS-processer till en låg kostnad. Det är precis vad du behöver för en konsument produkt, eller något billigt nog att gå in i storskaliga industriella system.

Liten, billig och snabb

Den nya sensorn gör ett antal tekniska genombrott: lägre effekt, högre frekvens, högre upplösning (1,024 av till 1 024 pixlar), och mindre pixlar att bestämma djup mer exakt från längre bort. Ofta, förbättringar i ett område innebär avvägningar i andra — frekvens och avstånd, till exempel. “Det visar sig att om man ökar frekvensen, du får bättre upplösning, ju högre frekvens desto mindre jitter, men du också få en mindre och mindre räckvidd,” Östlin förklarar.

En låg frekvens täcker ett längre avstånd från sensorn, men är mindre exakt. Problemet är att medan en högre frekvens blir mer exakta resultat, dessa resultat kommer att vara samma för flera sträckor — eftersom de avläsningar som kommer tillbaka med en kurva som upprepas om och om igen. Vid en frekvens av 50 mhz, ljus studsar något 3 meter bort har samma fas som ljuset studsar ett objekt 6 meter eller 9 meter bort.

Microsoft team används en smart matematiska trick (som kallas fas uppackning) för att undvika förvirring så att de kan öka frekvensen och verkar även på längre avstånd. Sensorn använder flera olika frekvenser samtidigt och firmware kombinerar resultaten. Det kan vara låga frekvenser att berätta för dig ungefär där något och höga frekvenser för att hitta det just, eller olika höga frekvenser som har olika faser så att de bara rada upp vid ett visst avstånd. På det sättet, säger Östlin, “vi skulle kunna hålla tätare och bli bättre och bättre noggrannhet och fortfarande behålla räckvidd. Vi hittade ett sätt att både ha kvar kakan och äta den också!”

Fas uppackning får laget att ta frekvensen av sensorn upp från bara 20 mhz i de tidigaste forskning, att 320MHz. Högre frekvenser att sensorn har mindre pixlar, vilket ger bättre djup upplösning i 3D-bilden. Den nya sensorn har tillräckligt hög upplösning för att visa den rynkor i någons kläder när de går förbi kameran eller kurvan av en ping-pong boll i flyg-bara 2 centimeter från mitten till kanten-från en meter bort, och alla utan att minska prestanda och noggrannhet av sensorn sätt mindre pixlar skulle göra vid lägre frekvenser.

hololensping-pong.png

Den fjärde generationens fasas time-of-flight-sensor kan plocka upp kurvan för en ping-pong boll som flyger genom luften.

Bild: Microsoft / IEEE

Små pixlar har en annan stor fördel: sensorn i sig kan vara mindre. “Om du har små pixlar, som sänker den optiska bunthöjd,” Östlin påpekar. “Vårt utbud är liten, vilket betyder att den kan gå in i enheter som är tunna.”

Den nya sensorn även klarar av att leverera små, noggranna pixlar med hjälp av endast en åttondel strömförbrukning i tidigare versioner (det totala systemet makt är mellan 225 och 950 milliwatt). Det är en trade-off som Östlin karakteriserar som motsvarar Moores Lag. “Om du bara sätta i kraft nog att du kan få bra kvalitet, men för en konsument produkt som inte är tillräckligt bra. Du ökar frekvensen och som brinner mer makt, men det ökar noggrannheten och då kan du minska pixelstorleken. När du går igenom cykeln, du hamnar där du var, men med mindre pixlar.”

Pixlar i bildbehandling array började på 50 av 50 µm. Som gick ner till 15 och sedan 10 mikrometer, och nu pixlar är bara 3,5 3,5 µm varje. Det är större än pixlarna i en smartphone kamera, som är vanligen 1 till 2 mikron square, medan state of the art för RGB-sensorer är ca 0,8 µm square.

Å andra sidan, de pixlar i Microsoft-sensorn har en global shutter. Istället för en fysisk pärm som stoppar någon mer ljus kommer in, för att stoppa det stör det reflekterade ljuset som redan fångats av sensorn, en global shutter är en extra funktion inbyggd i silikon, som berättar sensor för att stänga av och sluta vara känslig för ljus tills det är dags att ta nästa mätning. I slutet av 2017, är den minsta pixlar med globala fönsterluckorna var cirka 3 µm square, men de har inte time-of-flight-sensor som denna gör.

En komplex silicon dans

Men pixlar detta lilla kan köra in i den kvantmekaniska problem med att få elektroner att gå där du vill ha dem. Sensorn känner av ljus genom att samla foto avgifter som det omvandlas till spänningar, och de måste mätas exakt.

Östlin jämför problemet med att blåsa upp en däcket. När du tar bort pumpen och sätta tillbaka locket på, lite luft kommer alltid tillbaka. Samma sak händer när du återställer en del av sensor där bilden avgift lagras: en del av avgiften som kan sugas tillbaka som reset händer, vilket resulterar i vad som kallas kTC buller (som är en förkortning för den formel som används för att räkna ut hur mycket buller som kan läggas till i signalen). Mängden laddning som sugs tillbaka in avgiften varierar, så du kan inte automatiskt rätt för det.

kTC buller händer bara där avgiften kan flyta i båda riktningarna — luft kan komma tillbaka ut på ett däck, men sanden inte kan rinna tillbaka upp i den övre halvan av ett timglas. Om det är en fullständig överföring av avgiften, får man inte buller.

Så Microsoft team går runt problemet genom att lagra foto avgifter som vad som kallas minoritet bärare — de mindre vanliga avgift som bär partiklar i halvledare som rör sig långsamt. För att konvertera dessa avgifter till en spänning som kan läsas, de är överfört i vad som kallas en flytande diffusion. Sensorn återställs flytande spridning och åtgärder spänningen i det omedelbart efter återställning, sedan flyttar foto kostnad i den flytande spridning och åtgärder den nya spänning. Subtrahera första värdet — tagen precis efter reset — kringgår problemet med kTC buller.

Den nya sensorn är den första time-of-flight-system för att använda denna teknik, vilket ökar komplexiteten i silicon teknik som krävs. “Men vi var tvungna att göra det eftersom pixlar blir mindre och mindre, detta problem blir mer och mer akut,” Östlin förklarar.

När du kommer hela vägen ned till varje (liten) pixel, det består av två samverkande superrent ‘photofingers” per pixel (tidigare generationer av sensorn hade fyra eller åtta fingrar, men det finns bara plats för två fingrar i den nya, mindre pixel).

Fingrarna turas om att generera en låg eller hög (3,3 v) elektrisk laddning. Detta är en ‘drift’ – fältet som gör fotoner drift mot finger som genererar en hög kostnad snabbare än de normalt skulle diffusa över materialet. De måste gå snabbt eftersom det vid full 320MHz andra finger tar över efter 2 nanosekunder och eventuella avgifter som inte fångats är inte användbara längre. På 320MHz, 78 procent av avgifter gör det hela vägen till rätt finger.

Detta finger strukturen gör att sensorerna lätt att tillverka — även om några fabriker har någon erfarenhet av att göra denna nya typ av kisel-enheten-eftersom det är mycket mindre känsliga än andra typer av time-of-flight sensorer för att eventuella defekter i CMOS-process. “Vi bygger en hunk av kisel av CMOS, men det är till skillnad från andra delar av kisel på samma chip,” Östlin säger. “Det är en standard CMOS-process, men vi håller på att bygga en struktur som är till skillnad från någon av de andra transistorer.”

I den verkliga världen

Efter allt arbete för att göra pixlarna mindre, det visar sig att mindre pixlar är inte idealisk för varje scen. Så för att göra sensorn mer flexibel, det kan fejka med större pixlar genom att gruppera fyra pixlar i taget och läsa av värden från dem på samma gång (den tekniska termen för detta är “binning’). Som pixel storlek som fungerar bäst beror på hur långt bort saker och ting är och hur mycket av laser ljus som gör det tillbaka till matrisen i sensorn.

“Om du har ett objekt som är nära upp med massor av ljus, kan du ha råd att ha små pixlar. Om du vill ha hög upplösning för ansiktsigenkänning, om det sitter 60 cm bort från dig och du har massor av ljus, du vill ha en liten pixlar,” säger Östlin. “Medan om du tittar på ett objekt som är mycket långt, på baksidan av rummet, du kanske inte kan se det exakt med de små pixlar och större pixlar skulle vara bättre. Om du svälter för laser-ljus eller laser-ljus har blivit skadad av solljus, du behöver större pixlar.”

Global slutare här, men hur mycket av ett problem är solljus eller andra omgivande ljus? Sitter i ett mötesrum på Microsofts Silicon Valley campus på eftermiddagen, Östlin uppskattningar belysning är 200-300 lux, starkt solljus kommer in genom fönstret kan ta upp till 300 eller 400 lux. “Vår spec är upp till 3 000 lux, och kamerans funktioner upp till ca 25 000 lux. Utomhus på stranden mitt på dagen med solen på full blast någonstans som Cancun, det är till 100 000 lux.”

Det är självklart att det är något vi kommer inte att kunna testa fram produkter finns tillgängliga, men demonstrationer vi har sett i normal kontorsmiljö verkar bära dessa siffror (och om du var på stranden, du skulle inte kunna se en skärm).

Hur dyrt är det snabb, kraftfull sensor kommer att bli? Det beror på att tillverka volymer, men om det är tillräckligt populär för att vara gjort i stort antal, Östlin förväntar sig att det ska vara “rimliga” — “Prisvärt, chip-vis, innebär samma siffror. Denna innehåller kisel och en laser, och i höga volymer de är också samma siffror.”

Vad är fortfarande uppe i luften är det som enheter utanför HoloLens vi ska se den nya sensorn, som skulle sälja tillräckligt för att få ner priset genom stordriftsfördelar.

hololensazure-project-kinect.png

Projektet Kinect för Azure.

Bild: Microsoft

Microsoft verkar ovanligt öppen för att sälja sensor för andra maskin-och programvaruleverantörer, men industriell partner sannolikt kommer att vara den första köpare, genom Projektet Kinect för Azure. Tänk dig en industriell bild erkännande kamera som kunde se hela vägen till baksidan av kyl för lager kontroll, med inbyggda i maskinen lära sig att känna igen vad som finns i kylskåpet. Enheter som är ett perfekt exempel på den “intelligenta kant” och att Microsoft är så förtjust i att prata om, och om denna sensor kan göras i stor skala så billigt som säger att en smartphone kamera, vi får se massor av enheter som kan dra fördel av exakta 3D-avbildning.

DE SENASTE OCH RELATERAT INNEHÅLL

Microsoft svartabörshajar HoloLens rentals, företag använder för mixed reality
Microsoft AR/VR pendeln verkar vara att svänga tillbaka mot att betona den potentiella affärer användning av HoloLens och mixed reality headset.

Microsoft fortsätter sin jakt för HoloLens graal
Företaget står inför en mängd konkurrenter med sin augmented reality-headsetet, vilket kan motivera sina kostnader för affärskritiska applikationer. Vanliga verksamhet använda, men kommer att kräva mer än bättre, billigare hårdvara.

Levererar Microsoft Windows 10 April 2018 Uppdatering för HoloLens
Microsoft börjar att rulla ut sin första Windows-10 funktionen uppdatera för HoloLens eftersom 2016, och gör förhandsvisningar av två nya första-parts affärs-program som är tillgängliga för enheten.

Kan Microsoft HoloLens revolutionera ditt företag? (TechRepublic)
Microsofts HoloLens kan omvandla företaget. Men vad exakt är HoloLens, och varför är det unikt?

Microsoft HoloLens: Cheat sheet (TechRepublic)
Inte HoloLens bara Microsofts ta på VR headset? Inte på alla. Här är vad proffsen behöver veta om HoloLens.

Relaterade Ämnen:

Microsoft

CXO

Digital Omvandling

Tech-Industrin

Smarta Städer

Cloud

0