SVENSKA

Artificiell intelligens och framtiden för smartphone fotografering

136

Fotografering har förvandlats i en ålder av smartphone. Det är inte bara pose annorlunda, som i fallet med selfie, men hela naturen av processen av ljus som registreras av telefonens kamera är något helt annat.

Kameror är inte längre bara en lins och en sensor, de är också den samling av algoritmer för att direkt manipulera bilder för att uppnå fotografisk resultat som annars skulle kräva timmar av manipulation via desktop software. Fotografering har blivit digitalt fotografi.

Fortsatta framsteg inom maskininlärning former av artificiell intelligens kommer att ge ännu fler funktioner som kommer att göra dagens smartphone bilder ser passé.

De senaste exemplen på state of the art på telefoner är Alfabetet är Googles Pixel 3 smartphone bilder, och Apples iPhone X foton. I det förra fallet Google har använt maskinen lära sig att fånga fler detaljer i svagt ljus, så att nattscener ser ut som dagsljus. Detta är helt enkelt inte skott som någonsin existerat i naturen. De är super-upplösning bilder.

Också: Nvidia fantastiska förfalskningar packa upp den svarta lådan av AI

Och Apple, som börjar med iPhone-X 2017, tillade: “bokeh,” konstnärlig oskärpa av faktorer utanför i fokus. Detta var inte uppnås via aspekter av linsen i sig, som är fallet i traditionell fotografi, utan snarare av en datoriserad justering av pixlar efter att bilden tas.

Det är mycket möjligt 2019 och 2020 genombrott utveckling kommer att vara att manipulera perspektiv på en bild för att förbättra det. Förhoppningsvis kommer det att leda till en korrigering av den snedvridning som finns inneboende i smartphone fotografering att få dem att komma upp kort bredvid digital single-lens-reflex (DSLR-kamera-bilder.

microsoft-2019-pose-regression-med-cnn.png

De kan i själva verket uppnå ett resultat som liknar det som brukar kallas för “tilt-shift” – kameror. I en tilt-shift kameran, objektivet är vinklade för att kompensera för den vinkel som en person som står med kameran, och därmed korrigera snedvridningar som skulle skapas i bilden på grund av vinkeln mellan den individuella och den scenen. Tilt-shift-funktioner kan vara hade av DSLR ägare i en mängd olika flyttbara linser från olika leverantörer.

Den genomsnittliga telefonens kamera har en objektivet så liten att allt det fångar är förvrängd. Ingenting är någonsin helt rätt form som det är i den verkliga världen. De flesta människor kanske inte märker eller bryr sig, eftersom de har blivit som används för att selfies på Instagram. Men det skulle vara trevligt om dessa avvikelser kan förbättras. Och om de kan, det skulle vara ett försäljningsargument för nästa omgång av smartphones från Google, Apple, etc.

Allt, iPhone och andra kameror kommer att bära bakre kamera med 3-D-sensorer. Dessa sensorer, gjorde av artister som Lumentum Innehav och andra chip leverantörer, mäta djupet i närheten av telefonen genom att skicka ut strålar av ljus och räkna hur kommer de tillbaka till telefonen efter att studsa bort objekt. Tekniker som “time-of-flight” låt telefonen för att mäta i detalj den tredimensionella strukturen av den omgivande miljön.

Dessa sensorer kan dra nytta av en stor kropp av statistiska arbete som har gjorts under senare år för att förstå relationen mellan 2-D bilder och den verkliga världen.

Googles “Nattens Ögon” funktionen på sin Pixel 3 smartphones: scener som aldrig funnits i naturen.

Google.

google-natt-syn-demonstration-2018.png

En hel del arbete har gjorts med statistik för att uppnå den typen av fysik som går in tilt-shift-objektiv, både med och utan särskild kamera redskap. Till exempel, en teknik som kallas “RANSAC,” eller “slumpmässigt urval samförstånd,” går tillbaka till 1981 och är speciellt utformad för att hitta landmärken i 3-D-värld som kan kopplas till punkter i en 2-D bild plan, för att veta hur det 2-D bild korrelerar till tre-dimensionell verklighet. Med hjälp av denna teknik, är det möjligt att få en större förståelse om hur en två-dimensionell representation motsvarar den verkliga världen.

Ett team av forskare vid Universitetet i Florens 2015 bygger på RANSAC att sluta sig till installation av en pan-tilt-zoom kameran genom att resonera baklänges från bilder som det tog. De kunde ställa ställdon, motorer att styra kameran, till böter grad genom att använda programvaran för att analysera hur mycket distorsion är infört i bilder med olika placeringar av kameran. Och de kunde göra det för en video, inte bara stillbilder.

Också: Facebook förfalskningar oskärpa med AI att göra VR mer verklig

Från den tiden, har det varit en stadig ström av arbete för att uppskatta objekt i bilder, som avses utgöra uppskattning och en uppgift, samtidigt lokalisering och kartläggning, eller SLAM, som bygger på programvaran i ett “moln” av punkter i en 3-D scen som kan användas för att förstå hur mycket förvrängning i en digital bild.

Forskare vid Universitetet i Erlangen-Nürnberg i Tyskland och Woods Hole Oceanographic Institution i 2017 visade upp ett Python-biblioteket, som kallas CameraTransform, vilket gör det möjligt att räkna de verkliga måtten för ett objekt i världen genom att arbeta bakåt från den bild som tas.

Se runt hörn: ett neuralt nätverk som skapas av forskare för att dra slutsatsen dolt objekt i en bild, som består av en kodare-avkodare i kombination med en generativ kontradiktoriska nätverk. Med tillstånd av Helisa Dhamo, Keisuke Tateno, Iro Laina, Nassir Navab, och Federico Tombari av Tekniska Universitetet i München, med stöd från Canon, Inc.

Dhamo et al.

canon-2018-djup-discovery-neural-net.png

Förra året, forskare vid Tekniska Universitetet i München, Tyskland och Canon, Inc. visade att det är möjligt att ta en enda bild och dra slutsatsen att det är i den scenen som är tilltäppt av ett annat objekt. Kallas en “lager djup bild,” det kan skapa nya scener genom att ta bort ett objekt från ett foto, som avslöjar den bakgrunden att kameran aldrig såg, men det var beräknat från bilden. Metoden använder de välkända encoder-decoder synsätt som finns i många neurala nätverk applikationer, för att uppskatta det djup i en scen, och en “generativ kontradiktoriska nätverk” eller GAN, för att konstruera delar av scenen som var faktiskt aldrig i tanke när bilden togs.

Alla som forskning bubblar upp och kommer att kulminera i några fantastiska förmågor för nästa gröda av smartphone-kameror, utrustad med 3-D-sensorer. Resultaten av denna typ av forskning bör vara fantastisk. Åtminstone, man kan föreställa porträtt tagna på smartphones som inte längre har märkliga snedvridningar av människors ansikten. Super-upplösning bilder av arkitektur kommer att vara möjligt att skapa parallella linjer genom att jämna ut alla de snedvridningar i linsen. Smartphone-industrin kommer att kunna hävda en annan seger över DSLR marknaden som telefoner pressa ut bilder med fantastisk noggrannhet och realism.

Men, naturligtvis, den långsiktiga trenden för smartphone fotografering är borta från realism, mot mer slående effekter som inte var möjligt innan digitalt fotografi. Och så får vi se använder sig av 3-D känner på mig att luta åt det surrealistiska.

Även: Apple hoppas du ska räkna ut vad man ska göra med AI på iPhone XS

Till exempel, tilt-shift-kameror kan användas för att skapa lite konstigt vackra effekter, såsom att minska skärpedjupet i bilden till en extrem grad. Det leder till att landskapet ser ut som om de är toy modeller, i en märkligt tillfredsställande sätt. Det finns appar för telefoner som kommer att göra något liknande, men effekten av att ha 3-D sensorer i kombination med AI-tekniker kommer att gå långt utöver vad de appar uppnå. Det finns tekniker för att uppnå tilt-shift i Photoshop, men det kommer att vara mycket mer tillfredsställande att ha samma effekter som kommer direkt ur kameran varje gång du trycker på avtryckaren.

På vägen kommer det att finnas ytterligare ett steg som kommer att innebära en hel del i form av att främja lärande tekniker. Det är möjligt att avstå från användning av 3-D-sensorer och bara använda en convolutional neurala nätverk, eller CNN, för att sluta sig till koordinater i rymden av objekt. Det skulle spara på bekostnad av att bygga sensorer i telefoner.

Måste läsa

‘AI är mycket, mycket dumt”, säger Googles AI ledare (CNET)Hur man får alla Google Assistant nya röster just nu (CNET)Enhetlig Google AI division en tydlig signal om att AI: s framtid (TechRepublic)Topp 5: Saker att veta om AI (TechRepublic)

Dock, för närvarande, att sådan programvara-bara metoder att producera dåliga resultat, som diskuteras i en rapport ut denna vecka av forskare på Microsoft och akademiska samarbetspartners. Känd som “absolut innebära regression,” bara programvara strategi misslyckats med att generalisera, skriver de, efter utbildning, vilket innebär att oavsett teknik CNN förvärvade inte korrekt uppskatta geometri när de testas med nya bilder.

Författarna anser att deras arbete “en viktig sanity check” för bara programvara insatser, och de drar slutsatsen att “det finns fortfarande en betydande mängd forskning innan innebära regression synsätt blir praktiskt relevant.”

Hur kommer detta arbete att bli klar? Inte av forskare ensam. Det kommer att göras av många smartphone ägare. Med de nyaste modellerna, som innehåller 3-D-sensorer, kommer de att knäppa bort sina imponerande 3-D sensing-förbättrad bilder. Medan de gör det, är deras enhet, eller molnet, kommer att hålla koll på hur verkliga geometri korrelerar till 2-D bilder. Det kommer att bli med hjälp av all denna verksamhet, med andra ord, att fortsätta lära sig. En dag med tillräckligt med 3-D bilder, CNN, eller vad algoritm används, kommer vara smart nog att se på världen och vet exakt vad det är som även utan hjälp av 3-D djupseende.

Ser du fram emot till nästa smartphone kamera innovationer? Berätta vad du tycker i kommentarerna.

Tidigare och relaterade täckning:

Vad är AI? Allt du behöver veta

En verkställande guide till artificiell intelligens, från maskininlärning och allmänna AI att neurala nätverk.

Vad är djupt lärande? Allt du behöver veta

Lowdown på djupt lärande: från hur det förhåller sig till de bredare fält av maskinen lärande genom hur man kommer igång med det.

Vad är lärande? Allt du behöver veta

Denna guide förklarar vad lärande är, hur den är relaterad till artificiell intelligens, hur det fungerar och varför det är viktigt.

Vad är cloud computing? Allt du behöver veta om

En introduktion till cloud computing rätt från grunderna upp till IaaS och PaaS, hybrid, offentliga och privata moln.

Relaterade artiklar:

Googles AI surfar “gamescape” att erövra spelteori
Detta är vad AI ser ut (som skissat av AI)
Googles DeepMind lag med ledande 3D-spel dev plattform
DeepMind AI fläckar tidiga tecken på ögonsjukdom

Relaterade Ämnen:

Apple

Digital Omvandling

CXO

Sakernas Internet

Innovation

Affärssystem