Kunstig intelligens og fremtiden for smartphone-fotografi

0
178

Fotografering er blevet transformeret i en alder af din smartphone. Ikke kun er de udgør anderledes, som i tilfælde af selfie, men det hele karakteren af den proces, lyset blive fanget af telefon-kameraer er noget helt andet.

Kameraer er ikke længere bare en linse og sensor, er de også den samling af algoritmer, der straks manipulere billeder for at opnå fotografiske resultater, der ellers ville kræve timer for manipulation via desktop software. Fotografering er blevet beregningsmæssige fotografering.

Fortsatte fremskridt i machine learning former for kunstig intelligens vil bringe stadig flere funktioner, der vil gøre dagens smartphone-billeder ser passé.

De seneste eksempler på state of the art på telefoner er Alfabetet er Googles Pixel 3 smartphone-billeder, og Apple ‘ s iPhone X fotos. I den tidligere sag, har Google anvendes machine learning til at fange flere detaljer under dårlige lysforhold, så den aften scener ligner dagslys. Disse er simpelthen ikke skud, der nogensinde har eksisteret i naturen. De er super-resolution billeder.

Også: Nvidia ‘ s fremragende forfalskninger pak black box af AI

Og Apple, der starter med X iPhone i 2017, tilføjet “bokeh” artful sløring af elementer uden for omdrejningspunktet. Dette blev ikke opnået via aspekter af selve linsen, som det er tilfældet i traditionel fotografi, men snarere af en numerisk tilpasning af pixels efter billedet er taget.

Det er meget muligt, 2019 og 2020 ‘ s gennembrud udvikling vil være at manipulere perspektiv på et billede for at forbedre det. Det vil forhåbentlig føre til en korrektion af forvrængninger iboende i smartphone-fotografi at gøre dem til at komme op næste kort til digital single-lens-refleks (DSLR) kamera billeder.

microsoft-2019-pose-regression-using-cnn.png

Hvordan en convolutional neurale netværk, eller CNN, forsøg på at rekonstruere virkelighed, fra et billede. Fra “om Begrænsninger af CNN-baseret Absolut Kamera Udgør Regression,” af Torsten Sattler på Chalmers University of Technology, Qunjie Zhou og Laura Leal-Taixe af TU München, og Marc Pollefeys af ETH Zürich og Microsoft.

Sattler et al.

×

microsoft-2019-pose-regression-hjælp-cnn.png

De kunne faktisk nå resultater, som svarer til, hvad der er kendt som “tilt-shift” – kameraer. I en tilt-shift-kamera, linse er vinklet til at gøre op for den vinkel, som en person, der står med kameraet, og dermed korrigere de forvridninger, der ville blive skabt i det billede, der på grund af vinklen mellem den individuelle og den scene. Tilt-shift kapaciteter kan være havde ved DSLR-ejere i en række af flytbare linser fra forskellige leverandører.

Den gennemsnitlige telefonen kameraet har en linse tønde så små, at alt det fanger er forvrænget. Intet er nogensinde helt den rigtige form, da det er i den virkelige verden. De fleste mennesker kan ikke mærke eller pleje, som de har vænnet sig til selfies på Instagram. Men det ville være rart, hvis disse afvigelser kunne lindres. Og hvis de kan, vil det være et salgsargument for den næste runde af smartphones fra Google, Apple, etc.

I stigende grad, iPhone og andre kameraer vil bære bageste kameraer med 3-D-sensorer. Disse sensorer, lavet af folk Lumentum Bedrifter og andre chip-leverandører, måle dybden af omgivelserne af telefonen ved at sende stråler af lys og tælle, hvor de vender tilbage til telefonen, efter at hoppe ud objekter. Teknikker som “time-of-flight” giver telefonen til at måle, i detaljer, den tre-dimensionelle struktur af det omgivende miljø.

Disse sensorer kan drage fordel af en omfattende samling af statistiske arbejde, der er gjort de seneste år for at forstå forholdet mellem 2-D billeder og den virkelige verden.

google-night-sight-demonstration-2018.png

Google ‘ s “Night Sight” funktion på sin Pixel 3 smartphones: scener, der aldrig har eksisteret i naturen.

Google.

×

google-night-sight-demonstration-2018.png

En hel masse arbejde er blevet udført med statistikker, for at opnå den slags fysik, der går ind tilt-shift objektiver, både med og uden særlige kamera gear. For eksempel, en teknik, der kaldes “RANSAC,” eller “tilfældig stikprøve konsensus,” går tilbage til 1981, og er specielt designet til at finde lokaliteter i 3-D verden, der kan henføres til punkter i en 2-D billede fly, til at vide, hvordan 2-D billede korrelerer til tre-dimensionelle virkelighed. Ved hjælp af denne teknik, er det muligt at opnå en større forståelse for, hvordan en to-dimensionel repræsentation svarer til den virkelige verden.

Et hold af forskere ved Universitetet i Firenze i 2015 bygget på RANSAC til at udlede opsætning af et pan-tilt-zoom kamera ved argumentation tilbage fra billeder, det tog. De var i stand til at tune aktuatorer, motorer til at styre kameraet, til en fin vis ved hjælp af software til at analysere, hvor meget forvrængning er indført i billeder med forskellige placeringer af kameraet. Og de var i stand til at gøre det for video, ikke kun billeder.

Også: Facebook forfalskninger sløring med AI til at gøre VR mere fast

Fra den tid, har der været en lind strøm af arbejdet med at vurdere objekter i billeder, der er nævnt som udgør skøn, og en tilhørende opgave, samtidig lokalisering og kortlægning, eller SLAM, der konstruerer software i en “sky” af punkter i et 3-D-scene, der kan anvendes til at forstå, hvor meget forvrængning er i et digitalt billede.

Forskere ved University of Erlangen-Nürnberg i Tyskland, og Woods Hole Oceanographic Institution i 2017 fremviste et Python-bibliotek, kaldet CameraTransform, som lader man regner den reelle dimensioner af et objekt i verden ved at arbejde baglæns fra det billede, der er taget.

canon-2018-depth-discovery-neural-net.png

At se rundt om hjørner: et neuralt netværk, der er oprettet af forskere til at udlede genstande dækkes i et billede, der består af en encoder-decoder kombineret med en generativ kontradiktorisk netværk. Venligst udlånt af Helisa Dhamo, Keisuke Tateno, Iro Laina, Nassir Navab, og Federico Tombari af det Tekniske Universitet i München, med støtte fra Canon, Inc.

Dhamo et al.

×

canon-2018-dybde-discovery-neurale net.png

Sidste år, forskerne på det Tekniske Universitet i München, Tyskland og Canon, Inc. viste, at det er muligt at tage et enkelt billede og udlede, hvad der er i den scene, der dækkes af et andet objekt. Kaldes en “layered dybde billede,” det kan skabe nye scener ved at fjerne et objekt fra et foto, der afslører den baggrund, at kameraet aldrig set, men der blev beregnet ud fra billedet. Den tilgang, der anvender den velkendte encoder-decoder tilgang findes i mange neurale netværk, applikationer, til at estimere dybden af en scene, og en “generativ kontradiktorisk netværk,” eller GAN, til at konstruere dele af den scene, der var faktisk aldrig i udsigt, da billedet blev taget.

Alle der forskning, der bobler op og kommer til at munde ud i nogle fantastiske evner til den næste afgrøde af smartphone-kameraer, der er udstyret med 3-D-sensorer. Resultaterne af denne forskning bør være fantastisk. I det mindste, man kan forestille sig, portrætter taget på smartphones, der ikke længere har en underlig fordrejning af folks ansigter. Super-resolution billeder af arkitektur vil være muligt at skabe parallelle linjer ved aften ud af alle de fordrejninger i linsen. Smartphone industrien vil være i stand til at kræve en sejr over DSLR markedet som telefoner kværne billeder med fantastisk niveau af præcision og realisme.

Men, selvfølgelig, den langsigtede tendens til smartphone-fotografi er væk fra realisme, mod mere markante effekter, der ikke var muligt før beregningsmæssige fotografering. Og så kan vi se, bruger 3-D-sensing, der tenderer mod det surrealistiske.

Også: Apple håber du vil finde ud af, hvad de skal gøre med AI på iPhone XS

For eksempel, tilt-shift-kameraer kan bruges til at skabe nogle mærkelige, vidunderlige virkninger, såsom forsnævring af dybdeskarphed af skud i ekstrem grad. Det har den virkning, at landskaber ser ud som om de er toy modeller, i en sært tilfredsstillende måde. Der er apps til telefoner, der vil gøre noget lignende, men effekten af at have 3-D sensorer koblet til AI-teknikker, der vil gå langt ud over, hvad disse apps opnå. Der er teknikker til at opnå tilt-shift i Photoshop, men det vil være langt mere tilfredsstillende at have samme effekter kommer lige ud af kameraet med hvert tryk på udløseren.

Ned af vejen, vil der være en anden fase, der vil betyde en masse i form af fremme af machine learning teknikker. Det er muligt at give afkald på brugen af 3-D sensorer og bare bruge en convolutional neurale netværk, eller CNN, at udlede de koordinater i rummet af objekter. Der vil spare på bekostning af bygning sensorer i telefoner.

Skal læse

“AI er meget, meget dum, “siger Google’ s AI-leder (CNET), Hvordan man får alle Google Assistant ‘s nye stemmer lige nu (CNET)Samlet Google AI division et klart signal om, at AI’ s fremtid (TechRepublic)Top 5: Ting at vide om AI (TechRepublic)

Men i øjeblikket, sådan software-kun tilgange producerer dårlige resultater, som beskrevet i en rapport ud i denne uge af forskere på Microsoft og akademiske samarbejdspartnere. Kendt som “absolut udgøre regression,” den software, der kun tilgang undladt at generalisere, de skriver, efter træning, hvilket betyder, at uanset hvilke teknikker, CNN erhvervet ikke korrekt estimat geometri, når de testes med nye billeder.

Forfatterne mener, at deres arbejde “en vigtig sanity check” for software-kun bestræbelser, og de konkluderer, at “der er stadig en betydelig mængde af forskning, der skal gøres, før udgøre regression fremgangsmåder bliver praktisk relevant.”

Hvordan vil dette arbejde blive udført? Ikke af forskere alene. Det vil ske ved masser af smartphone-ejere. Med de nyeste modeller, der indeholder 3-D sensorer, de vil tage væk deres imponerende 3-D-sensing-bedre billeder. Mens de gør det, har deres enhed, eller skyen, vil være at holde styr på, hvordan den virkelige verden geometri korrelerer til 2-D billeder. Det vil være at bruge al den aktivitet, med andre ord, at holde læring. En dag, med nok 3-D billeder, CNN, på en eller anden algoritme, der bruges, vil være smart nok til at se på verden og vide præcis, hvad det er ligesom selv uden hjælp fra 3-D-dybde perception.

Er du ser frem til de næste smartphone kamera innovationer? Fortæl mig hvad du synes i kommentarfeltet.

Tidligere og relaterede dækning:

Hvad er AI? Alt, hvad du behøver at vide

En executive guide til kunstig intelligens, fra machine learning og generelt AI til neurale netværk.

Hvad er dyb læring? Alt, hvad du behøver at vide

Den lowdown på en dyb læring: fra hvordan det relaterer til det bredere felt af machine learning igennem til, hvordan du kommer i gang med det.

Hvad er machine learning? Alt, hvad du behøver at vide

Denne vejledning forklarer, hvad machine learning er, hvordan det er relateret til kunstig intelligens, hvordan det fungerer, og hvorfor det er vigtigt.

Hvad er cloud computing? Alt, hvad du behøver at vide om

En introduktion til cloud computing-lige fra det grundlæggende op til IaaS og PaaS, hybrid, offentlige og private cloud.

Relaterede historier:

Google ‘ s AI surfer “gamescape” for at erobre game theory
Dette er, hvad AI ligner (som skitseret ved AI)
Google ‘ s DeepMind hold med førende 3D spil dev platform
DeepMind ‘ s AI pletter tidlige tegn på øjensygdom

Relaterede Emner:

Apple

Digital Transformation

CXO

Tingenes Internet

Innovation

Virksomhedens Software