Kunstmatige intelligentie en de toekomst van de smartphone-fotografie

0
95

Fotografie is getransformeerd in het tijdperk van de smartphone. Niet alleen is de houding anders, zoals in het geval van de selfie, maar de hele aard van het proces van het licht wordt opgevangen door de telefoon camera ‘ s is iets heel anders.

Camera ‘ s zijn niet langer alleen een lens en een sensor, ze zijn ook de collectie van algoritmen die direct manipuleren van beelden te bereiken fotografische resultaten die anders zouden vereisen uur van manipulatie via desktop software. Fotografie is geworden computational fotografie.

De voortdurende ontwikkeling van machine learning vormen van kunstmatige intelligentie zal brengen steeds meer mogelijkheden die vandaag de dag maken de smartphone-foto ‘ s kijken passé.

Recente voorbeelden van de stand van de techniek op telefoons worden Alfabet ‘s van Google Pixel 3 smartphone foto’ s en Apple ‘s iPhone X foto’ s. In het eerste geval heeft Google gebruikt machine learning vast te leggen meer detail bij weinig licht, dus die nacht scenes zien eruit als daglicht. Deze zijn niet alleen foto ‘ s die ooit heeft bestaan in de natuur. Ze zijn super-resolutie foto ‘ s.

Ook: Nvidia prachtige vervalsingen pak de zwarte doos van AI

En Apple, te beginnen met de iPhone X in 2017, toegevoegd “bokeh” de kunstzinnige vervaging van elementen buiten het brandpunt. Dit werd niet bereikt via aspecten van de lens zelf, zoals het geval is in de traditionele fotografie, maar eerder door een rekenkundige aanpassing van de pixels na de opname wordt gemaakt.

Het is heel goed mogelijk in 2019 en 2020 een baanbrekende ontwikkeling zal het manipuleren van het perspectief van een afbeelding te verbeteren. Hopelijk zal dat leiden tot een correctie van de vervorming die inherent is in de smartphone fotografie dat ze komen kort de volgende digitale single-lens reflex (DSLR) camera ‘ s.

microsoft-2019-pose-regression-using-cnn.png

Hoe een convolutional neurale netwerk, of CNN, pogingen tot reconstructie van de werkelijkheid van een foto. Uit “het Begrijpen van de Beperkingen van CNN op basis van Absolute Camera Poseren Regressie,” door Torsten Sattler van de Chalmers University of Technology, Qunjie Zhou en Laura Leal-Taixe van de TU München, en Marc Pollefeys van de ETH Zürich en Microsoft.

Sattler et al.

×

microsoft-2019-pose-regressie-met-cnn.png

Ze kunnen, in feite, het bereiken van resultaten verwant aan wat bekend staat als “tilt-shift” – camera ‘ s. Een tilt-shift camera, de lens hoek om voor de hoek die een persoon staat met de camera, en daarmee juist de vervormingen die zouden worden gemaakt in het beeld als gevolg van de hoek tussen het individu en de scene. Tilt-shift mogelijkheden had kunnen worden door DSLR eigenaren in een verscheidenheid van verwisselbare lenzen van de verschillende leveranciers.

De gemiddelde telefoon camera heeft een lens zo klein dat alles vangt is vervormd. Niets is ooit wel de juiste vorm als in de echte wereld. De meeste mensen niet zien of verzorging, zoals ze gewend zijn te selfies op Instagram. Maar het zou mooi zijn als deze dwalingen zou kunnen worden verbeterd. En als zij het kunnen, zou het een selling point voor de volgende ronde van de smartphones van Google, Apple, etc.

In toenemende mate, de iPhone en andere camera ‘ s zullen dragen, de camera aan de achterkant met 3-D-sensoren. Deze sensoren, die door de wil van Lumentum Holdings en andere chip leveranciers, het meten van de diepte van de omgeving van de telefoon door het verzenden van balken van het licht en het tellen van hoe ze weer terug naar de telefoon na het stuiteren objecten. Technieken zoals “time-of-flight”, laat de telefoon om te meten in detail de drie-dimensionale structuur van de omgeving.

Deze sensoren kunnen profiteren van een grote hoeveelheid statistische het werk dat is gedaan in de afgelopen jaren om de relatie te begrijpen tussen de 2-D beelden en de echte wereld.

google-night-sight-demonstration-2018.png

Google ‘ s “Nacht-Zicht” – functie op de Pixel 3 smartphones: scènes die nooit bestaan in de natuur.

Van Google.

×

google-nacht-zicht-demonstratie-2018.png

Een hele hoop werk is gedaan met statistieken om het bereiken van de soort van de fysica die verder gaan in tilt-shift lenzen, zowel met als zonder speciale camera-apparatuur. Bijvoorbeeld, een techniek genaamd “RANSAC,” of “willekeurige steekproef consensus,” gaat terug tot 1981, en is speciaal ontworpen voor het vinden van bezienswaardigheden in de 3-D wereld die kunnen worden toegewezen aan de punten in een 2-D beeld vliegtuig, om te weten hoe het 2-D beeld sluit aan bij de drie-dimensionale werkelijkheid. Met deze techniek is het mogelijk meer inzicht te verwerven over hoe een twee-dimensionale representatie overeenkomt met de echte wereld.

Een team van onderzoekers aan de Universiteit van Florence in 2015 gebouwd op RANSAC afleiden uit de installatie van een pan-tilt-zoom camera door te redeneren naar achteren foto ‘ s nam. Ze waren in staat om af te stemmen de aandrijving, de motor die de controle over de camera, een fijne mate door het gebruik van software om te analyseren hoeveel vervorming wordt geïntroduceerd in foto ‘ s met verschillende plaatsingen van de camera. En ze waren in staat om het te doen voor de video, niet alleen stilstaande beelden.

Ook op: Facebook fakes de onscherpte met AI te maken VR meer echt

Vanaf dat moment is er sprake van een gestage stroom van werk in te schatten objecten in foto ‘ s, aangeduid als pose estimation, en een gerelateerde taak is, gelijktijdig localization and mapping, of SLAM, die bouwt op en in de software een “cloud” van punten in een 3-D-scene, dat kan worden gebruikt om te begrijpen hoe veel vervorming in een digitale foto.

Onderzoekers aan de Universiteit van Erlangen-Nürnberg in Duitsland en het Woods Hole Oceanographic Institution in 2017 bleek uit een Python library, genoemd CameraTransform, waarmee men rekening houden met de werkelijke afmetingen van een object in de wereld door het werk terug van het opgenomen beeld.

canon-2018-depth-discovery-neural-net.png

Het zien van rond de hoeken: een neuraal netwerk is gemaakt door de onderzoekers concluderen verstopte objecten in een foto, bestaande uit een encoder-decoder in combinatie met een generatieve tegenspraak netwerk. Met dank aan Helisa Dhamo, Keisuke Tateno, Iro Laina, Nassir Navab, en Federico Tombari van de Technische Universiteit van München, met de steun van Canon, Inc.

Dhamo et al.

×

canon-2018-diepte-discovery-neurale-netto.png

Vorig jaar, onderzoekers aan de Technische Universiteit van München, Duitsland en Canon, Inc. bleek het mogelijk is om een enkele afbeelding en concluderen wat er in de scène die is afgesloten door een ander object. Wel een “gelaagde diepte beeld,” het aanmaken van nieuwe scènes door het verwijderen van een object uit een foto, het openbaren van de achtergrond dat de camera nooit zag, maar die is berekend op basis van het beeld. De aanpak maakt gebruik van de bekende encoder-decoder aanpak die in veel neurale netwerk-toepassingen, om de diepte te schatten van een scène, en een ‘generatieve’ n netwerk, ‘ of GAN, voor het bouwen van de delen van de scène die eigenlijk nooit in het zicht liggen wanneer de foto is genomen.

Al dat onderzoek is borrelen omhoog en gaat uitmonden in een aantal fantastische mogelijkheden voor de volgende oogst van de smartphone-camera ‘ s, uitgerust met de 3-D-sensoren. De resultaten van deze lijn van onderzoek moet het prachtig zijn. Op zijn minst, kan men zich voorstellen portretten op smartphones die niet langer de vreemde vervormingen van de gezichten van de mensen. Super-resolutie foto ‘ s van architectuur zal het mogelijk maken parallelle lijnen door alle verstoringen in de lens. De smartphone-industrie in staat zal zijn om te beweren dat een ander overwinning op de DSLR markt, zoals telefoons churn foto ‘ s met verbluffende niveaus van nauwkeurigheid en realisme.

Maar, natuurlijk, de lange-termijn trend voor smartphone-fotografie is de weg van het realisme, in de richting van meer opvallende effecten die voorheen niet mogelijk waren computational fotografie. En zo zien wij gebruik van 3-D sensing die neigen naar het surrealistische.

Ook: Apple hoopt dat u zult erachter te komen wat te doen met AI op de iPhone XS

Bijvoorbeeld, tilt-en shift-camera ‘ s kunnen worden gebruikt voor het maken van een aantal bijzonder mooie effecten, zoals het verkleinen van de scherptediepte van de foto tot een extreme mate. Dat heeft het effect van het maken van landschappen eruit zien alsof ze zijn speelgoed modellen, in een vreemd bevredigende manier. Er zijn apps voor telefoons die iets soortgelijks doen, maar het effect van het hebben van 3-D-sensoren in combinatie met AI-technieken gaat veel verder dan wat die apps te bereiken. Er zijn technieken voor het bereiken van tilt-shift in Photoshop, maar het zal veel meer voldoening om dezelfde effecten komen recht uit de camera met elke druk op de ontspanknop.

De weg naar beneden weer een fase dat zal heel veel betekenen in termen van het bevorderen van machine learning technieken. Het is mogelijk af te zien van het gebruik van 3-D sensoren en gewoon gebruik maken van een convolutional neurale netwerk, of CNN, af te leiden van de coördinaten in de ruimte van objecten. Dat zou een besparing op de kosten van de bouw van de sensoren in de telefoons.

Moet lezen

‘AI is heel, heel stom,’ zegt Google AI leider (CNET)Hoe krijg je al die Google Assistent van de nieuwe stemmen nu (CNET)Unified Google AI afdeling een duidelijk signaal van AI ‘ s toekomst (TechRepublic)Top 5: Dingen om te weten over AI (TechRepublic)

Echter, op dit moment, zoals software-slechts benaderingen kunnen slechte resultaten, zoals beschreven in een rapport dat deze week door onderzoekers van Microsoft en academische medewerkers. Bekend als “absolute vormen van regressie” alleen de softwarematige aanpak mislukt om te generaliseren, schrijven ze, na de training, wat betekent dat, wat ook de technieken van de CNN overgenomen niet correct in te schatten meetkunde, getest met nieuwe beelden.

De auteurs beschouwen hun werk ‘een belangrijke sanity check” voor software-only-inspanningen, en ze concluderen dat “er is nog een aanzienlijke hoeveelheid onderzoek gedaan worden voordat vormen regressie benaderingen worden praktisch relevant zijn.”

Hoe zal dat werk gedaan te krijgen? Niet door de onderzoekers alleen. Dit wordt gedaan door veel smartphone-bezitters. Met de nieuwste modellen, met de 3-D-sensoren, zij zullen snap hun indrukwekkende 3-D-sensing-verbeterde foto ‘ s. Terwijl ze dat doen, hun apparaat of in de cloud, zal bijhouden hoe de echte wereld geometrie correleert met 2-D beelden. Het zal met al die activiteit, met andere woorden, om te blijven leren. Op een dag, met genoeg 3-D-schoten, het CNN, of wat algoritme wordt gebruikt, zal zijn slim genoeg om de wereld te kijken en precies weten wat het is, zelfs zonder de hulp van de 3-D-diepte perceptie.

Bent u op zoek uit naar de volgende smartphone-camera-innovaties? Vertel me wat je denkt in de comments sectie.

Vorige en aanverwante dekking:

Wat is AI? Alles wat je moet weten

Een executive gids voor kunstmatige intelligentie, van machine learning en algemene AI-neurale netwerken.

Wat is diep leren? Alles wat je moet weten

De lowdown op diep leren: van hoe het zich verhoudt tot het bredere veld van machine-leren door te zien hoe aan de slag met het.

Wat is machine learning? Alles wat je moet weten

In deze gids wordt uitgelegd wat ‘machine learning’ is, hoe het is in verband met kunstmatige intelligentie, hoe het werkt en waarom het belangrijk is.

Wat is cloud computing? Alles wat u moet weten over

Een introductie van cloud computing recht vanaf de basis tot IaaS en PaaS -, hybride -, public en private cloud.

Verwante artikelen:

Google AI surft op het “gamescape” te veroveren spel theorie
Dit is wat AI eruit ziet (zoals geschetst door AI)
Google DeepMind teams met toonaangevende 3D-game dev platform
DeepMind AI plekken vroege tekenen van de ziekte van het oog

Verwante Onderwerpen:

Apple

Digitale Transformatie

CXO

Het Internet van Dingen

Innovatie

Enterprise Software