Comment l’IA est en train de changer la photographie

0
157

Si vous vous demandez comment bon votre prochain téléphone de l’appareil photo va être, il serait sage de prêter attention à ce que le fabricant a à dire à propos de l’IA. Au-delà de la hype et de la menace, de la technologie a permis échelonnement des progrès dans la photographie au cours des deux dernières années, et il n’y a pas de raison de penser que les progrès vont ralentir.

Il y a encore beaucoup de trucs autour, pour être sûr. Mais le plus impressionnant, les récents progrès de la photographie ont eu lieu au logiciel de silicium et de niveau, plutôt que le capteur ou de l’objectif — et c’est en grande partie grâce à l’IA donnant des caméras une meilleure compréhension de ce qu’ils regardent.

Google Photos fournies, une claire démonstration de la puissance d’un mélange de l’AI et de la photographie serait lorsque l’application est lancée en 2015. Avant cela, le géant de la recherche avait été l’aide de l’apprentissage de la machine à classer les images dans Google+ depuis des années, mais le lancement de son application de Photos inclus consommateur AI fonctionnalités qui auraient été inimaginables pour la plupart. Utilisateurs désorganisé les bibliothèques de milliers de sans étiquette photos ont été transformées en bases de données de recherche pour la nuit.

Soudainement, semblait-il, Google savait ce que votre chat ressemblait.

Photo par James Bareham / Le Point

Google construit sur le travail antérieur de un 2013 acquisition, DNNresearch, par la mise en place d’un réseau de neurones profonds formés sur des données qui ont été étiquetés par des humains. Cela s’appelle l’apprentissage supervisé; le processus implique la formation du réseau sur des millions d’images, de sorte qu’il peut chercher des indices visuels au niveau du pixel pour aider à identifier la catégorie. Au fil du temps, l’algorithme est de mieux en mieux et mieux à même de reconnaître, par exemple, un panda, car il contient les modèles utilisés pour identifier correctement les pandas dans le passé. Il apprend où le noir de la fourrure et la fourrure blanche ont tendance à être en relation à un autre, et en quoi elle diffère de la peau d’une vache Holstein, par exemple. Avec la poursuite de la formation, il devient possible de rechercher plusieurs termes abstraits tels que “animal” ou “petit-déjeuner”, qui peuvent ne pas avoir de commun d’indicateurs visuels, mais sont toujours immédiatement évident pour l’homme.

Il prend beaucoup de temps et de puissance de traitement pour former un algorithme comme ça, mais après les centres de données ont fait leur chose, il peut être exécuté sur la faible puissance des appareils mobiles sans trop de difficulté. Le gros du travail a déjà été fait, donc une fois que vos photos sont téléchargées dans le cloud, Google peut utiliser son modèle pour analyser l’étiquette et l’ensemble de la bibliothèque. Environ un an après Google Photos a été lancé, Apple a annoncé une photo de la fonctionnalité de recherche qui a été formé de la même façon sur un réseau de neurones, mais dans le cadre de l’engagement de l’entreprise à la vie privée le réel de la catégorisation est effectuée sur chaque appareil processeur séparément sans envoyer de données. Cela prend habituellement un jour ou deux et qui se passe dans l’arrière-plan de l’installation.

Intelligent de gestion de photos logiciel est une chose, mais de l’AI et de l’apprentissage de la machine sont sans doute avoir un plus grand impact sur la façon dont les images sont capturées en premier lieu. Oui, les lentilles de continuer à obtenir un peu plus vite et capteurs pouvez toujours obtenir un peu plus grand, mais nous avons déjà de repousser les limites de la physique quand il s’agit de bourrer de systèmes optiques dans slim appareils mobiles. Néanmoins, il n’est pas rare de nos jours pour les téléphones pour prendre de meilleures photos dans certaines situations que beaucoup d’dédié équipement photo, au moins avant le post-traitement. C’est parce que les caméras ne peuvent pas rivaliser sur une autre catégorie de matériel qui est tout aussi profonde pour la photographie: les systèmes-sur-puce qui contient un PROCESSEUR, un processeur de signal numérique, et, de plus en plus, un traitement neuronal de l’unité (NPU).

C’est le matériel à effet de levier dans ce qui est maintenant connu sous le nom de calcul de la photographie, un terme général qui englobe tout, de la fausse profondeur de champ, effets de téléphones modes portrait pour les algorithmes qui permettent de conduire le Google Pixel de l’incroyable qualité d’image. Pas tous de calcul de la photographie implique l’IA, mais l’IA est certainement une composante majeure.

Apple rend l’utilisation de cette technologie pour conduire sa double caméra des téléphones en mode portrait. L’iPhone est le processeur de signal numérique utilise des techniques d’apprentissage automatique à reconnaître les personnes avec une caméra, tandis que le second appareil crée une carte de profondeur pour aider à isoler le sujet et l’arrière-plan flou. La capacité à reconnaître les personnes par le biais de l’apprentissage de la machine n’était pas nouveau lorsque cette fonction a fait ses débuts en 2016, car c’est ce que la photo de l’organisation du logiciel était déjà en train de faire. Mais de la gérer en temps réel à la vitesse requise pour un appareil photo intelligent a été une percée.

Google reste le leader évident dans ce domaine, cependant, avec les superbes résultats obtenus par les trois générations de Pixel comme la preuve la plus convaincante. HDR+, la valeur par défaut mode de prise de vue, utilise un algorithme complexe qui combine plusieurs sous-trames dans un et de, de Google, de calcul de la photographie de plomb Marc Levoy a noté que Le Point, l’apprentissage automatique signifie que le système ne peut qu’aller mieux avec le temps. Google a formé son IA sur un vaste ensemble de données étiquetées photos, comme avec Google Photos logiciel, et ce d’aides supplémentaires de l’appareil photo avec l’exposition. Le Pixel 2, en particulier, conduit à un tel niveau impressionnant de ligne de base de la qualité de l’image que certains d’entre nous à La Veille ont été plus à l’aise de l’utiliser pour le travail professionnel sur ce site.

Google est la vision Nocturne est une superbe publicité pour le rôle du logiciel dans la photographie

Mais Google parti n’a jamais semblé aussi stark comme il l’a fait il y a quelques mois avec le lancement de la vision Nocturne. Le nouveau Pixel en fonction des points de suture longues expositions ensemble et utilise un algorithme d’apprentissage automatique pour calculer plus précis de la balance des blancs et de couleurs, franchement avec des résultats étonnants. La fonction fonctionne de façon optimale sur le Pixel 3, parce que les algorithmes ont été conçus avec la plus récente du matériel à l’esprit, mais Google a mis à la disposition de tous les Pixels téléphones — même l’original, qui n’a pas de stabilisation d’image optique — et c’est une superbe publicité pour la façon dont le logiciel est maintenant plus important que l’appareil quand il s’agit de la photographie mobile.

Cela dit, il y a encore de la place pour le matériel pour faire une différence, en particulier quand il est soutenu par l’IA. L’honneur de la nouvelle Vue 20 téléphone, le long avec la société mère de Huawei Nova 4, sont les premiers à utiliser le Sony IMX586 capteur d’image. C’est un capteur plus grand que la plupart des concurrents et, à 48 millions de pixels, représente la plus haute résolution jamais vu sur un téléphone. Mais que signifie encore entasser beaucoup de pixels minuscules dans un petit espace, ce qui tend à être problématique pour la qualité de l’image. De mon point de Vue 20 cependant, les tests de l’Honneur “de l’IA Ultra Clarté” mode excelle à rendre le plus de la résolution, le décryptage du capteur inhabituelle filtre de couleur pour débloquer des détails supplémentaires. Il en résulte d’énormes photos que vous pouvez zoomer sur pour jours.

Processeur de signal d’images ont été importants pour téléphone performances de l’appareil photo pendant un certain temps, mais il semble probable que NPUs va prendre une place plus importante calcul de la photographie progrès. Huawei a été la première entreprise à annoncer un système-sur-puce dédiée AI le matériel, le Kirin 970, bien que Apple A11 Bionic fini par atteindre les consommateurs. Qualcomm, le plus grand fournisseur de Android processeurs dans le monde entier, n’a pas fait l’apprentissage de la machine d’un axe majeur, mais Google a développé sa propre puce appelée le Pixel Visuel de Base pour aider avec l’IA liées à l’imagerie des tâches. Les dernières Apple A12 Bionique, quant à lui, a un huit-core de neurones moteurs qui peuvent exécuter des tâches en Core ML, Apple cadre de l’apprentissage de la machine, jusqu’à neuf fois plus rapide que l’A11, et pour la première fois, c’est directement lié à l’image du processeur. Apple affirme que cela donne à l’appareil une meilleure compréhension de la focale, par exemple, aider à générer plus réaliste de la profondeur de champ.

La caméra est un élément essentiel de n’importe quel téléphone, et l’IA est de notre mieux pour l’améliorer

Ce type de matériel sera de plus en plus important pour l’efficacité et la performance de l’appareil d’apprentissage de la machine, qui a un très haut plafond en termes de ses exigences sur le processeur. Rappelez-vous, la nature des algorithmes de pouvoir Google Photos ont été formés sur d’énormes, de puissants ordinateurs avec un Gpu et du tenseur de cœurs avant d’être mis en vrac dans votre bibliothèque de photos. Beaucoup de ce travail peut être fait “à l’avance” pour ainsi dire, mais la capacité de la machine de l’apprentissage des calculs sur un appareil mobile, en temps réel, demeure à la fine pointe.

Google a montré un travail impressionnant qui pourrait réduire la charge de traitement, tandis que les neurones moteurs sont de plus en plus rapides de l’année. Mais même à ce stade précoce de calcul de la photographie, il y a de réels avantages à être trouvé à partir de caméras de téléphone qui ont été conçus autour de l’apprentissage de la machine. En fait, de toutes les possibilités et les applications soulevées par l’IA hype vague des dernières années, la région avec l’utilisation la plus pratique aujourd’hui est sans doute la photographie. La caméra est un élément essentiel de n’importe quel téléphone, et l’IA est de notre mieux pour l’améliorer.