Nvidia présente un modèle d'IA qui transforme quelques dizaines d'instantanés en une scène en 3D

0
226

La dernière démo d'IA de Nvidia est assez impressionnante : un outil qui transforme rapidement “quelques douzaines” d'instantanés 2D en une scène rendue en 3D. Dans la vidéo ci-dessous, vous pouvez voir la méthode en action, avec un modèle habillé comme Andy Warhol tenant un appareil photo Polaroid à l'ancienne. (Ne pensez pas trop à la connexion Warhol : c'est juste un peu d'habillage de la scène des relations publiques.)

L'outil s'appelle Instant NeRF, faisant référence aux “champs de rayonnement neuronal” – une technique développée par des chercheurs de l'UC Berkeley, de Google Research et de l'UC San Diego en 2020. Si vous voulez un explicatif détaillé des champs de rayonnement neuronal, vous pouvez en lire un ici , mais en bref, la méthode cartographie la couleur et l'intensité lumineuse de différents plans 2D, puis génère des données pour connecter ces images à partir de différents points de vue et restituer une scène 3D finie. En plus des images, le système a besoin de données sur la position de la caméra.

Les chercheurs améliorent ce type de modèle 2D à 3D depuis quelques années maintenant, en ajoutant plus de détails aux rendus finis et en augmentant la vitesse de rendu. Nvidia affirme que son nouveau modèle Instant NeRF est l'un des plus rapides jamais développés et réduit le temps de rendu de quelques minutes à un processus qui se termine “presque instantanément”.

Au fur et à mesure que la technique devient plus rapide et plus facile à mettre en œuvre, elle pourrait être utilisée pour toutes sortes de tâches, explique Nvidia dans un article de blog décrivant le travail.

“Instant NeRF pourrait être utilisé pour créer des avatars ou des scènes pour des mondes virtuels, pour capturer les participants à une vidéoconférence et leurs environnements en 3D, ou pour reconstruire des scènes pour des cartes numériques 3D”, écrit Nvidia. Icha Salian. « La technologie pourrait être utilisée pour entraîner des robots et des voitures autonomes à comprendre la taille et la forme d'objets du monde réel en capturant des images 2D ou des séquences vidéo. Il pourrait également être utilisé dans l'architecture et le divertissement pour générer rapidement des représentations numériques d'environnements réels que les créateurs peuvent modifier et développer. (On dirait que le métaverse appelle.)

Malheureusement, Nvidia n'a pas partagé de détails sur sa méthode, nous ne savons donc pas exactement combien d'images 2D sont nécessaires ni combien de temps cela prend pour rendre la scène 3D finie (ce qui dépendrait également de la puissance de l'ordinateur effectuant le rendu). Pourtant, il semble que la technologie progresse rapidement et pourrait commencer à avoir un impact réel dans les années à venir.