Comment fonctionne SAM 3D, le nouveau modèle Meta AI qui transforme les images 2D en modèles 3D

Ces derniers jours Moitié il a annoncé SAM3D (Segmenter n’importe quel modèle), un logiciel qui permet d’extrapoler des modèles tridimensionnels complexes et spatialement cohérents à partir de simples photographies bidimensionnelles. Le cœur de cette nouvelle architecture technologique réside dans deux modèles distincts mais complémentaires : SAM Objets 3D Et Corps SAM 3D. Le premier est spécialement conçu pour le reconstruction d’objets inanimés et de scènes entièresrésolvant des problèmes courants tels que les occlusions ou les perspectives partielles, tandis que le second se spécialise dansanalyse de la figure humaineestimant la pose et la forme du corps avec une précision inédite. Contrairement aux tentatives précédentes dans le domaine, qui reposaient principalement sur des données synthétiques et isolées, ce système vise une compréhension « de bon sens » du monde physique réel, rendant accessibles à la communauté scientifique des ressources fondamentales telles que des codes d’inférence et de nouveaux critères d’évaluation. D’après Meta tout ça «a le potentiel d’être utilisé pour des applications créatives dans des domaines tels que la robotique, les médias interactifs, la science et la médecine du sport».

Comment fonctionnent les SAM 3D Objets et corps SAM 3D

En approfondissant le exploitation technique des objets SAM 3Dnous constatons un changement de paradigme fondamental par rapport aux approches traditionnelles. Historiquement, les modèles de reconstruction 3D ont été limités par la rareté des données d’entraînement : alors qu’il existe d’immenses bases de données pour le texte et les images, la disponibilité de la « vérité terrain » dans le domaine du développement 3D est bien inférieure. Pour surmonter cet obstacle, au lieu de s’appuyer uniquement sur des actifs synthétiques générés par ordinateur (qui ne reflètent souvent pas la complexité du monde réel), un moteur de données innovant a été développé.

Ce système utilise un cercle vertueux dans lequel les annotateurs humains n’ont pas besoin de créer des modèles à partir de zéro, ce qui est lent et coûteux, mais simplement de vérifier et de classer les maillages générés par l’IA. Expliquons brièvement ce que nous entendons par « maillage » : c’est le réseau de polygones qui définit la structure géométrique d’un objet 3D. Grâce à cette méthode, qui combine génération automatique et supervision humaine, il a été possible d’annoter près d’un million d’images réelles, créant ainsi un ensemble de données d’entraînement massif qui permet au logiciel de gérer bien mieux que ses prédécesseurs les petits objets, les vues indirectes et les arrière-plans complexes.

Déplacer notre attention vers Corps SAM 3Dnotons qu’il s’agit d’une solution conçue pour répondre au besoin d’estimer la forme humaine même dans des conditions difficiles, telles que des postures inhabituelles ou des scènes de foule. La particularité de ce modèle réside dans l’utilisation du format MHR (Plate-forme humaine Meta Momentum), un nouveau format qui sépare structurellement le squelette de la forme des tissus mous, assurant un rendu anatomique plus fidèle à la réalité.

La formation était basée sur un ensemble de données d’environ 8 millions d’images de haute qualité et, selon Meta, «le modèle est formé à l’aide d’un guidage basé sur des invites et d’un raffinement en plusieurs étapes, permettant une interaction flexible avec l’utilisateur et améliorant l’alignement 2D avec des preuves visuelles dans l’image».

L’ensemble de données a également été introduit SA-3DAO (Objets d’artiste SAM 3D), qui propose une série de benchmarks bien plus exigeants que les standards actuels, poussant la recherche vers une perception 3D plus réaliste et moins artificielle.

Limites actuelles

Aussi significatifs que soient les progrès réalisés par Meta en 3D, certaines limites demeurent. Lorsqu’il s’agit de reconstruction d’objets, la résolution de sortie reste modérée, ce qui signifie que les détails des structures plus complexes peuvent être perdus ou apparaître déformés. De plus, SAM 3D Objects traite les éléments individuellement et n’est pas encore capable de raisonner sur les interactions physiques, telles que le contact ou l’interpénétration entre plusieurs objets. Même en matière de reconstruction corporelle, il y a place à l’amélioration : le modèle traite chaque individu séparément, ignorant les interactions entre les personnes ou entre les humains et l’environnement, et la précision dans l’estimation de la pose des mains, bien qu’améliorée, n’atteint pas encore les niveaux des systèmes spécialisés exclusivement sur cette partie anatomique.