Apple a présenté une nouvelle méthode d’entraînement pour les robots humanoïdes appelée « PH2D » (Physical Human-Humanoid Data), qui combine des démonstrations réalisées à la fois par des instructeurs humains et des robots. Publiée peu après la révélation de ses modèles d’IA Matrix3D et StreamBridge, cette recherche décrit la façon dont cette approche hybride permet de surmonter les limites des méthodes d’entraînement traditionnelles, souvent coûteuses et exigeantes en main-d’œuvre car reposant sur des données collectées par téléopération. En utilisant des démonstrations humaines via des appareils grand public modifiés — comme un Apple Vision Pro personnalisé et un casque Meta Quest équipé de caméras stéréo — Apple a conçu un système évolutif et économique pour collecter des données d’entraînement. Ces outils ont permis d’enregistrer avec précision les mouvements des mains et les interactions avec des objets, des données ensuite utilisées pour entraîner les robots à accomplir des tâches telles que la préhension ou le versement de liquides.

Vision Pro Robot

Au cœur de cette méthode se trouve le « Human-Humanoid Action Transformer » (HAT) d’Apple, un modèle capable d’interpréter des données provenant aussi bien d’humains que de robots. Selon l’étude, cette stratégie de formation combinée améliore la capacité de généralisation et les performances des robots, notamment pour des tâches spécifiques comme la saisie verticale d’objets, par rapport à un entraînement uniquement basé sur des données robotiques. Bien que le seul prototype robotique connu d’Apple à ce jour soit une lampe robotisée, cette recherche laisse entrevoir une ambition bien plus large — celle de développer des robots mobiles destinés au grand public, capables d’effectuer des tâches simples.