Apple tient à faire savoir qu’il fait de gros efforts pour améliorer Siri. Le californien vient de publier une note qui explique dans le détail comment fonctionne son assistant vocal; on apprend ainsi que lors dès le début d’une commande « Hey Siri« , les microphones de l’Apple Watch ou de l’iPhone transforment instantanément la voix humaine en un stream de samples d’ondes sonores (à la vitesse de 16000 vagues sonores par seconde). Cette onde sonore est transcrite en spectres sonores d’une durée de 0,01 secondes; 20% de cette séquence (soit 0,2 secondes sur une seconde d’enregistrement) sont dédiés à un modèle acoustique construit à l’aide d’un Deep Neural Network (DNN) (réseau de neurones profond).

Derrière la commande « Hey Siri », un enchevêtrement complexe de Machine Learning, de capteurs, d’algorithmes de traitement, et même une base de données de phonèmes pour bien distinguer les différences d’accent d’une même langue

Cette complexité de traitement poursuit un double objectif : bien reconnaître la voix de l’utilisateur et du même coup assurer la sécurité des communications; seule la voix de l’utilisateur de l’iPhone peut en effet « appeler » Siri. Autre avantage, les algorithmes complexes de Siri permettent aussi la reconnaissance vocale dans des conditions difficiles de réception du signal, un point fort de Siri qui s’est déjà illustré dans nombre de faits divers récents. Du reste, la commande « Hey Siri » est traitée par l’un des co-processeurs de l’iPhone de manière à ne pas impacter trop durement l’autonomie de l’iPhone. Des capteurs détectent même le moment précis où l’iPhone est tenu en main, « autorisant » ainsi le microphone de l’iPhone à capter le signal vocal. Hey Siri : une commande vocale simple…à traitement complexe .