Aller au-delà de la transcription dans l’intelligence artificielle vocale, vers une véritable compréhension des conversations, c’est l’ambition de PyannoteAI. Pour faire un pas dans ce sens, la startup française annonce une première levée de fonds en amorçage de 9 millions de dollars menée par Crane Venture Partners et Serena. Des business angels, à l’image de Julien Chaumond, CTO de Hugging Face, et Alexis Conneau, un ancien de Meta et OpenAI, ont également participé à l’opération.
Fondée il y a un an par Hervé Bredin et Vincent Molina, la société s’est fixée pour mission de concevoir une plateforme d’intelligence artificielle vocale capable de distinguer les locuteurs dans une conversation pour aboutir à une compréhension contextuelle optimale de la voix (qui parle, la manière de parler du locuteur, l’importance des propos…). En effet, l’IA vocale ne vaut pas grand chose sans reconnaissance fiable des locuteurs, surtout dans des domaines où chaque mot a son importance comme la santé, les médias ou le service client.
«Les technologies vocales ont beaucoup progressé, mais elles peinent encore à capter toute la richesse de la voix. Une voix, c’est bien plus que des mots. Dans ce cadre, notre technologie permet d’identifier les locuteurs dans des conversations réelles, y compris dans des environnements critiques où chaque voix compte», explique Hervé Bredin, co-fondateur de PyannoteAI et ancien chercheur au CNRS. «Comme le dit l’adage : ce n’est pas ce que vous dites, mais comment vous le dites — et dans le monde de l’IA vocale, cette nuance n’a jamais été aussi cruciale», estime de son côté Morgane Zerath, investisseuse chez Crane Venture Partners.
«La voix, c’est la nouvelle frontière de l’IA»
Avec son approche pour contribuer à l’essor de l’IA vocale, la jeune pousse tricolore veut se positionner comme un acteur incontournable du marché à l’échelle mondiale. Dans un premier temps, elle a créé une bibliothèque open source d’outils sur Hugging Face pour épauler les équipes de développement qui doivent traiter d’immenses volumes de données vocales. A ce jour, l’entreprise assure que plus de 100 000 développeurs ont utilisé celle-ci et elle revendique 45 millions de téléchargements par mois sur Hugging Face. Par exemple, Kyutai, le laboratoire initié par Xavier Niel, s’est notamment appuyé sur PyannoteAI pour entraîner Moshi, son intelligence artificielle multimodale et générative vocale.
Aux yeux de Vincent Molina, co-fondateur et CEO de PyannoteAI, l’engouement pour la technologie de diarisation vocale développée par son entreprise témoigne des nouvelles perspectives qui s’ouvrent dans la compréhension des conversations, dans toutes les langues, avec l’intelligence artificielle. «La voix, c’est la nouvelle frontière de l’IA», estime l’entrepreneur. Avant d’ajouter : «La voix est le moyen d’interaction le plus naturel, qui génère la data la plus riche. Mais il y a des verrous à faire sauter, comme la latence. Mais le plus difficile, c’est le chaos des conversations humaines. En tout cas, c’est un moment très passionnant pour l’humanité.»
Mettre les solutions dans les mains des entreprises
Après une première année prometteuse en collaborant avec des développeurs du monde entier, PyannoteAI, startup hébergée par la «Maison Motier», nouvelle adresse phare de l’IA à Paris lancée par le fonds Motier Ventures, veut maintenant mettre ses solutions dans les mains des entreprises. «Nous développons une plateforme d’IA pensée pour toutes les entreprises qui traitent des conversations audio ou vidéo, quelle que soit la langue. Notre ambition est de rendre la compréhension des locuteurs aussi fluide et universelle que la parole elle-même», indique Vincent Molina.
Dans cette optique, la startup prévoit d’accélérer son développement aux États-Unis et en Europe. En proposant sa technologie aux entreprises des deux côtés de l’Atlantique, PyannoteAI va pouvoir monter en puissance au niveau de sa force de frappe commerciale mondiale. «Leur passage du monde open source à celui de l’IA d’entreprise marque un tournant décisif dans le paysage de l’IA vocale», veut ainsi croire Matthieu Lavergne, associé chez Serena. En tout cas, le tandem d’entrepreneurs et leurs investisseurs sont convaincus que la révolution de l’IA vocale n’en est qu’à ses balbutiements. Quand l’IA vocale sera aussi intelligente que la conversation humaine, c’est un véritable changement de paradigme qui risque de s’opérer pour l’humanité.