Reconnaissance automatique de la parole – Automatic Speech Recognition (ASR)

  • Qu'est ce que la reconnaissance automatique de la parole ?

Artificial intelligence concept

La reconnaissance automatique de la parole ou Automatic Speech Recognition (ASR) est une technologie permettant de retranscrire à l’écrit les propos tenus à l’oral.

Ubiqus utilise un domaine précis de l’ASR qui est le LVCSR (Large Vocabulary Continuous Speech Recognition) : basée sur l’identification automatique de très courtes séquences audio, cette technologie permet de produire une transcription d’excellente qualité, sous réserve d’un audio enregistré de façon correcte. L’état de l’art de l’ASR a grandement évolué ces dernières années… et notre équipe R&D contribue à sa progression de façon permanente.

Notre méthode nous permet de traiter des enregistrements contenant du vocabulaire généraliste, mais également des termes plus spécifiques (technique, juridique, médical, etc.).

Pour arriver au transcript final, le processus comprend 4 étapes :

Process ASR

Pour commencer, il s’agit d’identifier à quels moments de l’enregistrement quelqu’un parle, afin de découper la bande-son en segments. La machine va ensuite travailler sur chacun de ces segments.

Il faut ensuite identifier les différents locuteurs qui s’expriment sur chaque segment, afin de rapprocher les segments d’un même orateur, et pouvoir attribuer correctement les prises de parole dans la transcription. Pour cela, la machine utilise différents moteurs, qui ont chacun été alimentés par des données spécifiques (langues, voix). Elle peut ainsi prendre en compte des subtilités de langage telles que les accents par exemple. Notez qu’à ce stade, nous restons dans un traitement « mathématique » des données.

Ce n’est qu’à ce moment que la notion de transcription fait son apparition. Une liste de syllabes (phonèmes) possibles est établie pour chaque segment audio. Pour l’instant, aucune phrase n’est écrite : il n’y a qu’une longue liste de possibilités, chacune ayant un score.

L’ordinateur choisit, parmi tous les phonèmes et mots appris lors de son entrainement initial, ceux qui forment la phrase la plus probable (un peu comme un GPS identifie le meilleur trajet) . C’est cette phrase qu’il retranscrit dans son document.

Cette mécanique est appliquée sur l’ensemble des segments de l’enregistrement pour produire, in fine, la transcription complète.

À la fin de ce processus automatisé, le document peut être relu par nos équipes, comme pour un document Ubiqus classique : en plus de la vérification du contenu en tant que tel, le relecteur s’assure également de la bonne affectation des propos et de la mise en forme.

Vous disposez d'un enregistrement dont vous souhaitez rapidement récupérer la transcription ?

> Confiez-le nous et recevez rapidement votre transcription

  • L'alliance de la technologie et du savoir-faire humain chez Ubiqus

Vous êtes habitué à la qualité des documents Ubiqus et l’idée de tester la transcription automatique vous tente ? Lancez-vous !

Le niveau de qualité standard en transcription automatique reste aussi élevé qu’en transcription classique. En effet, une fois la transcription automatique réalisée, une relecture « humaine » est effectuée… comme pour une transcription classique !

 Je veux tester l’ASR