Ubiqus publie un nouveau corpus, le moteur de l’ #IA

L’Intelligence Artificielle a besoin de beaucoup de données qualifiées pour « apprendre »

Devenu un « buzzword » ces derniers mois, l’intelligence artificielle (IA) est souvent présentée comme un sorte de matière grise qui apprend toute seule. C’est vrai jusqu’à un certain point.
L’IA est, en effet, basée sur des modèles d’apprentissage. Mais un des éléments clés de son bon développement est la quantité et la qualité des données utilisées pour faire tourner ces modèles.
Ainsi, l’intelligence artificielle apprendra mieux si elle dispose de données de qualité et en quantité suffisante.
Les données nécessaires à l’IA pour « apprendre » sont appelées corpora (ou corpus, au singulier).

Ubiqus, acteur de la R&D en transcription automatique

Le Groupe Ubiqus est un pionnier dans le domaine de la transcription. En tant que tel, il s’est investi depuis de nombreuses années dans le suivi et l’amélioration de nouvelles solutions de transcription. Acteur majeur de ce marché en France et dans le monde, Ubiqus s’est associé à la communauté scientifique qui travaille sur la transcription automatique, appelée ASR en anglais (Automatic Speech recognition).

Un nouveau corpus de référence pour la communauté scientifique

Et Ubiqus a apporté il y a quelques jours une nouvelle pierre à l’édifice collectif ! L’équipe d’Ubiqus a publié un nouveau jeu de données en anglais en collaboration avec le LIUM (Laboratoire d’informatique de l’Université du Mans) simplement nommé TED-LIUM3.
Comme son nom l’indique, il s’agit d’un corpus de transcriptions des conférences TED. Ce sont des conférences publiques en anglais sur des domaines variées pour des « idées qui valent la peine d’être partagées » [ideas worth sharing – pour en savoir plus sur TED, lisez cet article de Wikipedia ou rendez-vous directement sur le site TED ].
Le travail de l’équipe de chercheurs du Groupe Ubiqus, associés à ceux de l’université, a permis d’améliorer significativement le TED-LIUM2. Il était devenu une référence en matière de données permettant d’entraîner des systèmes ASR tels que sur le toolkit Kaldi.
Concrètement, les chercheurs ont fait passer le volume de données de 207 à 452 heures de conférences TED retranscrites et alignées (l’alignement consiste à mettre en regard la retranscription avec l’audio).
Ils en ont profité pour démontrer que l’instillation de plus de données qualifiées dans différents modèles de transcription automatiques permettait d’améliorer sensiblement la qualité de la retranscription en diminuant le taux d’erreur (le WER, Word Error Rate).

Gageons qu’avec de tels résultats (publiés il y a quelques jours dans cet article scientifique) et ce nouveau corpus, la communauté de chercheurs continuera ses avancées dans la définition et l’entrainement de modèles acoustiques en anglais et permettra encore d’améliorer le résultat de la transcription automatique.

Article source publié sur le blog www.ubiqus.io 

0 J'aime
792 Vues

Vous aimerez aussi

Réagissez !

Merci d'indiquer votre nom. Merci de saisir une adresse email valide. Please enter message.