L’intelligence artificielle au service du langage

Le
Laboratoire HCTI
CouvActu

C’est au cours de son master en mathématiques appliquées, que Liana Ermakova a misé sur la pluridisciplinarité et a suivi une formation en linguistique. Sa thèse sur la recherche d’information et la construction de résumé automatique, lui permet de mêler intelligence artificielle et science du langage. C’est ainsi qu’elle rejoint le laboratoire « Héritage et Construction dans le Texte et l’Image » (HCTI) en 2017 en tant que maître de conférence en informatique. Depuis elle a initié et coordonne deux projets de recherche sur ces thématiques.

Bientôt la fin du métier de traducteur ?

Pas dans l'immédiat ! Que ce soit dans le domaine de la traduction instantanée ou dans le sous-titrage, la traduction automatique est aujourd’hui de plus en plus utile. Ces traducteurs automatiques fonctionnent grâce à l’intelligence artificielle. L’intelligence artificielle (IA) s’apparente à un réseau de neurones artificiels, qui fonctionne comme une métaphore des neurones biologiques, c’est-à-dire qu’ils sont activés lors de l’entrée d’une information et produisent la requête demandée à la sortie.

Le projet JOKER, porté par Liana Ermakova, s’intéresse particulièrement à la traduction automatique de jeu de mots. Pour y arriver, il est nécessaire de comprendre quels jeux de mots sont traduisibles par l’IA et comment ils vont pouvoir le faire. Malgré tout le progrès, la traduction automatique réussie que de 13% de jeux de mots, plus précisément des calembours.  Ces 13% correspondent soit à la coïncidence linguistique quand le mot ambigu conserve les deux sens dans les deux langues, soit à l’utilisation chanceuse des anglicismes. Il faut donc entraîner le modèle pour qu’il apprenne un maximum de jeu de mots, au sens large : le projet s’intéresse aussi bien aux calembours qu’aux noms de Pokémon.

Pour les mots-valises tels que les noms de Pokémons, les traductions réussies par l’intelligence artificielle sont rares quand les noms ne sont pas connus en avance. La première étape est donc de réaliser un corpus comprenant des textes dans les deux langues ciblées. Ce corpus doit être homogène, c’est-à-dire comprendre des textes de même longueur et avec des phrases similaires. Bien construire ce corpus est essentiel puisqu’il va conditionner la suite de l’expérience. L’IA fait correspondre les extraits de textes dans les deux langues et détermine les ressemblances et les différences pour proposer une traduction. Cependant, on ne sait pas ce que l’IA apprend, donc bien définir les points d’entrées de l’algorithme, via le corpus de texte, est essentielle pour comprendre ceux qui influencent la sortie, soit la traduction finale.

Exemple

Exemple de traduction proposée lors du concours : l'une par un participant et l'autre par le traducteur automatique.

La deuxième étape consiste à évaluer le traitement informatique, c’est-à-dire définir quelles traductions sont réussies et à quel degré. Cette phase de vérification est nécessaire pour corriger les algorithmes et ainsi avoir de meilleurs résultats. Cependant, il est difficile de définir une bonne traduction, pour les linguistes comme pour les traducteurs. Elles sont associées à des références culturelles, mais aussi à la créativité, les caractéristiques syntaxiques et lexicographiques des langues comme des traducteurs.
Un concours de jeu a été organisé par l’équipe du projet Joker pour collecter des données, utilisées ensuite pour alimenter le corpus. Environ 3000 jeux de mots et plus de 7000 traductions ont été proposés et ont permis de déceler des différences entre l’IA et les traducteurs, mais aussi entre les traducteurs eux-mêmes.

À terme, le projet Joker permettra de rendre les traducteurs automatiques plus efficaces dans la détection de jeux de mots et plus rapide dans leur traduction. Ces nouvelles fonctionnalités pourront par exemple s’appliquer au sous-titrage en direct.

Le projet JOKER bénéficie de 2 financement de l’alliance européenne SEA EU et 1 de la Maison des Sciences de l'Homme en Bretagne (MSHB).

Traduire les publications scientifiques pour les rendre lisible par tous

La thèse de Liana Ermakova, soutenue en 2016 à l’université de Toulouse, portait sur la recherche d’information et la construction de résumé automatique. Ce sont ces concepts qu’elle cherche à développer dans le deuxième projet de recherche qu’elle porte à l’UBO. Ainsi, le projet SimpleText s’intéresse à la simplification automatique de textes scientifiques. L’automatisation se fait en plusieurs étapes, qui correspondent à plusieurs tâches attribuées aux modèles mathématiques, ou algorithmes.

Tout d’abord, l’IA va sélectionner les informations les plus pertinentes dans un corpus, puis il va plus spécifiquement sélectionner les phrases qui nécessite d’être simplifier. En effet, ce qui rend la lecture des textes scientifiques difficile, c’est souvent l’absence de contexte. L’algorithme va palier à ce manque en sélectionnant les termes difficiles et en allant chercher les définitions vulgarisées. Enfin, l’article scientifique est réécrit et résumé en prenant en compte les simplifications.

Le projet SimpleText est retenu dans la liste de l'appel à projets générique 2022 de l'ANR.

Détail des tâches effectuées par le modèle mathématique au moment du lancement d'une requête

Texte


Références de l'article : De Braekeleer, E., Douet-Guilbert, N., Rowe, D., Bown, N., Morel, F., Berthou, C., et al. (2011). Abl1 Fusion Genes in Hematological Malignancies: a Review. Eur. J. Haematol. 86, 361–371. doi:10.1111/j.1600-0609.2011.01586.x

Actuellement, les modèles existants fonctionnent très bien pour la simplification linguistique. Les corpus sont suffisamment nombreux pour entraîner au mieux les algorithmes. En revanche, les résumés automatiques ne sont pas encore suffisamment efficaces. Les modèles mathématiques ont des difficultés à analyser entièrement des textes de plus de 2500 mots, il y a souvent de la perte d’information. L’IA fait des progrès, mais il reste du chemin à faire pour qu’elle soit capable de simplifier et de résumer en une seule requête le dernier rapport du GIEC !

Pour en savoir plus :