Menu

CCI Paris Ile de France

La parole aux experts

Publié le 28 août 2019

L’Intelligence Artificielle au service de l’évaluation des tests de français, un an après

En octobre 2018, Le français des affaires communiquait sur son ambition à tirer parti des développements de l’intelligence artificielle pour renforcer certaines tâches dans le domaine de l’évaluation en langue. Moins d’un an après nous faisons le point avec Dominique Casanova, Responsable du développement scientifique au Français des affaires.

Alors, ce projet d’utilisation de l’IA ?

Nous avançons… D’un côté, nous regardons ce que nous sommes en mesure de réaliser à notre niveau, de l’autre nous essayons de mettre en place des partenariats, notamment avec le monde universitaire, pour des approfondissements.

Nous avons proposé cette année deux stages d’été sur la problématique de la prédiction de résultats en expression écrite à partir d’une analyse automatique des contenus produits par des candidats.

Il s’agit des stages de Benjamin Larvaron et Cynthia Gilles ?

En effet, depuis 4 ans nous proposons des stages d’été aux étudiants de deuxième année de l’ENSAI (École Nationale de la Statistique et de l’Analyse de l’Information). Jusqu’à présent il s’agissait principalement de tester et de comparer différents types de modélisation psychométrique dans le cadre du suivi qualité du Test d’évaluation de français (TEF).

Cette année nous avons souhaité explorer avec eux l’usage de techniques de traitement automatique des textes (Natural Language Processing) et d’apprentissage automatisé (Machine Learning) à des fins de prédiction des résultats des évaluations par des jurys humains.

Comment fait-on cela ?

Il y a plusieurs approches. Ces temps-ci l’apprentissage profond au moyen de réseaux de neurones (Deep Learning) a le vent en poupe, mais sa mise en œuvre requiert des moyens dont nous ne disposons pas encore. C’est typiquement le type d’approche que nous souhaiterions explorer avec des partenaires expérimentés dans leur utilisation. Pour les stages, nous avons mis en œuvre des modélisations plus classiques.

IA évaluation des tests de français

Cynthia a proposé des « modèles de langue » pour différents niveaux du Cadre européen de référence à partir d’un ensemble de productions écrites du TEF, en s’appuyant sur les fréquences d’apparition des différents mots et de leur contexte dans les textes produits. Il s’agit ensuite, pour tout nouveau texte, d’identifier au moyen de probabilités le modèle de langue dont il se rapproche le plus. C’est une approche globale relativement simple sur le plan conceptuel dont les résultats sont tout à fait honorables.

L’approche proposée à Benjamin était plus analytique. Il s’agissait d’identifier, à partir des textes déjà produits, des caractéristiques pertinentes aux niveaux lexical, syntaxique et sémantique pouvant faire l’objet d’une quantification (la plus évidente étant le nombre de mots produits), puis d’appliquer un modèle statistique permettant de prédire au mieux les résultats délivrés à ces productions par les jurys d’évaluateurs au moyen de ces indices. Ainsi, pour toute nouvelle copie, on calcule les valeurs de ces indices et le modèle retourne une prédiction du score délivré.

Ces deux approches peuvent fonctionner de façon complémentaire, les probabilités d’appartenance d’une copie à chacun des modèles de langue pouvant être utilisées comme des indices caractéristiques en entrée de la seconde modélisation. Les résultats ainsi obtenus sont très prometteurs et il nous reste à les valider sur des échantillons plus importants.

Quelles perspectives cela ouvre-t-il ?

Toujours plus de fiabilité dans les résultats délivrés ! Il s’agit d’un garde-fou utile qui permettra d’identifier des copies potentiellement problématiques ou des erreurs d’appréciation. Cela permettra également de fournir en continu aux évaluateurs un retour d’information sur la qualité de leurs évaluations.

 

Donnons maintenant la parole aux stagiaires.
Comment avez-vous vécu cette expérience au Français des affaires ?

Benjamin Larvaron : « Je tiens tout d’abord à remercier Dominique mais aussi l’ensemble de l’équipe du Français des affaires pour leur soutien pendant le stage, mais aussi leur accueil et leur bonne humeur. Ce stage de 2 mois m’a beaucoup apporté, en me permettant de réaliser, dans un cadre professionnel, un projet statistique quasiment de A à Z.

Le traitement des données a nécessité un travail important, notamment pour normaliser les expressions écrites des candidats, c’est-à-dire essayer de retrouver la version bien orthographiée de chaque mot mal écrit. Il m’a ensuite fallu en quelque sorte me plonger dans la peau d’un évaluateur, en essayant de comprendre quels indicateurs pouvaient être importants pour déterminer le niveau d’un candidat.

Enfin, j’ai comparé différents modèles pour obtenir les meilleures performances possibles. Pour cela, il a fallu notamment réfléchir à comment mesurer la performance du modèle et clarifier son utilisation : s’agit-il juste d’être le plus près de la note finale du jury, de détecter les grands écarts, d’identifier des notations surprenantes ? »

Cynthia Gilles : « Cette expérience au Français des affaires a été pour moi une première expérience dans le domaine des statistiques et du Machine Learning en entreprise. Ce stage m’a permis de mettre en pratique la théorie apprise à l’ENSAI sur un sujet concret. La correction automatique est un enjeu majeur : elle délivre un nouvel avis sur le niveau qui devrait être attribué à une production, ce qui permet de s’assurer de la pertinence des classements effectués par les jurys de évaluateurs.

La première étape pour travailler sur le sujet est de comprendre comment sont évaluées ces copies et donc quels sont les aspects importants relevés par les évaluateurs. Il faut ensuite trouver comment retranscrire ces points au moyen d’un programme informatique. Le problème principal auquel nous avons été confrontés était de permettre à l’ordinateur de reconnaître les erreurs d’orthographes et de les corriger pour que les mots puissent ensuite être reconnus par des outils du traitement automatique des langues. Nous avons donc mis en œuvre un système de normalisation du texte à l’aide de différents outils.

Cette étape peut encore être améliorée pour augmenter les performances des modèles. J’ai ensuite mis en place un modèle utilisant la typologie des mots et leur occurrence dans les différents niveaux de langues. À terme, ce modèle pourra être amélioré avec un plus grand corpus de référence et en utilisant les mots eux-mêmes et non leur simple typologie. »