Menu

CCI Paris Ile de France

La parole aux experts

Publié le 25 juin 2018

Quels modèles de mesure pour l’évaluation par tâches ?

Nous vous proposons de partager avec vous notre expertise sur l’évaluation avec cette série de publications scientifiques. Découvrez ci-dessous un article sur les modèles de mesure pour l’évaluation par tâches, le cas des épreuves de compréhension et traitement de l’information du DFP Affaires B1.

Le Diplôme de français professionnel Affaires vise à certifier le niveau de compétence en français des personnes qui travaillent (ou seront appelés à travailler) dans un contexte professionnel francophone (ou non) en référence à un niveau donné du CECR.

Quel que soit le niveau du Diplôme, les deux compétences ci-dessous sont évaluées :

  • – Comprendre et traiter de l’information
  • – Interagir à l’oral

Comprendre et traiter de l’information

La compétence Comprendre et traiter de l’information est évaluée à travers des tâches menées au moyen d’activités à correction automatique. Ces activités s’appuient sur un ou plusieurs documents supports (graphiques et/ou écrits et/ou oraux) à partir desquels les candidats doivent compléter en plusieurs endroits un document de réponse (formulaire, tableau, commentaire, courriel…).

Les candidats fournissent donc un ensemble de « réponses » dans le cadre d’une même tâche, sur la base d’un même ensemble de documents.

Le tableau ci-dessous présente les activités de la compétence «Comprendre et traiter de l’information» proposées pour le diplôme de niveau B1.

Habiletés

Activités

Modalités de réponse

NB réponses attendues

Traiter l’information écrite

1 : Commenter un graphique

Choix dans listes

5

2 : Apporter une réponse adaptée dans une situation problématique

Glisser-déposer

10

3 : Réserver un espace d’exposition sur un salon, en tenant compte des instructions données

Choix dans listes

10

4 : Compléter une fiche récapitulative de projet, établir des conclusions opérationnelles à partir des informations données

Glisser-déposer

12

Traiter l’information orale

5 : Organiser ses notes

Glisser-déposer

5

6 : Transmettre la teneur du message d’un client et des instructions à un collègue

Choix dans listes

8

7 : Rédiger un courriel de réponse à la demande, en tenant compte d’informations complémentaires

Rédaction libre

1

Interagir à l’écrit

8 : Rédiger une lettre de candidature

Rédaction libre

1

Détecter les dépendances locales entre items

Cette évaluation par tâche, au moyen de réponses à un ensemble d’items se rapportant à une même situation, est susceptible d’introduire une dépendance entre les réponses aux items, alors qu’une des conditions d’application du modèle de réponse aux items généralement utilisé (modèle de Rasch*) est justement l’absence de dépendance locale.

Il convient donc de veiller à détecter les cas de dépendance locale entre items et, lorsque de telles dépendances existent, de se poser la question suivante : Quel modèle de mesure est-il le plus approprié pour rendre compte des propriétés psychométriques du test et constituer une banque calibrée d’activités réutilisables ?

Ainsi notre analyse des données du Diplôme de français professionnel Affaires B1 montre une dépendance locale entre plusieurs items pour l’activité 2, l’activité 3 et une dépendance forte entre items pour l’activité 5. Cela confirme qu’en faisant porter différents items sur un même (ensemble de) document(s) support(s), il y a un risque élevé d’introduire une dépendance entre items.

Si aucune précaution n’est prise, les qualités métriques rapportées risquent donc d’être surestimées et les informations empiriques, sur lesquelles s’appuie la prise de décision concernant l’établissement de points de césures, erronées.

Identifier un modèle de mesure plus approprié pour le traitement des données

Verhelst et Verstralen (2008) proposent une solution à ce problème en regroupant les items d’une même activité en un item polytomique (dont le score correspond au nombre de bonnes réponses données par le candidat aux différents items constituant l’activité) et en mettant en œuvre le modèle à crédits partiels (généralisation du modèle de Rasch*).

Cette modélisation permet notamment un meilleur ajustement des données au modèle. Sa mise en œuvre, sur les données du Diplôme de français professionnel Affaires B1, conduit à des indices de fidélité légèrement plus faibles (mais plus fiables). En menant une analyse classique sur les items qui tient du regroupement polytomique, on obtient également une estimation de la fidélité par consistance interne plus faible, ce qui conduit à une erreur de mesure liée à l’échantillonnage plus élevée. Ces différences sont appréciables et montrent l’importance de contrôler la présence d’une dépendance locale entre items pour reporter des indices statistiques pertinents.

Pour le Diplôme de français professionnel Affaires B1, la solution choisie consiste donc à regrouper les items interdépendants sous la forme de super-items et d’appliquer un  modèle de Rasch à crédits partiels sur ces données.

 

[*] Le modèle de Rasch est une méthode d’analyse de données statistiques qui s’inscrit dans la théorie de réponse à l’item. Elle est particulièrement employée en psychométrie pour mesurer des éléments tels que les capacités, les attitudes ou des traits de personnalité de personnes répondant à des questionnaires.

 


Retrouvez ici l’intégralité de la note de vulgarisation « Quels modèles de mesure pour l’évaluation par tâches ? ».

Elle fait suite à la communication « Quand le numérique défie la mesure. Comment veiller à la qualité de certifications en langue professionnelle au format numérique ? », publiée dans les actes du 30e colloque international de l’Association pour le Développement des Méthodologies d’Évaluation en Éducation, 10-12 janvier 2018 (ADMEE-Europe). [https://admee2018.sciencesconf.org/]