Publié le 19 juin 2019
L’utilisation de questionnaires à correction automatique et objective, comme les questionnaires à choix multiple, n’est pas toujours adaptée à l’évaluation de compétences, en particulier pour des compétences complexes qui consistent en la résolution de situations-problèmes où une variété (voire une infinité) de solutions est acceptable. C’est notamment le cas des compétences de communication langagière, en particulier pour la rédaction d’un texte structuré ou la gestion d’une interaction orale.
Dans de tels cas, il est habituel de recourir à des évaluateurs qui portent un jugement sur la performance du candidat, ce qui est susceptible d’introduire de la subjectivité dans l’évaluation et une erreur de mesure supplémentaire.
Cela a été très clairement mis en évidence dans les années 30 dans le cadre d’une recherche internationale pilotée par l’International Institute of Education du Teacher’s College de l’université Columbia (commission Carnegie). La section française de cette commission a mené des analyses à partir de copies notées lors du baccalauréat. Laugier et Weinberg* ont ainsi mis en évidence des écarts importants de notation de copies identiques par des correcteurs différents. Ils en ont déduit que pour obtenir une estimation stable du résultat d’un étudiant à une épreuve du baccalauréat (c’est-à-dire pour neutraliser quasi-intégralement l’effet évaluateur dans la correction), il fallait mobiliser 13 correcteurs en mathématiques, 16 en physique, 78 en français et 127 en philosophie**.
En France, la discipline de la Docimologie (du grec dokimé – épreuve et logos – science) a été fondée dans les années 20 par Henri Piéron et Henri Laugier. Elle s’intéresse à différents aspects des examens et notamment aux méthodes de correction des épreuves et au comportement des examinateurs et des examinés. Nous proposons dans la section Pour aller plus loin de cet article, deux références pour une plongée dans l’histoire de la docimologie (article de Jérôme Martin) et une illustration des principaux biais de notation qu’elle a mis en évidence (chapitre de Dieudonné Leclercq et ses collaborateurs).
Des études récentes concernant le baccalauréat français*** témoignent de la persistance de ce phénomène, ce qui interpelle étant donné l’enjeu autour de ce diplôme, qui permet d’accéder à des études supérieures. Ainsi la subjectivité des évaluations humaines semble inévitable, notamment dans les compétences langagières ou chaque évaluation relève d’une expérience individuelle d’interaction écrite ou orale avec un texte et, derrière le texte, avec une personne.
Une étude qualitative**** menée sur l’épreuve d’expression orale du First Certificate in English (diplôme de l’université de Cambridge) auprès d’évaluateurs expérimentés montre notamment qu’en dépit de critères d’évaluation identifiés, auxquels ils avaient été formés, les évaluateurs fondaient leurs jugements sur des aspects très disparates de la performance, et conclue qu’en temps normal il est impossible de dire sur quelles bases un score donné a été construit. Dès lors, les évaluations humaines doivent faire l’objet d’un suivi constant pour délivrer des résultats équitables et des stratégies appropriées doivent être établies pour parvenir à un niveau de stabilité des scores satisfaisant.
Nous présenterons, dans une série d’articles, trois niveaux possibles d’intervention pour la mise en œuvre de telles stratégies : la méthode d’évaluation, l’instrumentation des évaluateurs et la prise en considération de leurs caractéristiques les plus stables dans une stratégie de modération statistique.
~ Dominique Casanova
Pour aller plus loin : Leclercq, D., Nicaise, J. & Demeuse, M. (2004). Docimologie critique : des difficultés de noter des copies et d’attribuer des notes aux élèves. Dans M. Demeuse, Introduction aux théories et aux méthodes de la mesure en sciences psychologiques et en sciences de l’éducation, Liège : Les éditions de l’Université de Liège, pp. 273-292. Martin, J. (2002). Aux origines de la « science des examens » (1920-1940). Histoire de l’éducation, 94, 177-199. |
* Laugier, H. & Weinberg, D. (1938). Recherche sur la solidarité et l’interdépendance des aptitudes intellectuelles d’après les notes des examens écrits du baccalauréat. Paris : Chantenay.
** Tagliante, C. (2005). L’évaluation et le Cadre Européen Commun. Paris : Clé International.
*** Merle, P. (1996). L’évaluation des élèves. Enquête sur le jugement professoral. Paris : Presses Universitaires de France.
Suchaut, B. (2008). La loterie des notes au bac : un réexamen de l’arbitraire de la notation des élèves. Document de travail de l’IREDU 2008-03. Dijon, France. <halshs-00260958v1>
**** Orr, M. (2002). The FCE Speaking test: using rater reports to help interpret test scores. System 30(2), 143-154.