Publié le 10 juillet 2019
Pour l’évaluation des compétences d’expression écrite et orale, il est d’usage de recourir à des évaluateurs, qui portent un jugement sur la performance du candidat. Les évaluateurs sont pour cela généralement outillés avec une grille d’évaluation à laquelle ils sont formés.
La grille d’évaluation est le plus souvent descriptive, c’est-à-dire qu’elle fournit une description de ce qui caractérise chacune des catégories de performance considérées. Il existe toutefois plusieurs approches pour l’évaluation au moyen de grilles descriptives et le choix de l’instrument utilisé peut notamment avoir un impact sur la fréquence avec laquelle des évaluateurs différents attribuent un niveau identique à une même copie.
Dans l’approche holistique, la production est appréciée dans sa globalité par l’évaluateur. Au départ l’approche holistique se basait sur l’impression générale perçue par l’évaluateur, mais elle a évolué vers une évaluation davantage guidée et l’évaluateur situe la production sur une échelle descriptive des différents niveaux de compétence que l’épreuve ambitionne de distinguer.
L’évaluation analytique, parfois dite critériée, détermine les différents aspects langagiers selon lesquels la production doit être analysée. Pour chacun de ces aspects, l’évaluateur situe la production sur une sous-échelle de compétence. La grille analytique est donc un tableau à double entrée, avec d’un côté les critères d’observation, de l’autre les niveaux de compétence à distinguer et à l’intersection une description indiquant ce qui est attendu pour le critère à ce niveau de compétence.
Les promoteurs de l’approche holistique lui attribuent souvent une plus grande validité au motif que le tout est supérieur à la somme des parties, qu’il est artificiel de s’intéresser séparément à différents aspects langagiers d’une même production et qu’un nombre limité de critères risque de ne pas rendre compte de la richesse combinée de la production.
D’autres chercheurs mettent au contraire en garde contre l’utilisation de grilles holistiques pour l’évaluation de productions écrites, les évaluations pouvant être influencées par des caractéristiques superficielles des copies, notamment lorsque l’évaluation est censée refléter l’impression globale de la production sur l’évaluateur. Il y a donc actuellement un relatif consensus pour que l’évaluation holistique ne se réduise pas à une impression générale mais soit guidée au moyen d’une grille descriptive.
Les tenants de l’approche analytique pensent quant à eux que le fait de prédéterminer les aspects à considérer pour l’évaluation et de les évaluer séparément évite de tenir compte d’éléments non pertinents. La grille analytique permettrait par ailleurs de mieux rendre compte de profils langagiers hétérogènes, qui sont difficiles à situer sur une échelle globale.
Dans un contexte où il s’agit de rendre compte des forces et faiblesses d’un candidat, la grille analytique constituerait un outil diagnostique plus précis. Mais Livingston souligne il n’est pas toujours possible de concevoir des grilles analytiques qui mesurent les qualités de la réponse que les concepteurs du test jugent vraiment importantes[1]. Il n’est également pas toujours aisé de définir de façon claire et sans ambiguïté les différents critères. Enfin, il y a un large consensus sur le fait que l’évaluation analytique nécessite un temps d’évaluation plus long.
Les résultats des études menées pour comparer la fidélité des évaluations selon ces approches sont très contrastés. Cela peut être dû à une vision différente de l’approche holistique selon les études (impression générale versus utilisation d’une échelle descriptive) et à une qualité inégale des descriptions utilisées au sein des grilles.
Si l’utilisation d’une grille analytique fournit un cadre plus strict et plus précis aux évaluateurs, elle leur laisse cependant la responsabilité de situer, pour chacun des critères d’évaluation, la production du candidat sur la sous-échelle correspondante. Cela maintient donc un espace permettant l’expression de leur subjectivité. Les descripteurs associés aux différentes catégories de performances pour les différents critères d’évaluation étant nécessairement concis, les interprétations en termes d’exigence (et peut-être même en termes de portée des critères) seront différentes selon les évaluateurs.
Une alternative, envisageable notamment pour des épreuves cherchant à vérifier la maîtrise d’un niveau de compétence précis, est de poser à l’évaluateur une liste de questions à réponse oui/non concernant la présence d’observables prédéterminés dans les productions des candidats. Ainsi l’évaluateur n’a plus à estimer un degré de performance de la production, pour chaque critère, au regard de descripteurs limités, mais simplement à dire si oui ou non il a observé/ressenti ce qui est mentionné dans la question. L’avantage d’une telle grille est que les questions se rapportent directement à la tâche évaluée (même si certaines peuvent être utilisées pour évaluer des tâches différentes), alors que les grilles analytiques sont généralement plus transversales et reflètent le modèle théorique sous-jacent de la compétence à communiquer langagièrement.
Le risque d’une telle approche est une sous-représentation de ce que l’épreuve cherche à évaluer, en limitant l’appréciation d’une production à un ensemble discret d’éléments qui ne reflètent que très partiellement la qualité des productions (d’autant que le nombre de questions doit rester raisonnable pour éviter les chevauchements entre questions et pour conserver une durée d’évaluation raisonnable). Elle est néanmoins susceptible de limiter davantage l’introduction de caractéristiques non pertinentes dans l’évaluation et de réduire les écarts entre évaluateurs.
Chaque approche a des forces et des faiblesses et ce sont généralement des partis pris théoriques en matière d’apprentissage et de définition de la compétence à communiquer langagièrement qui président à l’élaboration des grilles. Cette définition de la compétence se reflète dans les critères d’évaluations des grilles analytiques mais également dans les descriptions des grilles holistiques, ce qui explique que les deux approches soient de plus en plus convergentes.
Ce sont davantage les stratégies d’attribution des niveaux qui les différencient. Dans l’approche holistique, cette responsabilité est laissée à l’évaluateur, sur la base de règles préétablies par l’organisme certificateur. Si le profil langagier n’est pas homogène et que la performance peut être reliée aux descriptions de deux niveaux adjacents l’évaluateur doit identifier le niveau qui reflète le mieux la compétence du candidat dans le contexte du test.
Dans l’approche analytique, l’évaluateur se contente d’évaluer chacun des critères. Ce qui est en résulte est du ressort de l’organisme certificateur, qui peut avoir une vision conservatrice en n’accordant un niveau que s’il est atteint pour chacun des critères ou en permettant une compensation. Les résultats par critères offrent par ailleurs la possibilité d’une restitution mettant en avance les forces et faiblesses de la performance.
~ Dominique Casanova
Référence : [1] Livingston, S. A. (2018). Test reliability—Basic concepts. Research Memorandum No. RM-18-01. Princeton : Educational Testing Service. |