Article body

Introduction

Au début des années 1970, à la faveur d’un engouement pour l’apprentissage de l’anglais comme langue véhiculaire, naît aux États-Unis un nouveau champ d’études, le Language Testing. L’émergence de ce champ d’études s’explique par les besoins de concevoir des tests de langue qui permettent une mesure présentant diverses preuves de validité, fidèle et pratique de la maîtrise de l’anglais comme langue seconde pour, par exemple, mener des activités commerciales, participer à des réseaux de recherche, poursuivre des études ou voyager à travers le monde. Compte tenu des besoins, le champ s’est d’abord construit autour de l’évaluation de l’anglais chez les adultes. Les premiers travaux poursuivent alors la voie tracée par Lado (1961) et s’inscrivent dans le courant des approches structurales américaines par la suite nommées les « méthodes audio-orales » (Germain, 1993). Ce champ bénéficie au départ de la popularité aux États-Unis du Test of English as a Foreign Language (TOEFL), dont la première administration date de 1964 alors que la Modern Language Association en est responsable (Spolsky, 1995). L’année suivante, le TOEFL est pris en charge par le College Board avant de passer sous l’égide des Educational Testing Services (ETS). Fidèles aux principes de la linguistique contrastive, les concepteurs privilégient alors l’évaluation d’éléments discrets de la langue. L’approche connaît d’autant plus de succès que les approches psychométriques alors en vogue favorisent la mesure d’éléments décontextualisés. Le TOEFL permet l’essor d’autres tests de langue standardisés à grande échelle comme le International English Language Test (IELTS) dans le monde britannique. Tous ces instruments ont évolué selon les courants qui ont traversé le domaine de la didactique des langues et plus spécifiquement le champ alors nouveau du Language Testing. Du côté francophone, le développement d’instruments d’évaluation à grande échelle s’est fait un peu en marge de ce champ. Pensons notamment au Diplôme d’études en langue française (DELF) auquel est associé le Diplôme approfondi de langue française (DALF).

L’évaluation en langue a connu les remises en question qui ont affecté le domaine plus large de la mesure et de l’évaluation des apprentissages. Il faut d’ailleurs noter que la revue scientifique la plus en vue dans le domaine de l’évaluation des langues, Language Testing, dont le premier numéro remonte à 1984, dispute le statut de revue phare depuis la naissance en 2004 de la revue Language Assessment Quaterly dont le titre reflète un changement majeur de paradigme. Ainsi, la tradition du testing, qui renvoie à des évaluations externes souvent à grande échelle et ayant fait l’objet d’une standardisation, peut prêter moins d’attention aux pratiques essentielles d’évaluation qui ont lieu dans le cadre de la classe (classroom assessment) dans une perspective de régulation des processus d’apprentissage et d’ajustement des stratégies d’enseignement. Dans le monde francophone, la littérature abondante (Bonniol & Vial, 1997 ; Scallon, 2000) autour de l’évaluation formative témoigne de ce changement qui a touché également la didactique des langues. On reconnaît maintenant l’importance de dispositifs que mettent en place les enseignants et qui s’intègrent dans la réalité de la classe afin de favoriser les apprentissages. Toutefois, les épreuves à grande échelle n’ont pas disparu pour autant.

L’évolution du domaine de la didactique des langues a mené à la transformation des approches en évaluation de la langue. Ainsi, la naissance des approches communicatives a été déterminante. Sous l’influence de la sociolinguistique qui met l’accent sur la réalisation d’actes langagiers (Hymes, 1974 ; Widdowson, 1978), la tendance à se limiter à l’évaluation d’éléments isolés de la langue a été remise en question. De plus, l’importance de fournir aux candidats des situations authentiques, c’est-à-dire des situations comparables à celles auxquelles ils sont susceptibles d’être confrontés dans l’usage de la langue cible, a été mise de l’avant. Par ailleurs, l’accent est dorénavant mis sur les processus cognitifs sollicités dans l’utilisation d’une langue en contexte. Il faut également souligner que l’analyse des contextes d’utilisation effective de la langue a fait ressortir la fragilité de la distinction entre la langue première et les langues additionnelles (seconde, tierce ou étrangère), même si l’on ne parle plus de langue maternelle. En effet, les situations de langues en contact qui se multiplient avec les échanges commerciaux, les communications à l’échelle mondiale ou l’immigration engendrent une complexité où la distinction apparaît fragile (Schissel et al., 2019 ; Thomas & Osment, 2020). Il devient ainsi difficile de concevoir une didactique des langues vivantes qui se distingue de la didactique de la langue première.

En suivant l’évolution du champ que constitue l’évaluation des langues, certains enjeux majeurs apparaissent de façon récurrente (Aryadoust et al., 2021) et six d’entre eux retiennent notre attention dans la suite. Ce sont : 1) la nature de la compétence langagière et ses composantes, 2) les défis de la recherche de l’authenticité, 3) la complexité du processus de validation, 4) les considérations éthiques qui devraient guider les concepteurs et les utilisateurs, 5) les attentes sociales liées à l’évaluation des langues et 6) les voies qu’ouvre l’utilisation des technologies pour évaluer les compétences langagières.

La nature de la compétence

Selon Tardif (2006), une compétence se définit comme « un savoir-agir complexe prenant appui sur la mobilisation et la combinaison efficaces d’une variété de ressources internes et externes à l’intérieur d’une famille de situations » (p. 22). Ces ressources peuvent être des connaissances, des habiletés ou des attitudes de sorte qu’elles ne devraient pas se limiter à des éléments d’ordre cognitif, mais pourraient inclure des éléments d’ordre affectif. Il reste que ce sont plus les composantes cognitives que les composantes affectives qui ont retenu l’attention. Cette définition largement partagée est l’aboutissement d’une réflexion sur le concept de compétence où l’apport de la linguistique a été déterminant. Chomsky (1965) définit la compétence comme un ensemble de règles internalisées et l’oppose à la performance, qui est la manifestation physique et contextualisée de la mise en oeuvre de la compétence. Hymes (1974) élargit le concept en y greffant les aspects sociolinguistiques de façon à ne pas limiter la compétence langagière à sa composante cognitive et linguistique. La distinction entre la compétence et la performance est fondamentale dans le domaine de l’évaluation des langues parce qu’elle pose clairement la compétence comme un construit inobservable dont il faut induire la mise en place par une analyse de la performance. Il importe alors de faire produire une performance qui permette effectivement d’établir le lien entre ce qui est observé et la compétence à évaluer. Ce lien logique n’est pas toujours facile à établir, particulièrement au moment de l’évaluation des habiletés réceptives (écoute et lecture) où la performance observable est relativement limitée ; dans ces situations, il faut parfois inférer la compétence à partir de mesures indirectes.

L’expression « compétence linguistique » est un raccourci commode qui ne rend pas compte des mécanismes qui sous-tendent une performance. D’une part, on voit que les aspects linguistiques, c’est-à-dire la morphosyntaxe, la graphie/phonologie et le vocabulaire, ne permettent pas de l’expliquer entièrement et qu’il faut aussi considérer les aspects discursifs, sociolinguistiques et pragmatiques. D’autre part, la question se pose à savoir s’il faut parler de compétence en lecture et de compétence à l’écrit tout en parlant de compétence en interaction orale, compte tenu du fait que l’expression et la compréhension sont rarement dissociées dans les situations de communication orale les plus courantes. Il est probablement plus juste de parler de compétence langagière en reconnaissant le fait que cette compétence intègre des ressources linguistiques, sociolinguistiques et pragmatiques, lesquelles se mobilisent de façon différente selon que la communication est orale ou écrite et qu’elle engage la personne comme émettrice ou comme réceptrice. Il faut ensuite se demander si cette compétence langagière peut être divisée en sous-compétences.

Dans son ouvrage de 1980, Carroll rapporte qu’un examen des corrélations entre différents tests de performance l’a amené à conclure qu’un facteur général peut rendre compte de 58 % de la variance des scores. Ce constat s’inscrit dans un débat ravivé par les travaux d’Oller (1979) qui associe ce facteur général à une « grammaire de l’expectative » et défend l’hypothèse du trait unitaire. L’application de cette grammaire de l’expectative permettrait d’anticiper les éléments du discours et de surmonter les obstacles qui peuvent entraver la communication. S’appuyant sur cette hypothèse, Oller soutient qu’un moyen de mesurer la grammaire de l’expectative est de recourir au test de closure. Par la suite, certaines recherches ont effectivement montré des corrélations notables entre des épreuves de grammaire ou de vocabulaire (Hanania & Shikhani, 1986) et des tests de closure, laissant ainsi entendre que ce type de test pouvait témoigner de la maîtrise générale de la langue malgré les réserves déjà exprimées quant à leur valeur intégrative et à la possibilité de capter des processus de haut niveau (Alderson, 1980). Utilisant une procédure d’analyse factorielle semblable à celle d’Oller pour comparer 22 mesures différentes, Scholz et al. (1980) ont appuyé l’hypothèse du trait unitaire. Cette hypothèse a cependant vite été contestée, notamment par Carroll (1983) qui a repris les données pour démontrer que le facteur général est souvent un artefact de la méthode d’analyse. Hulstijn (1985) a ensuite confirmé l’insuffisance de l’analyse factorielle et prôné l’utilisation d’un modèle qui intègre différentes facettes (grammaire, vocabulaire, aspects culturels, par exemple) en interaction les unes avec les autres.

La proposition de Hulstijn (1985) rappelle la distinction entre l’approche psychométrique et l’approche édumétrique (Carver, 1974 ; Phakiti & Isaacs, 2021). Sous l’angle psychométrique, la compétence langagière apparaît comme une compétence complexe dont les composantes sont interreliées au point où les analyses de dimensionnalité font souvent émerger un facteur dominant (Blais & Laurier, 1995 ; Fouly et al., 1990). Sous l’angle édumétrique, il apparaît souvent plus utile de distinguer les différentes composantes de la compétence langagière. À cet égard, le modèle proposé par Bachman (1990) au début des années 1970 réconcilie les deux approches et permet de rendre compte de la complexité de la compétence langagière. Il faut d’abord noter que Bachman place la compétence stratégique au coeur de la communication humaine. Cette compétence stratégique, qui est intégrée dans la compétence communicative dans le modèle de Canale et Swain (1980) dont s’inspire Bachman, est maintenant au coeur de la communication humaine, car elle regroupe l’ensemble des ressources servant à gérer les interactions. Dans cette perspective, la compétence langagière est tributaire de la compétence stratégique. Celle-ci fait agir les qualités personnelles qui contribuent à une communication efficace. Elle permet aussi la coordination des mécanismes psychophysiologiques associés au langage, l’intégration des connaissances qu’a acquises le locuteur sur l’objet de la communication (et, plus largement, sur le monde) et, évidemment, le déploiement de la compétence langagière. Une évaluation centrée sur la compétence langagière n’a donc pas à inclure tous les éléments qui relèvent de la compétence stratégique.

Ainsi que l’illustre la Figure 1, Bachman distingue dans la compétence langagière, une sous-compétence organisationnelle et une sous-compétence pragmatique. La première inclut une composante grammaticale au sens large (c’est-à-dire le vocabulaire, la morphosyntaxe et la graphie/phonologie) ainsi qu’une composante textuelle qui permet l’organisation des unités plus larges du discours afin d’en assurer la cohérence. La seconde inclut une composante illocutionnaire qui permet la réalisation effective et efficace des actes langagiers et une composante sociolinguistique qui se rapporte aux règles sociales d’usage et aux références culturelles. Les sous-composantes ne se développent pas toutes au même rythme. Par exemple, en début d’apprentissage, l’attention se concentrera sur les éléments de base de la composante grammaticale.

Figure 1

La compétence langagière selon Bachman (1990)

La compétence langagière selon Bachman (1990)
Source : Bachman, 1990

-> See the list of figures

L’authenticité

Bachman (1990) formule également quelques remarques à propos de l’authenticité en signalant que cette dernière est liée tant aux situations qui servent à contextualiser une tâche évaluative qu’aux éléments de compétence qui sont effectivement mobilisés dans sa réalisation. La notion d’authenticité est fondamentale dans le domaine de l’évaluation des langues. Elle s’impose, d’une part, avec la préoccupation née de l’approche communicative en didactique des langues en ce qui a trait à l’utilisation pédagogique de documents réels plutôt que fabriqués (Gilmore, 2007) et à la mise en place de situations d’apprentissage apparentées aux situations d’utilisation effective de la langue (Viswanathan et al., 2018). Le défi de l’enseignement est donc d’outiller l’apprenant pour qu’il affronte la complexité d’une situation de communication authentique avec des moyens qui, en début d’apprentissage, sont limités. D’autre part, l’authenticité s’inscrit dans le développement du courant de l’évaluation authentique (Authentic Assessment), issue des travaux de Wiggins (1989), qui propose de soumettre à l’apprenant des tâches évaluatives complexes où sont reproduites des situations qu’il peut rencontrer en dehors du cadre scolaire (Koh, 2014).

Comme l’accent est mis sur l’authenticité, celle-ci devient un élément à considérer dans la validité d’une tâche évaluative. Une telle tâche doit s’intégrer dans une situation qui s’apparente à une situation de communication réelle au sein de laquelle les différentes composantes de la compétence interagissent. Cependant, cette exigence d’authenticité est-elle un gage de validité ? En premier lieu, il faut mentionner que la performance d’un locuteur dans une situation authentique est conditionnée par un grand nombre d’éléments qui ne sont pas associés à la compétence et qui peuvent se confondre avec elle de telle manière que le résultat devient difficilement interprétable. De plus, même lorsque ces éléments qui ne font pas partie du construit jouent un rôle assez limité, le caractère intégratif d’une tâche authentique fait en sorte que le résultat reste l’expression de l’interaction de plusieurs éléments de la compétence qui ne sont pas faciles à isoler. Si cela contribue à la validité dans une situation d’évaluation sommative, cela augmente le risque de fournir peu de pistes d’intervention dans le cadre d’une évaluation formative. Il est en effet difficile de diagnostiquer les difficultés d’un élève à partir d’un tel résultat, même en recourant à une grille d’évaluation qui identifie les éléments à observer.

Il faut aussi signaler qu’une situation de communication authentique comporte souvent des éléments qui la rendent plus ou moins complexe selon les caractéristiques des personnes qui y participent. Pensons d’abord à la familiarité avec un contenu particulier qui peut contribuer à faciliter un échange. Pensons également à des biais qui rendent une tâche plus difficile pour certains groupes d’individus en raison de contenus réservés à d’autres groupes, de références culturelles qui ne sont pas partagées ou de la présence d’éléments qui déclenchent une réaction affective pouvant perturber un candidat ou un élève. Historiquement, la détection des biais s’est concentrée autour de tâches susceptibles de produire des résultats différents selon l’origine ethnique ou le genre. Toutefois, dans plusieurs tests de langue destinés aux adultes, le biais associé au fait que la proximité de la langue maternelle avec la langue cible et le niveau de scolarisation favorisent la réussite à une tâche est connu. Certes, des questions se posent sur les effets d’une éradication des biais sur le construit d’un test de langue, surtout s’il prend en compte les éléments de la sous-compétence pragmatique. En revanche, la détection de biais ne doit pas être découragée, car elle permet d’identifier des contenus et des tâches qui favorisent indûment un groupe. Le défi est donc de détecter les éléments qui ne sont pas pertinents et qui engendrent ainsi des problèmes d’équité. C’est dans cet esprit que Zumbo (2007) propose, dans le but d’éviter une erreur systématique engendrée par une tâche qui favoriserait ou défavoriserait un groupe, une combinaison de méthodes d’analyse du comportement différencié des items (DIF) qu’il faut compléter par une analyse de contenu.

Il est clair que la notion d’authenticité a facilité le développement d’épreuves de langue pour des domaines d’activité spécifiques en offrant la possibilité d’appuyer leur validité. Par exemple, s’il s’agit du processus de vérification de la validité d’une épreuve conçue pour évaluer la capacité de professionnels de la santé à exercer leurs fonctions dans un langue seconde, la vraisemblance des tâches en regard des situations de communication dans le cadre de la prestation de soins de santé permet de s’assurer que l’épreuve induit la performance attendue (Laurier et al., 2021).

Le processus de validation

Le processus de validation est présenté comme une démarche visant à montrer qu’un test possède le degré de validité attendu (Anastasi, 1986). Ce processus soulève toutefois des questions dans son opérationnalisation. D’abord, il est clair qu’il faut non seulement démontrer la validité du test mais aussi sa fidélité, si tant est que ces deux attributs peuvent clairement se distinguer. De fait, depuis les travaux de Messick (1989), la validité de construit est au centre du concept de validité en même temps que ce concept est élargi de manière à couvrir la fidélité et même, comme nous le verrons plus loin, les conséquences de l’utilisation d’un test (Shepard, 1993). La recherche de la fidélité vise à minimiser la variance des scores qui dépend de l’erreur de mesure et est, de ce fait, une condition de la validité. En revanche, cette dernière suppose que la variance dépend des caractéristiques du construit. Il faut cependant souligner que les définitions mêmes du construit peuvent différer. Par exemple, Simon (2011) compare les définitions de la lecture de trois épreuves standardisées utilisées en Ontario pour montrer que ce construit n’est pas nécessairement univoque.

L’une des visions les plus fécondes et les plus originales des dernières années consiste à voir la validation comme un processus argumentatif (Loye, 2018). La validité n’est jamais définitive et se démontre par l’accumulation des preuves qui tendent à montrer qu’un instrument évalue effectivement ce qu’il doit évaluer dans les conditions où il devrait être utilisé. En d’autres termes, la validation doit établir que les diverses inférences que fera l’utilisateur d’un test seront justifiées. C’est l’approche préconisée par Kane (2006, 2012) qui, par rapport à l’approche de Messick (1989), se veut plus pragmatique dans la mesure où il ne s’agit pas nécessairement de démontrer la présence sous-jacente d’un construit, mais plutôt de défendre la chaine des inférences sur laquelle s’appuie l’interprétation. Kane (2012) propose un modèle où il distingue cinq niveaux d’inférence. Le passage d’un niveau à l’autre implique un type d’inférence particulier.

  • La notation – Les observations devraient produire des scores qui reflètent les éléments de la compétence dans le domaine d’utilisation ciblé.

  • La généralisation – Les scores observés devraient correspondre à ce que l’on attend dans d’autres situations semblables.

  • L’extrapolation – Les scores doivent rendre compte des éléments de la compétence (le construit) qui sont mis en oeuvre pour réaliser la tâche.

  • L’implication – Les éléments de la compétence (le construit) déterminent la qualité de la performance effective dans le domaine.

  • L’utilisation – Les scores conduisent à des décisions qui sont conformes à la fonction prévue de l’évaluation et qui engendrent des effets positifs.

Des méthodologies appliquant les principes de la validation de Kane (2012) ont été développées pour la validation d’épreuves standardisées à grande échelle portant sur la compréhension orale (Aryadoust, 2013) ou mettant l’accent sur les aspects pragmatiques (Youn, 2015) ou encore, utilisant des grilles d’appréciation (Knoch & Chapelle, 2018). La variété des types de preuves qui doivent être invoquées pour démontrer la justesse des inférences qui s’opèrent aux différents niveaux du modèle de Kane (2012) impliquent l’utilisation d’approches tant quantitatives que qualitatives. On privilégie donc une approche mixte pour établir la chaine d’inférences. La robustesse et le nombre des arguments dépendent des enjeux auxquels est liée la décision qui doit éventuellement être prise (Cook et al., 2015). La valeur de certaines inférences n’est cependant pas toujours facile à établir, particulièrement lorsqu’il y a des problèmes d’observabilité comme c’est le cas pour l’évaluation des habiletés réceptives. De plus, pour les niveaux supérieurs d’inférence, le processus d’inférence est plus difficile et il faut davantage tenir compte du contexte d’utilisation de la langue (Bachman, 2005). Par exemple, s’il est relativement facile de démontrer la correspondance des scores d’une épreuve de vocabulaire par une analyse du contenu de l’épreuve, il est beaucoup plus difficile de démontrer jusqu’à quel point il est possible de généraliser le résultat. Dans cette perspective, il faut voir la validation comme un processus continu qui exploite des données recueillies de diverses sources et qui doit être revu à mesure qu’évoluent les contenus, la nature des tâches ou l’utilisation des résultats.

Les considérations éthiques

Comme nous l’avons remarqué, le débat autour du processus de validation est lié à l’évolution du concept de validité. Depuis Messick (1980, 1989), les conséquences sociales, intentionnelles ou non, sont des éléments à prendre en considération dans l’utilisation d’un test pour des fins déterminées. Si la validité d’un test dépend dans un premier temps de ce que le test est censé mesurer, cette validité peut être remise en question lorsque le résultat de la mesure n’est pas utilisé pour les fins pour lesquelles le test a été conçu. L’idée de Messick d’examiner la correspondance entre les inférences réalisées et l’usage d’un instrument de mesure s’est vite répandue (Moss, 1992). Elle a amené des chercheurs et des concepteurs de tests à parler de « validité des conséquences » même si plusieurs se montrent hésitants à intégrer cette préoccupation dans le concept même de validité (Cizek, 2012 ; Mehrens, 1997). Que les conséquences soient associées à la validité ou non, le débat autour de la question a fait ressortir l’importance, tant pour les concepteurs que pour les utilisateurs, de s’interroger sur les valeurs qui sous-tendent un test, de même que sur son rôle dans le façonnement des valeurs sociales dominantes. Ce questionnement s’inscrit dans le développement d’une éthique autour des effets de l’évaluation.

Dans cette perspective, il convient d’abord de prêter attention aux stratégies que les répondants mettent en oeuvre pour réussir un test de langue, particulièrement lorsque celui-ci est une épreuve à enjeux critiques, c’est-à-dire une épreuve dont les résultats risquent d’avoir des conséquences significatives sur l’avenir des répondants. Hamp-Lyons (1997) décrit comme un effet de reflux (washback) le phénomène par lequel l’utilisation d’un test détermine ce qui est important et provoque ainsi des modifications dans la finalité des stratégies d’apprentissage et dans la nature des interventions pédagogiques. Du côté des stratégies d’apprentissage, l’effet se manifeste surtout par diverses formes de bachotage qui amènent des élèves à user de stratégies pour réussir le test plutôt que pour véritablement apprendre la langue. Faisant suite aux observations de Nevo (1989), selon lequel les stratégies que mettent en oeuvre des candidats pour réussir un test de langue ne reflètent pas toujours les processus mentaux qui sont déployés dans une utilisation normale de la langue, Wall et Alderson (1993) ont montré les effets pervers de l’effet de washback. Du côté des interventions pédagogiques, l’effet se manifeste par une tendance à enseigner en fonction du test et, ainsi, à aligner le contenu des programmes sur le contenu des épreuves, ce qui finit par constituer une menace pour la validité. Cheng et Curtis (2004) rappellent que, bien que ce soit surtout les aspects négatifs de l’effet de washback qui sont retenus, celui-ci peut comporter des aspects positifs. Le défi sur le plan éthique serait donc de minimiser les aspects négatifs de l’effet de washback et de tirer profit de ses aspects positifs.

Les aspects négatifs peuvent inclure des comportements associés à la tricherie et qui entrent en conflit avec les principes moraux partagés au sein d’une société. Ainsi, devant l’ampleur du phénomène de substitution de personnes au moment de la passation de plusieurs tests de langue à enjeux critiques, Fulcher (2011) va jusqu’à dire qu’il faut éviter cette forme d’évaluation pour appuyer certaines décisions, en donnant comme exemple la sélection d’immigrants.

Il est étonnant de constater que l’effet de washback peut présenter une certaine forme de récursivité de sorte que les pratiques reconnues ou tout au moins courantes en évaluation finissent par s’ériger en modèle et perpétuent des pratiques qui soulèvent des questions sur le plan éthique. Dans cette perspective, il est important que les concepteurs et les utilisateurs des instruments qui servent à l’évaluation se dotent de principes qui peuvent les guider.

Le Joint Committee on Standards for Educational Evaluation (JCSEE) a été formé en 1975 afin de diffuser des normes de pratique en ce qui a trait à l’évaluation aux États-Unis et au Canada. Cet organisme fait la promotion de normes d’éthique pour l’évaluation des apprentissages en classe (Klinger et al., 2015). Pour ce qui est plus spécifiquement de l’évaluation des compétences langagières, l’International Association of Language Testing Association (ILTA) a d’abord publié un code d’éthique (ILTA, 2000) qui réunit une série de neuf principes que les professionnels du domaine devraient suivre :

  • Respecter les personnes évaluées ;

  • Utiliser de l’information obtenue avec discernement ;

  • Adhérer aux règles éthiques des milieux ;

  • Utiliser à bon escient sa compétence professionnelle à évaluer ;

  • Mettre à jour et partager sa compétence professionnelle ;

  • Respecter la profession ;

  • Faire la promotion d’une évaluation responsable ;

  • Assumer ses obligations sociales ;

  • Refuser d’intervenir si les risques d’effets négatifs sont grands.

Ces principes ont ensuite été articulés dans des lignes directrices que l’organisme rend disponibles afin de baliser la pratique de l’évaluation des langues sur le plan déontologique (ILTA, 2007).

Les attentes sociales liées à l’évaluation

Comme on peut le voir dans les principes que propose l’ILTA, beaucoup d’enjeux éthiques sont liés à la dimension sociale de l’évaluation. Pour McNamara et Roever (2006), un bon test sur le plan psychométrique n’est pas nécessairement un bon test sur le plan social. Ces auteurs décrivent le rôle social des tests de langue, notamment comme instruments pour faciliter la reddition de compte dans les systèmes éducatifs, pour permettre le contrôle des flux migratoires et pour définir des groupes sociaux. De fait, en s’éloignant de la fonction formative de l’évaluation, laquelle est principalement motivée par l’objectif d’aider les élèves à mieux apprendre, il est possible d’observer le fait que les instruments qui servent à l’évaluation répondent souvent à des besoins sociaux. Pensons aux tests de langue utilisés dans le cadre de l’admission des étudiants dans les établissements d’enseignement supérieur ou à la sélection des personnes qui désirent immigrer dans un pays ; ces instruments contribuent à une forme d’exclusion sociale. On peut aussi penser aux évaluations de type sommatif comme celles qui servent à attester l’atteinte des objectifs d’un programme scolaire ou celles qui servent à certifier qu’un candidat est apte à exercer certaines tâches professionnelles dans une autre langue ; dans ces cas, à la dimension pédagogique, se greffe une demande sociale plus ou moins explicite.

McNamara (2006) considère que les modèles de validation issus des travaux de Messick (1989) offrent des réponses inadéquates aux questions que soulève l’évaluation en lien avec les valeurs et les contextes sociaux. Le rôle social des tests de langue confère aux concepteurs et aux utilisateurs de tests un pouvoir dont il est facile d’abuser. Shohamy (2001) examine différents tests de langue utilisés pour montrer comment ils s’imbriquent dans le tissu social et peuvent devenir des outils servant diverses visées politiques. Ce pouvoir des tests de langue est d’autant plus préoccupant que leurs concepteurs et leurs utilisateurs subissent des pressions dont la source remonte à des représentations naïves de la nature et du fonctionnement d’une épreuve de langue. Pour s’en convaincre, il suffit de penser aux débats récurrents sur les bulletins scolaires où la note apparaît comme une finalité incontournable entourée d’une aura de scientificité masquant un processus d’évaluation plutôt opaque.

La mise en place d’une épreuve de langue paraît souvent comme une solution miraculeuse à un problème social ; cette solution émane généralement d’un rapport de force inégalitaire. Le développement d’une épreuve, quel que soit son usage, semble être un processus simple permettant d’offrir des réponses incontestables qui ne sont pas sujettes à interprétation. Les épreuves de langue, quant à elles, se heurtent, d’une part, à des représentations liées à la mesure et, d’autre part, des représentations liées à la langue, ce qui nécessite une double entreprise de déconstruction. Tant du côté de la mesure que du côté de la langue, il est intéressant de noter la persistance d’approches qualifiées, à partir de points de vue très différents, de « normatives ».

L’approche normative de la mesure s’oppose à l’approche critériée. Cette distinction remonte à Glaser (1963). L’approche normative consiste à interpréter les résultats qu’obtiennent les candidats à une épreuve à partir des résultats calculés pour le groupe de référence. Cette approche est pourtant inadéquate quand il faut répondre à des attentes sociales qui s’expriment régulièrement comme l’attestation de la compétence langagière, le rehaussement des exigences dans la maîtrise de la langue ou encore le soutien aux élèves en difficulté. Dans ces cas, c’est plutôt une approche critériée qu’il faudrait privilégier puisque le résultat prend du sens lors de l’analyse de l’écart de la performance observée par rapport au niveau de performance souhaité, plutôt qu’en analysant l’écart avec la performance moyenne d’un groupe de référence. L’approche normative conduit souvent à attribuer un rang aux élèves. C’est souvent celle qui prévaut dans l’imaginaire collectif et, conséquemment, celle que certains voudraient voir dominer dans les tests de langue.

Selon Legendre (2000), une norme linguistique se définit comme un « ensemble de recommandations déterminées par une partie de la société et précisant ce qui doit être reconnu parmi les usages d’une langue afin d’obtenir un certain idéal esthétique ou socioculturel » (p. 903). Une approche normative de la langue est considérée comme un système fermé qui s’impose au locuteur lorsque celui-ci doit utiliser un registre de langue soutenu. Poussée à l’extrême, cette approche, qui se veut prescriptive, peut réduire la compétence langagière à la capacité à s’exprimer « sans fautes ». L’importance accordée au respect des règles et des conventions dictées par la norme peut d’ailleurs varier, mais les concepteurs de tests de langue doivent en tenir compte pour assurer l’acceptabilité sociale des instruments qu’ils proposent. Par exemple, Laurier et Baker (2015) ont montré que, pour vérifier la maîtrise de la langue par les enseignants et les enseignantes du Québec, quand la maîtrise de l’anglais comme langue d’enseignement est évaluée, les attentes quant au respect de la norme sont moins contraignantes que celles du français

L’utilisation des technologies

L’une des attentes sociales à l’égard de l’évaluation des langues est sans doute l’utilisation accrue des technologies. Les avantages habituellement reconnus à l’ordinateur et aux technologies qui en dérivent justifient cette attente : traitements numériques complexes, branchements en cours d’exécution, intégration de divers types d’information (images, textes, son…) et réduction des contraintes de distance.

Avant les années 2000, l’utilisation des tests adaptatifs suscitait beaucoup d’espoir (Brown, 1997). L’élaboration d’un test adaptatif suppose d’abord la mise en place d’une ou de plusieurs banques d’items qui mesurent un attribut commun. Chaque item est calibré afin de lui associer un certain nombre de paramètres dont le plus important est son indice de difficulté. Cet indice sert à retrouver dans la banque l’item qui est le plus approprié, compte tenu du niveau du candidat. Ce niveau est ajusté après chaque nouvelle réponse. Il en résulte une épreuve qui cible davantage le niveau de compétence, ce qui, par rapport à un test traditionnel, rend la passation plus courte pour un niveau de fidélité égal et plus agréable pour le candidat (Laurier 1992, 1999). Le diagramme de la Figure 2 illustre le déroulement d’un test adaptatif simple.

Une décennie plus tard, la possibilité d’utiliser des techniques de traitement des langues naturelles et de reconnaissance de la parole s’ajoute à l’adaptabilité (Chapelle & Chung, 2010). Cependant, plusieurs problèmes ne sont toujours pas résolus aujourd’hui. Suvorov et Hegelheimer (2013) rappellent que la plupart de tests adaptatifs sont élaborés en appliquant des modèles psychométriques issus de la théorie de réponses aux items. Ces modèles postulent que les tâches respectent le principe d’unidimensionnalité, c’est-à-dire qu’elles peuvent s’aligner sur l’axe de développement d’un attribut unique. Or, comme nous l’avons vu, la compétence langagière est plutôt multidimensionnelle. De plus, la recherche d’authenticité conduit à des tâches intégratives qui ne satisfont pas toujours l’exigence d’unidimensionnalité.

Figure 2

Déroulement d’un test adaptatif

Déroulement d’un test adaptatif

-> See the list of figures

Par ailleurs, il aurait été souhaitable que les performances des élèves dans les sections qui font appel à des habiletés productives (expression orale et écriture) puissent être corrigées de façon automatisée. Malgré des progrès notables en ce sens, la correction automatisée de productions écrites et orales en anglais dans le but d’inférer les éléments de la compétence langagière ne s’avère pas à la hauteur, notamment parce qu’elle peut être déjouée par certaines stratégies de passation et qu’elle se concentre sur les phénomènes de surface (par exemple, l’orthographe). Les problèmes d’unidimensionnalité et les lacunes de la correction automatisée expliquent pourquoi plusieurs firmes de tests à grande échelle qui avaient développé des épreuves de type adaptatif ou tenté d’automatiser la correction sont revenues vers des méthodes plus traditionnelles.

Isbell et Kremmel (2020) examinent comment sept grands fournisseurs de tests de langue ont raffiné leur procédure de passation à domicile dans le contexte de la pandémie de COVID 19 qui complique les passations sur place. La plupart de ces tests évaluent la maîtrise de l’anglais, mais certains sont offerts dans d’autres langues. Cependant, la passation à distance de tests à enjeux critiques pose des défis importants, particulièrement en ce qui a trait à la vérification de l’identité des candidats et à la divulgation des contenus de l’épreuve. Plusieurs dispositifs combinent la surveillance humaine à distance avec la détection et l’analyse de comportements suspects à l’aide de techniques d’intelligence artificielle. Ces techniques permettent d’entrevoir des moyens d’accroître l’accessibilité et la flexibilité des passations. Papageorgiou et Manna (2021) affirment qu’au-delà des considérations liées à l’utilisation d’outils ou au recours à d’autres personnes, il faut s’interroger sur la comparabilité de ce mode de passation par rapport à d’autres modes qui devraient être équivalents, sur l’équité, sur la protection de la vie privée et sur l’importance de minimiser l’exposition du contenu des épreuves.

Chapelle et Douglas (2006) soulignent que l’innovation est une façon de penser l’évaluation qui émerge une fois dépassée la simple recherche d’efficacité. Il y a une décennie, Chalhoub-Deville (2010) affirmait que l’avenir de l’utilisation des technologies pour l’évaluation de la compétence langagière allait dépendre de la capacité des concepteurs à innover plutôt qu’à reproduire les pratiques antérieures. La pandémie de COVID-19 semble avoir beaucoup fait avancer le domaine à cet égard.

Contrairement à ce que nous pourrions croire, le principal avantage des technologies pourrait ne pas résider dans les applications liées aux tests à grande échelle conçus pour des fins sommatives. Ainsi, les élèves apprécient particulièrement la flexibilité et la variété que permet un environnement virtuel dans le cadre d’activités d’évaluation formative (Milliner & Barr, 2020). Chapelle et Voss (2019) font d’ailleurs remarquer qu’un espace d’innovation, en ce qui a trait à l’exploitation des technologies dans le domaine de l’évaluation des langues, est la possibilité d’offrir aux élèves plus d’occasions d’apprendre à travers les activités évaluatives, car la technologie permet d’individualiser ces activités, de les placer dans un cadre plus stimulant que celui de la salle de classe et d’élargir la gamme des processus d’apprentissage. Par exemple, le logiciel Abracadabra, qui permet de diagnostiquer des difficultés en lecture dans un environnement ludique, illustre de quelle manière un dispositif d’évaluation peut servir l’apprentissage (Abrami et al., 2015). Dans cette situation, la cible d’évaluation coïncide avec la cible d’apprentissage dans l’activité pédagogique.

Conclusion 

Cette analyse des principaux enjeux en évaluation des langues confirme le caractère multidisciplinaire du domaine. L’analyse fait ressortir les différentes perspectives à partir desquelles il faut examiner le développement et l’utilisation des tests de langue.

  • La perspective psychométrique – Cette perspective se concentre sur les aspects liés à la mesure. Les questions qui se posent sont les suivantes : Est-ce que le construit est unidimensionnel ? Comment le jugement peut-il être modélisé ? Quelles méthodes faut-il employer pour la validation ?

  • La perspective linguistique – L’accent est mis sur la nature de la compétence langagière et sur la congruence des tâches avec l’objet à évaluer. Les questions portent donc sur les composantes du construit et sur la manière de construire des tâches qui soient en lien avec ce construit.

  • La perspective pédagogique – De ce point de vue, l’intérêt porte davantage sur le rôle de l’évaluation dans l’enseignement et dans l’apprentissage. L’évaluation peut prendre diverses formes, mais la visée formative devient prioritaire. L’une des préoccupations importantes est de savoir de quelle manière améliorer la rétroaction afin de favoriser l’apprentissage.

  • La perspective sociale – L’accent est mis ici sur la dimension sociale de l’évaluation de sorte que les pratiques évaluatives s’insèrent dans un contexte social. Il faut alors pouvoir répondre à une demande sociale en maximisant les effets positifs et en minimisant les effets négatifs.

Ces perspectives se complètent mais peuvent aussi s’opposer. Ainsi, d’une perspective psychométrique, les compétences langagières peuvent être décrites comme des construits relativement unidimensionnels alors que la perspective linguistique distingue plusieurs composantes. De même, l’exigence d’authenticité s’impose, pour des considérations différentes selon que la perspective est linguistique ou pédagogique, mais elle soulève certains problèmes d’une perspective psychométrique. Nous pouvons aussi constater que la perspective sociale fait émerger des défis qui pourraient être ignorés si nous nous en tenions seulement aux autres perspectives. Ajoutons à ces exemples, le fait que l’utilisation des technologies ne présente pas le même intérêt selon une perspective psychométrique ou pédagogique ou même sociale. C’est pour ces raisons que cette analyse des enjeux actuels de l’évaluation des compétences langagières se voulait une invitation à jeter un regard pluriel sur les théories et sur les pratiques qui traversent le domaine.