L’intégration des relations sémantiques dans les dictionnaires spécialisés multilingues : du corpus ciblé à l’organisation des connaissances

Dancette, Jeanne

doi:https://doi.org/10.7202/1006177ar

1. Introduction

Les méthodes favorisant l’organisation et le transfert des connaissances sont au coeur des préoccupations des chercheurs sur la cognition et l’éducation ; elles sont également au coeur des recherches en terminologie et en bibliothéconomie visant à améliorer l’accès à l’information. Dans notre économie du savoir, plus les connaissances augmentent, plus s’accroissent aussi les moyens de les diffuser. La mondialisation a rendu incommensurable la taille des corpus spécialisés. Le moindre centre de recherche, le moindre organisme international, national ou local, la moindre revue tiennent sur leur site Web des textes descriptifs ou analytiques à la disposition du public.

Grâce à l’apparition d’outils informatiques puissants, il est relativement aisé aujourd’hui d’intégrer dans les dictionnaires multilingues en ligne des bases de connaissances très élargies. Toutefois, en faciliter l’accès pour l’utilisateur et améliorer l’efficacité des modes de recherche qui lui sont offerts, le rendre actif dans son processus de consultation en ligne, mettre à sa disposition des modes de recherche « à la demande », restent des objectifs difficiles à atteindre pleinement. Nous pensons que le balisage de l’information au moyen des relations sémantiques (RS)[1] explicitement intégrées dans les dictionnaires est un moyen d’augmenter le potentiel de transfert des connaissances qu’offrent de tels ouvrages. Réciproquement, l’introduction d’hyperliens dans les articles permettant le retour aux textes du corpus offre à l’utilisateur le moyen d’étendre et de valider l’information consignée par le terminologue.

Le présent article a pour objet d’examiner deux projets dictionnairiques dans des domaines spécialisés distincts, produits à cinq ans d’intervalle à l’intention des traducteurs, et dont l’un des objectifs majeurs est la structuration des connaissances par l’étiquetage d’un nombre élevé de relations sémantiques. Une question essentielle qui se pose pour accéder à l’information est celle du passage des phrases contenues dans un corpus (la langue naturelle étant le véhicule privilégié de la communication) aux représentations formelles ou semi-formelles (liste de mots, modèles de relations logiques, graphiques, fonctions lexicales, cartes conceptuelles, etc.). Pour la compréhension humaine, les deux modes s’avèrent nécessaires. Selon une stratégie « minimax », le rédacteur de dictionnaire spécialisé se devra donc de trouver le juste équilibre entre le discours décrivant les choses, d’une part, et la représentation abstraite qu’en donne l’expert, de l’autre. La discussion des deux projets qui font l’objet de cet article nous permettra d’expliquer les choix méthodologiques et techniques retenus pour opérer le passage des textes d’un corpus aux RS et vice-versa.

Une deuxième idée qui sous-tend cet article est celle du flou des relations, dès qu’on s’éloigne des relations hiérarchiques ; et même là, les choses ne sont pas toujours simples. Ce flou s’explique par de nombreuses raisons, dont la principale est que notre monde de connaissance n’est pas structuré de manière parfaitement logique, surtout pas dans les sciences humaines. Par ailleurs, les RS dépendent très fortement du domaine de connaissance et du type d’information à véhiculer et pour quel usager. Dans notre perspective, un modèle de RS est donc plus à considérer comme un outil permettant de baliser l’organisation et la recherche de l’information qu’un outil de production automatique de langage (au moyen d’algorithmes ou de règles d’équivalence et d’implication, comme en TAL). Notre modèle a donc une portée didactique et heuristique, plus que générative ; son objectif est de favoriser l’apprentissage des concepts et du vocabulaire spécialisé. Il est produit essentiellement pour répondre aux besoins des traducteurs : documentation, compréhension des nuances entre les termes, et recherche d’équivalents.

Le présent article précisera le contexte théorique dans lequel nous situons les RS en terminologie (section 2). Dans la section 3, nous présenterons le Dictionnaire analytique de la distribution/Analytical Dictionary of Retailing (Dancette et Réthoré 2000, 2006 pour la version électronique), les classes de relations sémantiques introduites dans la version électronique et les modes de navigation offerts à l’utilisateur du dictionnaire en ligne ; puis le Dictionnaire analytique de la mondialisation du travail/Analytical Dictionary of Globalisation and Work/Diccionario analítico de la globalización del trabajo (Dancette 2010). Nous insisterons sur la différence entre les méthodes et les techniques utilisées (le deuxième ouvrage mettant plus à profit l’exploitation d’un grand corpus électronique que le premier), les avantages des unes et des autres en vue d’une bonne diffusion de l’information. La section 4 précisera la discussion sur la nature des RS ; enfin, dans la section 5, un bilan provisoire sera dressé à propos de l’usage des RS comme outils de structuration de la connaissance et de l’apprentissage des concepts. Les deux dictionnaires sont aussi l’illustration de l’interdisciplinarité entre spécialistes du domaine (économistes, juristes, professeurs en relations industrielles), terminologues, et spécialistes en sciences de l’information.

2. Cadre théorique

2.1. La théorie de l’apprentissage

La théorie de l’apprentissage soutient l’efficacité des relations logiques comme moyen d’organisation des connaissances (Denhière et Baudet 1992). L’identification des liens entre les concepts aide l’apprenant à structurer et à organiser l’information. C’est ce qu’on désigne, en sciences de l’éducation, sous le terme de scaffolding (Eggen et Kauchak 1998), comme composante essentielle de l’apprentissage. L’apprenant « échafaude » son savoir en situant les nouveaux concepts par rapport à ses connaissances antérieures. (Une discussion plus approfondie du rôle des relations logiques pour l’apprentissage des notions se trouve dans Dancette 2003 ; et leur utilité en traduction est discutée dans Dancette et Halimi 2005.)

En amont, la préparation d’un dictionnaire spécialisé suppose la mise en ordre des concepts ; cela repose sur plusieurs opérations : la structuration conceptuelle du domaine, la délimitation de ses frontières et donc de ce qui doit constituer le corpus, la sélection et la définition des concepts clés propres au domaine. Un ordre doit être trouvé dans la multitude des termes et expressions utilisés dans les discours du domaine ; une cohérence doit être établie parmi les nombreuses définitions implicites ou explicites des termes.

En aval, sur le plan de la réception de l’information consignée, l’apprentissage et la consultation par l’utilisateur sont améliorés si l’ordonnancement des concepts est facile à saisir. Par conséquent, la conception du dictionnaire électronique doit prévoir le choix des interfaces qui faciliteront la consultation.

Une des fonctions traditionnelles de la terminologie est d’aider les utilisateurs à mieux comprendre les concepts et à acquérir le vocabulaire spécialisé. En ce sens, les nouveaux courants de la terminographie exploitent les RS à des degrés divers, que ce soit dans une approche lexico-sémantique par les fonctions lexicales (ÉCLECTIK 2005 ; Binon, Verlinde, et al. 2000 ; Verlinde, Selva, et al. 2010), ontologique (Després et Szulman 2007 ; Kerremans 2004 : 268), ou dans une approche basée sur la théorie des cadres (Faber, Márquez Linares, et al. 2005).

2.2. Structure relationnelle étendue

Ce qui différencie le modèle que nous présentons des autres modèles exploitant les RS est essentiellement le nombre de relations que l’on a décidé d’utiliser pour baliser l’information relative à un concept en relation avec des concepts proches, à l’intérieur d’un champ sémantique donné.

La représentation d’un concept au moyen d’un cadre « à la Minsky » donne une idée de la nature de l’information que l’on cherche à « encadrer ». Ce sont les connaissances du monde (à un moment donné) et le contexte de communication qui déterminent les relations que l’on explicite, comme le montrent les deux graphes suivants empruntés, l’un à Minsky (cité dans Martin 2007), l’autre à Dancette (2003).

Figure 2

**Extraction des RS de l’article grand magasin**

Par rapport au premier, le deuxième graphe représente un pas de plus dans l’explicitation des RS, puisque celles-ci sont étiquetées par classes, dans ce cas-ci : le générique (Gener), le spécifique (Spec), l’objet (Obj), la partie (Part), le contraste (Contr), l’ensemble (Mult), la propriété (Prop), le lieu typique (Loc). On relève ici une différence avec les modèles terminologiques et ontologiques qui se limitent généralement aux relations d’équivalence (intra- et interlinguistiques), hiérarchiques (générique / spécifique, partie / tout), et dans quelques cas aux relations d’agent et de cause. L’approche se distingue également des modèles thésauraux dans lesquels les relations dites « associatives » sont très nombreuses, mais ne sont pas qualifiées et donc restent ambiguës quant à leur rapport de sens avec le terme vedette (Tudhope, Harith, et al. 2001).

Les modèles qui sont implantés dans les deux ouvrages discutés ci-dessous exploitent une vingtaine de relations paradigmatiques et quatre relations syntagmatiques (adjectif et verbe) (voir plus bas). Il importe de noter que ces classes de relations reflètent la structure conceptuelle d’un domaine. Si certaines sont communes à tous les domaines (les relations de générique, spécifique, partie, tout, agent), nombre d’autres sont spécifiques à un domaine. En examinant la liste des relations utilisées dans les deux projets dictionnairiques, on constate qu’elles diffèrent grandement, même si les auteurs ont voulu s’inspirer du premier modèle pour l’appliquer au deuxième. Cela indique clairement que toutes les RS n’ont pas la même pertinence en tant que « balises » de l’information selon le domaine considéré. Pour ne donner qu’un exemple, la relation de causalité peut être très pertinente dans le domaine de la médecine (l’étiologie est l’étude des causes des maladies), mais très peu pertinente en sociologie où un phénomène s’explique rarement par une cause unique, mais plutôt par un ensemble de facteurs (Boudon et Bourricaud 1982). La relation facteur ou résultat sera donc plus pertinente et plus intéressante à traiter dans un domaine relevant des sciences sociales et humaines.

3. Projets dictionnairiques exploitant les RS

La structure sémantique d’un dictionnaire peut aider l’utilisateur à organiser ses connaissances. Par « structure sémantique », on entend tant la microstructure, à savoir le format de la fiche terminologique permettant la navigation d’une rubrique de l’article à une autre, que la macrostructure, à savoir le format de la base de données permettant la navigation d’une fiche à une autre. Nous décrivons ci-dessous la structure de chacun des deux ouvrages. Nous montrons comment cette structure permet la gestion des données, au stade de la confection du dictionnaire, et offre, au stade de l’utilisation, un outil pour faciliter et maximiser l’extraction de l’information contenue dans le dictionnaire, en fonction des besoins particuliers de l’utilisateur.

Les deux projets discutés sont des dictionnaires spécialisés multilingues. Ils sont conçus comme des ouvrages de référence dans leur domaine, contenant parfois des articles de plusieurs pages, à la manière d’une encyclopédie. Ils sont également des dictionnaires de langue, puisqu’ils donnent les équivalents linguistiques des termes traités, les définitions et les relations sémantiques. Une des particularités importantes de chacun de ces ouvrages en ligne est l’exploitation des relations sémantiques sous forme de graphes ou de tableaux de mots reliés. L’extraction des RS s’est faite sur la base de corpus larges mais très ciblés, constitués des textes d’experts (manuels numérisés, articles électroniques de revues spécialisées, documents officiels d’organismes reconnus, etc.).

Toutefois, un enseignement fondamental que nous retirons de l’implantation des RS dans des dictionnaires de type terminologique, ontologique ou thésaural, est que l’utilisateur (humain) a besoin de s’appuyer tant sur les termes que sur les phrases qui les mettent en contexte quand il cherche à augmenter sa compréhension des concepts. Autrement dit, un texte descriptif d’une notion est parfois insuffisant pour faire comprendre les nuances et les rapports de sens entre termes ; et inversement, une liste de termes reliés est peu parlante, même lorsque les relations sémantiques sont explicites. La discussion que suscite le présent article est celle du passage du texte au terme qui renvoie à une fiche, et du terme à la fiche qui le décrit, ou d’une relation sémantique aux termes qu’elle unit. La possibilité de l’extraction automatique des RS à partir du corpus sera également évoquée.

Parmi les relations sémantiques que les auteurs ont décidé d’exploiter pour chacun de ces domaines, certaines sont canoniques et universelles ; d’autres sont très liées au domaine et aux choix des auteurs quant au type d’information qu’ils jugent utile de diffuser. Nous évoquerons aussi les difficultés à observer une cohérence totale dans l’attribution des étiquettes de relations et la part d’arbitraire qui en découle.

Les termes reliés qui figurent dans les tableaux renvoient soit à la fiche terminologique qui les décrit, soit à la phrase qui les contient et les restitue dans leur contexte. Inversement, les textes contiennent des termes sur lesquels des liens hypertextuels sont créés pour permettre à l’utilisateur d’ouvrir les fiches auxquelles renvoient ces termes. Nous démontrons l’utilité de la création de liens entre les fiches et les textes et vice-versa, pour que l’utilisateur puisse naviguer d’une langue à l’autre, d’une notion à l’autre, d’un terme à un texte ou d’un texte à une fiche, et devenir un utilisateur actif dans son processus de recherche terminologique et documentaire.

Dans ces deux projets, les méthodes de la terminologie cognitive (Temmerman 2000) sont illustrées tant dans le format de dictionnaire qui prévoit une organisation des connaissances que dans l’interface qui cherche à optimiser l’acquisition des connaissances chez l’utilisateur. Il est à noter que l’exploitation plus ou moins automatisée du corpus rend la terminologie conceptuelle plus rigoureuse et moins dépendante de l’intuition ou de la connaissance du rédacteur car elle permet de repérer dans une première approximation les termes entre lesquels les relations de sens s’établissent, puis de vérifier la régularité et la stabilité de ces relations, malgré les limites que nous discuterons au point 5.3.

3.1. Entrées du DAD

Le Dictionnaire analytique de la distribution/Analytical Dictionary of Retailing (Dancette et Réthoré 2006 – version électronique), ici appelé DAD, est hébergé sur le site de l’OLST.

L’entrée inventory ci-dessous illustre la structure sémantique du dictionnaire.

L’utilisateur accède à une définition dans chaque langue, puis dispose de deux modes de consultation de l’article. Il peut ouvrir les pages « Contextes », « Précisions sémantiques », « Relations internotionnelles », « Compléments d’information » et « Informations linguistiques » s’il veut lire les rubriques de l’article inventory. Ou alors, il peut passer au tableau des « Mots reliés » donnés dans les deux langues, s’il veut saisir globalement le champ sémantique du terme inventory. La rubrique « Relations internotionnelles » est explicative (texte expliquant les nuances entre les termes), alors que la fenêtre « Relations sémantiques » fournit une liste de termes, en explicitant la nature de la relation, mais sans donner d’explication sur les nuances, comme le montre la liste ci-dessous :

Tableau 2

**Les relations sémantiques du terme inventory**

Ce deuxième mode de consultation permet à l’utilisateur de naviguer d’une fiche à l’autre. En effet, si l’un des mots reliés est la vedette d’un article complet, il pourra accéder à la fiche qui lui correspond, comme dans le cas de inventory 2, ci-dessus. De plus, comme les termes reliés sont extraits d’une des rubriques de l’article inventory, l’usager peut retrouver la phrase source grâce à un hyperlien qui y conduit.

Par exemple, pour comprendre la relation entre les termes français stock et inventaire, souvent confondus parce que l’anglais est inventory dans les deux cas, il accèdera aux phrases « On évitera de confondre inventory 1 et inventory 2 (inventaire). L’inventaire est le dénombrement du stock (inventory 1) détenu par une entreprise de distribution ; par extension, la liste résultant de ce dénombrement. »

L’annexe 1 donne la liste de toutes les RS du Dictionnaire. La discussion des relations sémantiques introduites dans le DAD se trouve dans Dancette et L’Homme (2004) et Dancette (2007). Le lecteur trouvera, dans ce dernier article, la liste des marqueurs linguistiques (lexico-syntaxiques) utilisés pour détecter à partir des corpus les relations hiérarchiques de générique / spécifique, partie / tout, et les relations associatives de propriété et d’agent. On faisait observer que les marqueurs avaient été utiles pour les contextes faisant apparaître des relations hiérarchiques, mais beaucoup moins pour repérer les relations associatives qui s’expriment dans une variété infinie de contextes.

3.2. DAMT

Le Dictionnaire analytique de la mondialisation du travail/Analytical Dictionary of Globalisation and Work/Diccionario analítico de la globalización del trabajo (DAMT) a été commencé en 2005 avec le même objectif que le DAD, servir à la fois d’ouvrage encyclopédique et de dictionnaire multilingue. (Une présentation générale se trouve dans Dancette 2008 et 2011.) Le domaine de la mondialisation et du travail est à cheval sur de nombreuses disciplines – droit du travail, économie, sociologie et relations industrielles – ; le corpus est nécessairement très vaste. Outre les manuels et les revues académiques spécialisées, une grande partie provient des organismes nationaux ou supranationaux et des organisations internationales (l’Organisation internationale du travail, notamment). Un moteur de recherche appliqué à un corpus balisé a permis une première extraction des séquences de texte riches en information par recherche de mots clés ; puis nous avons utilisé le logiciel d’extraction automatique des termes TermoStat (Drouin 2002) sur un corpus beaucoup plus vaste pour établir la liste des candidats termes. À une étape ultérieure, les corpus ont aussi été particulièrement importants pour la validation des relations sémantiques dont les auteurs du Dictionnaire avaient l’intuition.

Le DAMT comprend 6300 fiches, chaque article étant rédigé en français, en anglais et en espagnol. Un article est constitué de différents textes organisés en rubriques distinctes (« Définition », « Description », « Notes linguistiques », « Contextes »), et d’un tableau de termes reliés au terme principal par des relations de quatre types : relations d’équivalences intralinguistiques (synonymiques) et interlinguistiques (dans les trois langues), relations hiérarchiques (ex. : générique, spécifique, partitive), relations associatives (ex. : facteur-résultat, lieu typique, agent, propriété) et relations syntagmatiques (verbes et adjectifs dérivés).

3.2.1. Le format des articles ; ex. : travailleur migrant

Afin d’alléger notre présentation et de centrer la discussion sur les RS, nous avons placé en annexe (annexe 2) les rubriques textuelles « Définition » et « Description » de l’article travailleur migrant. À ces rubriques s’ajoute le « Tableau des RS » que nous présentons ci-dessous.

Tableau 3

**Relations sémantiques de travailleur migrant**

L’article travailleur migrant contient plus de vingt relations paradigmatiques et deux relations syntagmatiques (un verbe et un adjectif). Afin de gérer un si grand nombre de RS, il s’est vite avéré nécessaire de transférer nos fichiers de type MS Word sur une base de données, afin de vérifier plus aisément la cohérence des équivalents et des RS. Nous avons choisi le logiciel de gestion de thesaurus MultiTes.

3.2.2. Logiciel de gestion de la base de données

Étant développé pour gérer des thésaurus, le logiciel MultiTes permet la gestion de la nomenclature du dictionnaire. La nomenclature a été constituée en partant, d’une part, de quelque 200 termes initialement traités comme des notions clés, correspondant à des articles de fond, et, d’autre part, de tous les autres termes qu’on y a sémantiquement reliés (variantes et synonymes, relations hiérarchiques, associatives, syntagmatiques ; et tous les équivalents dans les autres langues). Ce qui porte le nombre à quelque 6000 termes.

Le logiciel gère automatiquement aussi les relations entre les termes. Il génère la réciprocité des relations entre les termes lors de la saisie et lors de toute modification ou élimination ultérieure de relations ou de termes. Par exemple, si l’on ajoute dans l’article travailleur migrant une relation de générique / spécifique avec le terme travailleur mobile, le terme travailleur mobile hérite automatiquement de la relation avec le terme travailleur migrant, de sorte que le tout reste cohérent. Le terme travailleur mobile devient une fiche en soi présentant les relations sémantiques dont il a hérité, et les auteurs n’ont plus qu’à y ajouter une définition pour que la fiche terminologique soit complète[2].

Par ailleurs, la navigation entre les termes permet de visualiser les concepts liés et d’en vérifier plus facilement l’exactitude et la cohérence. Le logiciel permet, en effet, de trier rapidement les termes de la base selon plusieurs critères, aux fins de révision ou autres tâches de manipulation, par domaine, par langue et par type de relation. (On verra ci-dessous que la rigueur dans l’attribution des étiquettes de relations sémantiques ne peut pas être totale, mais l’outil permet au moins d’en vérifier la cohérence.)

3.2.3. Rapports

Le logiciel MultiTes Pro permet de générer plusieurs types de rapports ; par exemple, la liste de tous les termes du dictionnaire ou d’un sous-domaine[3], la liste des termes comprenant un type de relation particulier, ou selon la catégorie ou la langue du terme. Les rapports peuvent être consultés sur un logiciel de traitement de texte régulier (Bloc Note, MS Word, etc.), permettant ensuite une certaine mise en page de l’information présentée.

Le logiciel prévoit aussi la production d’un site Web à partir de la base de données. Afin d’améliorer la présentation des informations, il est possible de modifier la mise en page des différentes fiches, l’ordre de présentation des champs ou l’apparence esthétique, en introduisant des feuilles de style dans les dossiers XML. Certains paramètres doivent toutefois être créés manuellement : sauts de ligne, caractères gras ou italiques, hyperliens non prévus par le logiciel et adresses URL cliquables.

3.2.4. Divers modes de navigation dans le DAMT

Du terme à la fiche

Les termes sont organisés et présentés par ordre alphabétique. On peut accéder à une fiche en parcourant l’index ou un sous-index (organisé par langue, ou par domaine) ou en tapant le mot recherché grâce à un moteur de recherche. (Cette fonctionnalité n’est pas prévue par MultiTes, mais sera présente dans la version définitive qui aura une interface améliorée par rapport à la version actuelle.)
D’une fiche à une autre fiche

De plus, des liens cliquables permettent de naviguer rapidement entre les termes reliés (à l’intérieur des tableaux de mots reliés) et d’accéder à d’autres fiches. Tous les mots reliés conduisent à une fiche. Dans la fiche travailleur migrant, les termes migration transnationale ou envoi de fonds privés font l’objet d’une fiche qui donne la définition et les équivalents dans les deux autres langues, ainsi que les relations sémantiques. La consultation d’une fiche peut donc se faire en partant du « Tableau de mots reliés » à l’intérieur du champ sémantique.
D’une référence bibliographique à une page Web du corpus

Les références aux textes cités dans les articles du Dictionnaire sont consultables à partir de leur adresse URL, par exemple : « Près de 175 millions de personnes vivent hors de leur pays d’origine. Près d’une personne sur dix habitant dans une région développée est un travailleur migrant » (Organisation des Nations Unies 2003).

De plus, les sites officiels des organisations qui font le plus autorité dans le domaine, tels que ceux de l’Organisation internationale du travail, de la Confédération internationale des syndicats libres, de l’Union européenne, etc., sont ouvrables grâce à l’introduction des liens dans la base de données. Ainsi, l’utilisateur du Dictionnaire peut aller à la source de l’information, dans le corpus de référence utilisé par les auteurs.

4. Nombre et nature des relations sémantiques

Parmi les 6300 termes traités (dans les 3 langues confondues), près de 4600 renvoient à des concepts distincts (les 1700 autres termes étant des variantes ou des synonymes). Chaque terme renvoie à un concept, dont certains font l’objet d’une description très détaillée, à la manière d’un article encyclopédique.

La base dénombre près de 2600 relations d’équivalence, environ 1600 relations hiérarchiques (générique / spécifique, partie / tout, collectif / multiple) et près de 17 000 relations associatives de toutes sortes, dont une centaine de relations syntagmatiques (verbes ou adjectifs entrant en collocation avec un terme). Par ce nombre très élevé de relations associatives, le DAMT se distingue des ouvrages de terminologie plus classiques ; et, par l’étiquetage des relations, il se distingue des thésaurus habituels.

Directionnalité ou bidirectionnalité des relations sémantiques

Les approches lexicographiques et terminographiques basées sur les traits lexico-sémantiques permettent d’établir des relations directionnelles. Par exemple, les relations introduites dans le DAD relèvent d’un modèle de fonctions lexicales (Mel’čuk, Clas, et al. 1995) tel que, si une relation de lieu typique (Loc) est établie entre deux termes, on distinguera le lexème correspondant à l’entité « localisée » du lexème correspondant à sa localisation, comme dans Loc (inventory) = stockroom. Cette même logique s’applique à toutes les relations hiérarchiques et méronymiques. Le générique conduit au spécifique et, inversement, le spécifique conduit au générique ; la partie au tout, le collectif au singulatif.

Dans le modèle thésaural que nous avons adopté, toutes les relations hiérarchiques et méronymiques répondent à ce principe de directionnalité. Toutefois, il en va autrement des relations associatives où la bidirectionnalité nous a été imposée par la logique du logiciel MultiTes utilisé. Ainsi, la fiche travailleur migrant renvoie à la relation de localisation (Loc = pays hôte) ; mais la fiche pays hôte renvoie aussi à la relation Loc = travailleur migrant. L’étiquette Loc indique donc à la fois le « localiseur » et le « localisé »[4].

Cette manière d’étiqueter les relations présente l’avantage de forcer la cohérence (à une paire de termes ne peut correspondre qu’une seule catégorie de relations : le deuxième terme hérite de la relation du terme avec lequel il est en relation). Par contre, l’efficacité de cette méthode dépend du bon sens et de la bonne volonté de l’utilisateur. Si l’étiquette « Loc » vaut autant pour l’entité localisée que pour le lieu typique, l’utilisateur doit faire preuve d’une certaine souplesse et se baser sur son intuition linguistique.

Un des problèmes était de trouver des étiquettes facilement parlantes pour l’utilisateur et compréhensibles dans les deux sens ; c’est ainsi que l’on a opté pour l’étiquette « Actor-Action » (plutôt qu’« agent ») pour désigner les agents et les choses qu’ils font, « Fact-Result » (facteur-résultat) pour désigner un facteur et le phénomène qui en résulte, « Quant » (quantificateur) pour désigner les rapports de quantification, « Prop » (propriété) pour désigner les qualités propres à une entité, « Leg » (législation) pour désigner les documents ayant valeur juridique se rapportant à un concept, etc.

5. Discussion de la valeur ajoutée des relations sémantiques du point de vue de la compréhension des concepts

5.1 Empirisme de la méthode d’attribution des étiquettes de relation

L’attribution d’une étiquette de RS à un couple de termes est une opération délicate. Certains types de relations (les quasi-synonymes, par opposition aux synonymes ou aux antonymes ; la plupart des relations associatives) sont particulièrement difficiles à vérifier. La difficulté due au flou des rapports logiques entre de nombreux concepts des sciences humaines et sociales a été réduite en clarifiant la définition des classes de relations et en systématisant l’étiquetage à des ensembles homogènes de termes. Cela n’a pu se faire qu’au fil du travail, car chaque fois, la place et le rôle de la relation dans la structure totale étaient à revoir, ainsi que l’appréciation de la nécessité d’établir une relation entre un terme et un autre. L’important a été de garder une certaine uniformité et de faire apparaître la cohérence des choix du terminologue, pour que l’usager comprenne le raisonnement adopté lors du développement du dictionnaire.

5.2 Études pilotes auprès des utilisateurs

Ce n’est que par des études sur le comportement des utilisateurs que l’on pourra apprécier vraiment l’utilité des représentations sémantiques au moyen de tableaux ou de listes de mots reliés étiquetés pour la compréhension des concepts et la recherche d’équivalents en traduction. L’analyse des questionnaires remplis par deux groupes d’utilisateurs (des traducteurs professionnels lors d’un atelier de traduction et nos propres cohortes d’étudiants de traduction économique) révèle de manière assez évidente que les utilisateurs aiment davantage s’appuyer sur les textes descriptifs lorsqu’ils cherchent l’explication des concepts ou la phraséologie que sur les tableaux de termes. Par contre, ils ont presque tous dit consulter les tableaux de mots reliés pour comprendre les nuances fines de sens entre les termes, et surtout lorsqu’ils avaient des choix lexicaux à faire (l’usage d’un générique pour éviter une répétition, par exemple) ou même pour vérifier le bon emploi d’une charnière logique. Les deux modes de consultation (par RS et par textes descriptifs) s’avèrent donc nécessaires.

5.3 Optimisation de l’outil informatique

Les difficultés techniques liées à l’implantation d’un si grand nombre de RS ne sauraient être passées sous silence. Leur solution demande des efforts pour l’optimisation de l’outil informatique traitant les données textuelles et terminologiques multilingues de grande ampleur. L’objectif est la conception d’un outil d’exploration de la base de connaissance permettant la navigation d’une rubrique à l’autre à l’intérieur d’un même texte (description de concepts) et de n’importe quel élément de ce texte à un autre texte ; d’une langue à une autre (anglais, français, espagnol), et du Dictionnaire au corpus de référence.

6. Conclusion

La définition des RS, et leur implantation dans un dictionnaire spécialisé multilingue, est un beau défi. Elle représente une voie nouvelle en terminologie en tant qu’outil d’organisation de la connaissance. Même si la pertinence des types de relations dépend fortement du domaine de spécialité et de la finalité de l’information à transmettre, les RS servent de balise pour l’apprentissage des notions. Les techniques permettant de les mettre en évidence dans une interface conviviale pour l’utilisateur (qui devient un utilisateur dynamique) présentent un grand intérêt pour le traitement de l’information en général.

Par leur ampleur et leur accessibilité quasiment sans limites, les corpus nous ont permis de repérer les RS grâce à des marqueurs lexico-sémantiques, ou de vérifier l’intuition qu’on avait d’une relation. Offrant à l’utilisateur du Dictionnaire la possibilité de consulter le texte source dans le corpus d’où a été extraite l’information, la méthode des corpus valide et enrichit la terminologie conceptuelle.

L’intégration des relations sémantiques dans les dictionnaires spécialisés multilingues : du corpus ciblé à l’organisation des connaissances

Résumé

Abstract

1. Introduction