VoCoLex: Base de Données Lexicales sur les

Similarités Phonologiques entre les Mots Français

(le manuscrit actuellement soumis est téléchargeable en version .pdf dans la section "téléchargement)

L'objectif de ce texte est de décrire une nouvelle base de données lexicales, VoCoLex, portant sur diverses caractérisations des similarités phonologiques entre les mots de la langue française. La recherche empirique indique que la reconnaissance des mots parlés est influencée par la similarité phonologique entre le mot entendu et d'autres mots connus de l'auditeur. D'une manière générale, les modèles conçoivent l'identification d'un mot comme un processus de discrimination entre des multiples candidats lexicaux (Luce, Pisoni & Goldinger, 1990 ; McClelland & Elman, 1986; Marslen-Wilson, 1987; Marslen-Wilson & Welsh, 1978 ; Norris, 1994). L'activation conjointe de mots phonologiquement similaires est suggérée par exemple, par les effets de densité et de fréquence du voisinage lexical (Frauenfelder, Baayen, Hellwig, & Schreuder, 1993 ; Goldinger, Luce & Pisoni, 1989 ; Luce & Pisoni, 1998 ; Luce et al., 1990). Un enjeu majeur de ces études est que les effets de similarité phonologique devrait éclairer sur la manière dont l'information lexicale est accédée et organisée. Par ailleurs, l'observation d'effets de voisinage phonologique dans les études antérieures contraint le chercheur à contrôler la similitude phonologique entre les stimuli auditifs et l'ensemble des représentations lexicales. Une telle pratique méthodologique est courante dans le domaine de la recherche portant sur la reconnaissance des mots écrit. Afin de fournir une description la plus complète possible des similitudes phonologiques entre les mots, les deux définitions actuellement envisagées (Luce et al., 1990 ; Marslen-Wilson & Welsh, 1978) sont ici développées: l'une en référence au modèle de la Cohorte (Marslen-Wilson & Welsh, 1978), l'autre en référence au modèle NAM (Neighborhood Activation Model; Luce et al. , 1990).

Le modèle de la Cohorte, dans sa version originale (Marslen-Wilson & Welsh, 1978) attribue un rôle spécial au début des mots et considère le traitement de la parole comme un processus optimalement adapté à la distribution séquentielle de l'information acoustique. Plus spécifiquement, il suppose qu'un auditeur sélectionne à l'aide des deux ou trois premiers phonèmes une cohorte de candidats alignés avec ces sons initiaux. Un mot est reconnu lorsqu'il est le seul membre restant dans la cohorte. Ce point de reconnaissance correspond au point d'unicité (PU) : moment à partir duquel, un mot reste l'unique candidat à être activé. Cette opérationalisation du voisinage phonologique contraste avec celle envisagée par NAM (Luce & Pisoni, 1998 ; Luce et al., 1990). A la différence du modèle de la cohorte, NAM ne tient pas compte de la directionnalité du signal de parole et aucune portion du signal acoustique n'est privilégiée. Ce modèle conçu pour rendre compte du traitement des mots monosyllabiques définit le voisinage lexical en référence à un traitement parallèle. Selon NAM, les voisins lexicaux correspondent à tous les mots qui peuvent être générés par addition, délétion, ou substitution d'un phonème, quelle que soit sa position. La nature des similitudes entre mots supposées pertinentes pour le traitement est intimement liée à la conceptualisation des unités de traitement des mots. Le mot étant considéré comme une séquence de phonèmes, la similarité sera estimée en référence aux phonèmes partagés entre le mot et les autres candidats lexicaux.

Néanmoins, une difficulté de cette approche est que la réalisation effective des phonèmes est notablement déterminée par les phones environnants (Liberman, Cooper, Shankweiler, & Studdert-Kenney, 1967) si bien que la perception d'un son de parole semble nécessiter la prise en compte d'information acoustique sur une portion plus étendue du signal. Plusieurs travaux suggèrent en effet que l'unité syllabique constitue une unité de reconnaissance de la parole (par exemple, Mehler, Dommergues, Frauenfelder, & Segui, 1981; Pallier, Sebastian-Galles, Felguera, Christophe, & Mehler, 1993). La compréhension des processus de reconnaissance des mots nécessite par conséquent d'envisager l'impact des différentes formes de similarité phonologiques sur le traitement cognitif. Le but de la base de données VoCoLex est de fournir un ensemble d'indicateurs statistiques relatifs aux similarités phonologiques entre mots, permettant soit le contrôle de certaines de ces variables, soit leur manipulation empirique. Les indicateurs présents dans la base correspondent d'une part à des variables dont l'influence a été observée dans des études antérieures (nombre de voisins, fréquence des voisins, point d'unicité), et d'autre part à des variables potentiellement importantes dans le traitement. La perspective est donc double puisqu'il s'agit de mettre à la disposition des chercheurs un outil permettant à la fois de vérifier-contrôler l'influence de certaines variables, mais permettant également de nouvelles perspectives de recherche.

Les indices de similarité phonologique

Les indices de similarités phonologiques sont calculés selon deux principes différents. Chaque mot apparaissant dans la base est caractérisé par son point d'unicité et par l'étendue de son voisinage phonologique estimé sur l'ensemble de la séquence phonémique. Des estimations de la similarité phonologique en fonction de la position dans la chaîne phonémique sont fournies pour chacun des deux types d'indice. Les descripteurs quantitatifs sont basés soit sur un dénombrement absolu des unités lexicales similaires (comptage lexical), soit sur la fréquence des mots similaires dans la langue (comptage textuel). Enfin, les similarités phonologiques sont estimées soit indépendamment des similarités syllabiques, soit en en tenant compte.

Corpus lexical

Les entrées lexicales correspondent à l'ensemble des mots de 2 à 8 phonèmes (n= 105464) apparaissant dans la base de données lexicales Lexique (New, Pallier, Ferrand, & Matos, 2001). La limitation à 8 phonèmes répond au souci d'éviter une base de données trop volumineuse et peu maniable. Ce corpus inclut l'ensemble des mots mono et bi-syllabiques (excepté 6 entrées), ainsi que 50.893 mots trisyllabiques et 8.624 mots quadrisyllabiques. Nous pensons que ce corpus répond à la majorité des besoins expérimentaux. Les représentations phonétiques utilisées sont celles extraites de LEXIQUE et corrigées par Peereman et Dufour (soumis). Les seules modifications sont la suppression des distinctions entre les voyelles [a] et [A] et entre [o] et [O]. Celles-ci sont motivées par la disparition progressive de ces distinctions dans la plupart des dialectes du français (Léon, 1992; Warnant, 1987). Les transcriptions phonétiques sont donc basées sur 14 voyelles, 3 semi-voyelles, et 19 consonnes. Les symboles phonétiques et les codes correspondants utilisés dans la base de données VoCoLex sont similaires à ceux de LEXIQUE.

Syllabification

Les syllabes non terminales des mots de la langue française sont essentiellement de structure Consonne+Voyelle et la syllabification est généralement non ambiguë. Ainsi, la césure syllabique dans des mots tels que /paRadi/ (paradis) et /telefon/ (téléphone) se situe entre la voyelle et la consonne qui suit (/pa-Ra-di/, /te-le-fon/). Une telle segmentation est conforme au principe de l'attaque maximale (maximum onset principle) selon lequel les consonnes intervocaliques sont préférentiellement considérées comme attaque de la syllabe suivante pour autant que la séquence attaque+voyelle ainsi obtenue soit légale. La présence de groupements consonantiques intervocaliques rend néanmoins ambiguë la segmentation syllabique d'un grand nombre de mots français. En effet, si l'on s'accorde généralement sur la non-séparation des groupements occlusive+/R/ tels que /bR/ (/abRi/, abris) ou /pR/ (/kapRis/, caprice), la segmentation d'un groupement tel que /st/ (/pistil/, pistil) paraît moins claire (/pis-til/ ou /pi-stil/). Laeufer (1992) recense ainsi de nombreux groupements consonantiques français pour lesquels des propositions de segmentations différentes ont été proposées . En l'absence de critère décisif en faveur d'une syllabification plutôt qu'une autre, nous avons retenu celle adoptée par Pallier (1994). La syllabification est basée sur le principe d'une segmentation syllabique entre deux consonnes sauf dans les cas des occlusives + liquides (ex. /bR/, /pl/) ou d'une fricative labio-dentale suivie d'une liquide (/fl/, /fR/, /vl/, /vR/). Une exception à cette règle est la segmentation des groupes occlusives apico-dentales (/t/ et /d/) + suivies du phonème /l/. Une raison motivant la segmentation de tels groupes consonantiques (/tl/, /dl/) est qu'ils n'apparaissent jamais en début de mots dans la langue française.

Principes généraux de calculs

Pour chacun des mots inclus dans VoCoLex, un ensemble d'estimations quantitatives sont réalisées en référence à l'ensemble des mots rencontrés dans la base de données LEXIQUE. Les calculs sont réalisés soit à partir des fréquences lexicales (type), soit en fonction des fréquences textuelles (token). Par exemple, le voisinage phonologique d'un mot est estimé en comptant le nombre de mots similaires, ou en sommant les fréquences d'usage des mots similaires. L'absence, du moins à notre connaissance, de bases de données fréquentielles sur les mots français parlés nous a conduit à exploiter les fréquences des mots pour le langage écrit. Les valeurs fréquentielles utilisées correspondent aux fréquences Frantext fournies dans LEXIQUE arrondies à l'unité (champ " frantfreqparm "). Toutefois, les quelques études ayant comparé les fréquences subjectives de mots anglais à l'écrit et à l'oral indiquent de fortes corrélations (supérieures à .90) entre les deux estimations de fréquence (Howes, 1954 ; Shapiro, 1969). Des calculs de corrélations entre fréquences objectives à l'écrit et à l'oral réalisés sur la base de données Celex (Baayen et al., 1995) indiquent des corrélations de .77 et .87 pour les mots anglais de 5 et 7 lettres, respectivement. Pour les divers calculs de voisinage, il a été tenu compte que les fréquences d'occurrence correspondent non pas aux formes phonétiques, mais aux formes orthographiques. Par conséquent, les fréquences de mots homophones sont cumulées pour tous les calculs.

Les calculs portant sur la cohorte ont été réalisés à partir du second phonème de chaque mot jusqu'au phonème correspondant au point d'unicité du mot, c'est-à-dire le moment où le mot reste le seul candidat compatible avec le signal. Des estimations similaires sont aussi fournies en fonction de deux critères additionnels. Selon le premier critère, seuls les membres de la cohorte plus fréquents que le mot cible sont comptabilisés. Plusieurs données suggèrent en effet que la reconnaissance des mots est affectée par l'existence de candidats lexicaux plus fréquents que le mot cible (à l'écrit : Grainger & Segui, 1990 ; à l'oral : Luce & Pisoni, 1998 ; Luce et al., 1990). Selon le second critère, l'inclusion de candidats lexicaux dans la cohorte n'est réalisée que lorsqu'ils ont la première syllabe en commun avec le mot cible.

La densité du voisinage phonologique est déterminée en référence aux entrées lexicales correspondantes au mot cible (ex. /aRZ@/, " argent ") après substitution (/yRZ@/, " urgent "), délétion (/aR@/, " hareng "), ou addition (/aR@Z@)/, " arrangeant ") d'un phonème. Cette délimitation du voisinage correspond à celle utilisée par Luce et Pisoni (1998). Comparativement à l'opérationalisation habituelle du voisinage orthographique (Coltheart, Davelaar, Jonasson, Besner, 1977), le voisinage phonologique inclut donc des mots de longueurs différentes, ce qui n'est pas surprenant compte tenu de la nature séquentielle du signal acoustique. Sur l'ensemble des mots, les nombres moyens des trois types de voisins lexicaux sont de 4.5, 0.8, et 1,1, respectivement. Dans une première série de calculs, la position séquentielle du changement n'est pas prise en compte pour les calculs de voisinage, mais la densité du voisinage correspondant à chaque type de modification (substitution, délétion, addition) est fournie. Dans une seconde série de calculs, les nombres de voisins par substitution, délétion, ou addition sont fournis pour chacune des positions phonémiques (p. ex. le nombre de voisins par substitution du 3e phonème).De tels indices peuvent s'avérer particulièrement intéressants dans les études recourant à la tâche de détection de phonèmes cibles dans des mots. Par exemple, d'un point de vue méthodologique, il parait souhaitable que la comparaison des performances de détection de phonèmes initiaux ou finaux soit basée sur des stimuli appariés quant aux nombres de voisins différant par le phonème critique. Enfin, une estimation du voisinage est aussi réalisée en ne considérant que les mots voisins de plus haute fréquence que le mot cible qui, selon le modèle NAM, entraînerait une diminution de la performance de reconnaissance des mots.

Remarques finales

1- Correctifs aux notations phonétiques de LEXIQUE: Nous avons travaillé sur le fichier grapheme.txt qui est contenu dans l'archive base.zip disponible sur le site de LEXIQUE. L'observation de plusieurs erreurs de notations phonétiques nous a forcé à un travail de correction de l'ensemble des notations phonétiques de LEXIQUE. Le détail de ces corrections est accessible à l'adresse suivante http://leadserv.u-bourgogne.fr/bases/lexiquecorr . Compte tenu des modifications apportées, l'ensemble des représentations phonétiques des mots a dû être resyllabifié selon les critères définis plus haut. Le lecteur interessé trouvera les outils de syllabification à l'adresse http://leadserv.u-bourgogne.fr/bases/lexiquecorr/syllabe.htm

 

2- Différences entre les codes phonétiques de LEXIQUE et VOCOLEX: Outre l'absence de distinction entre les deux A et O, les codes phonétiques de VoCoLex se différencient de ceux de Lexique en ce qui concerne la gestion des schwa et des marques d'aspiration. Deux types de schwa sont considérés dans Lexique: le schwa d'expiration (comme dans le mot "premier") et le schwa obligatoire sauf en fin de mot (comme dans "alpes"). Cette distinction est supprimée dans VoCoLex puisqu'il s'agit du même phonème. La marque d'aspiration du "h" (le h aspiré) est également supprimée. Celle ci est informatrice sur la liaison et l'élision, mais des mots prononcés en isolation seront homophones qu'ils aient ou non un "h" aspiré (ex. "haut", "eau").

 

Références

Baayen, R. H., Piepenbrock, R., & Gulikers, L. (1995). The CELEX Lexical Database. Philadelphia, PA : Linguistic Data Consortium, University of Pennsylvania.

Coltheart, M., Davelaar, E., Jonasson, J.T., & Besner, D. (1977). Access to the internal lexicon. In S. Dornic (Ed.), Attention and Performance (Vol. 6, pp. 535-555). New York : Academic Press.

Frauenfelder, U. H., Baayen, R. H., Hellwig, F. M. & Schreuder, R. (1993). Neighborhood density and frequency across languages and modalities. Journal of Memory and Language, 32, 781-804.

Goldinger, S. D., Luce, P. A., Pisoni, D.B. (1989). Priming lexical neighbors of spoken words : effects of competition and inhibition. Journal of Memory and Language, 28, 501-518.

Grainger, J., & Segui, J. (1990). Neighborhood frequency effects in visual word recognition : A comparison of lexical decision and masked identification latencies. Perception and Psychophysics, 47, 191-198.

Howes, D. (1954). On the interpretation of word frequency as a variable affecting speed of recognition. Journal of Experimental Psychology, 48, 106-112.

Laueufer, C. (1992). Syllabification and resyllabification in French. In Theoretical analyses in romance linguistics (pp. 18-36). J. Benjamins Pub. Co : Amsterdam.

Léon, P. (1992). Phonétisme et prononciations du français. Paris : Nathan

Liberman, A. M., Cooper, F. S., Shankweiler, D. P., & Studdert-Kennedy, M. (1967). Perception of the speech code. Psychological Review, 74, 431-461.

Luce, P. A., Pisoni, D.B. (1998). Recognizing spoken words : the neighborhood activation model. Ear & Hearing, 1-36.

Luce, P. A., Pisoni, D. B., & Goldinger, S. D. (1990). Similarity neighborhoods of spoken words. In G. T. M. Altmann (Ed.), Cognitive models of speech processing : Psycholinguistic and computational perspectives. Cambridge, MIT Press.

Marslen-Wilson, W. D. (1987). Functional parallelism in spoken word-recognition. Cognition, 25, 71-102.

Marslen-Wilson, W. D., & Welsh, A. (1978). Processing interactions and lexical access during word recognition in continuous speech. Cognitive Psychology, 10, 29-63.

Mc Clelland, J. L., & Elman, J.L. (1986). The TRACE model of speech perception. Cognitive Psychology, 18, 1-86.

Mehler, J., Dommergues, J. Y., Frauenfelder, U., & Segui, J. (1981). The syllable's role in speech segmentation. Journal of Verbal Learning and Verbal Behavior, 20, 298-305.

New, B., Pallier, C., Ferrand, L., & Matos, R. (2001). Une base de données lexicales du français contemporain sur internet : LEXIQUE. L'Année Psychologique. http://www.lexique.org

Pallier, C. (1994). Rôle de la syllabe dans la perception de la parole : Etudes attentionelles. Thèse de doctorat, Ecole des Hautes Etudes en Sciences Sociales, Paris. www.pallier.org/articles

Pallier, C., Sebastian-Gallés, N., Felguera, T., Christophe, A., & Mehler, J. (1993). Attentional allocation within the syllable structure of spoken words. Journal of Memory and Language, 32, 373-389.

Peereman, R., & Dufour, S. (soumis). Un correctif aux notations phonétiques de la base de données Lexique. http://leadserv.u-bourgogne.fr/bases/lexiquecorr/

Shapiro, B. J. (1969). The subjective estimation of relative word frequency. Journal of Verbal Learning and Verbal Behavior, 8, 248-251.

Warnant, L. (1987). Dictionnaire de la prononciation française. Paris : Duculot.