Morphologie et lexicologie


Le lexique et les fréquences

La quantification

Beaucoup des phénomènes de la vie ont lieu plus d'une fois. Ainsi, il pleut un certain nombre de fois au cours de l'année, on achète des souliers un certain nombre de fois durant sa vie, et on vit un certain nombre de jours. Dans tous ces cas, il est possible de quantifier les répétitions. Ainsi, on constate qu'entre octobre 2013 et septembre 2014, il a plu à Vancouver 136 jours sur 365, comme l'indique le tableau suivant, tiré du site vancouver.weatherstats.ca:

jours_pluie

En regardant le tableau, on peut observer qu'il y a des moments, comme le mois de mars, quand il y a plus de précipitation, et d'autres, comme le mois d'août, quand il y en a moins. Il y a donc un patron observable qu'on pourrait comparer avec d'autres années.

En même temps, on constate que la précipitation totale au cours de cette même période était de 971 mm, comme l'indique le tableau suivant, tiré du site vancouver.weatherstats.ca:

precip_totale

En comparant les deux tableaux, on observe une corrélation entre le nombre de jours de pluie et la quantité de pluie qui tombe à chaque période. Plus il pleut, plus il y a de la pluie. Tout cela a l'air très simpliste, mais cela illustre un principe important: c'est en quantifiant qu'on peut le mieux observer des patrons. Dans ce qui suit, nous allons appliquer ce même principe aux phénomènes lexicaux.

Populations, échantillons, observations et essais

Dans le cas d'un phénomène qui a lieu un nombre limité de fois, il est possible d'imaginer la possibilité de calculer le nombre total d'occurrences. Ainsi, il serait possible de garder une trace de toutes la fois où une personne a acheté des souliers durant sa vie. On parle alors d'une population. Par contre, il y a d'autres circonstances où on n'a pas accès à toutes les observations. Par exemple, dans le domaine de la météorologie, on possède des données pour un siècle ou un peu plus. Il est donc impossible de réunir l'ensemble des observations sur la précipitation à Vancouver depuis toujours. Il faut donc sélectionner une période plus limitée pour les mesures. On parle alors d'un échantillon. En principe, on essaie de faire en sorte pour que l'échantillon soit représentatif de la population. Ainsi, si on choisissait de mesurer la pluie annuelle à Vancouver seulement au mois de mars chaque année, on aurait des résultats assez différents que ceux qu'on obtiendrait en mesurant au mois d'août, ou à tous les dix jours.

Il y a aussi des cas où on peut simplement attendre l'arrivée d'un phénomène et faire l'observation quand cela arrive. La difficulté d'une telle approche vient du fait qu'un grand nombre de facteurs peuvent intervenir pour influencer nos mesures. Ainsi, si on veut mesurer le nombre de paires de souliers achetées par le sujet X, le fait que le sujet gagne la loterie ou pas pourrait influencer ses achats. On voudrait alors contrôler ces facteurs. Une façon de le faire consiste à créer un contexte expérimental et à faire un certain nombre de tests dans ce contexte. On parle alors d'essais. On pourrait, par exemple, donner 100$ à chacun de 100 sujets et mesurer leurs achats de souliers sur deux ans, dans le cas où tous commençaient avec la même sorte de souliers neufs et où tous étaient interdits d'utiliser d'autres sources d'argent pour se chausser.

La notion de corpus

Dans le domaine linguistique, on pourrait supposer que tout ce qu'on a jamais dit ou écrit en français représente une population. Évidemment, on ne peut pas y accéder. Il en va de même, même à une échelle plus limitée, comme tout ce qu'un être humain écrit durant sa vie. Il faut donc limiter les perspectives en choisissant un échantillon de productions. Pour que cet échantillon soit cohérent, on essaie de garder constant les conditions de production. Par exemple, on pourrait mesurer toutes les paroles produites par un locuteur au cours d'une série d'interiews, ou tous les mots produits par un écrivain dans l'ensemble de son oeuvre. Un échantillon linguistique de la sorte s'appelle un corpus.

Dépendance et indépendance, corrélation et causalité

Les événements qui se répètent peuvent être reliés entre eux, ou indépendants les uns des autres. Ainsi, si on joue au pile ou face, on observe que le fait que la pièce tombe pile une fois ne garantit pas que la même chose se fera la fois suivante. Si deux phénomènes sont sans lien, on parle de phénomènes indépendants. Par contre, dans d'autres cas, le fait qu'il se passe un phénomène X peut rendre plus probable l'arrivée d'un phénomène Y. Par exemple, on a déterminé que les fumeurs ont une plus grande chance d'être atteints de maladies pulmonaires et cardiaques. Il existe donc une corrélation entre les deux. La question qu'il faut poser ensuite est la suivante: quelle est la direction de la relation? La plupart des gouvernements et des médecins considèrent que c'est le fait de fumer qui augmente les chances de tomber malade, et non pas que c'est le fait de tomber malade qui incite les personnes à fumer. Par contre, on ne peut pas parler de causalité dans le sens où tous les fumeurs ne tombent pas malades, et certains non fumeurs tombent quand même malades. Il faut donc être prudent en ce qui concerne l'attribution de la causalité.

Quelques concepts statistiques

La statistique est une science complexe. Le but ici n'est pas de l'explorer en détail, mais plutôt de présenter quelques concepts élémentaires. Pour commencer, lorsqu'on se trouve devant une population ou un échantillon, il est possible de compter le nombre de fois qu'un phénomène est observé. Prenons le cas où on fait 10 essais de pile ou face et qu'on observe 6 piles et 4 faces. On peut représenter cette observation au moyen d'un tableau:

pile_face

Supposons maintenant qu'on répète une série de 10 essais et qu'on compte de nombre de piles dans chaque groupe de 10 essais. En principe, ces valeurs vont varier. On n'aura pas toujours 5 piles et 5 faces, mais parfois 6 piles et 4 faces, parfois 7 faces et 3 piles, etc. Il est possible de représenter cela sous forme de distribution, comme l'illustre le tableau suivant:

distribution

Il existe différentes sortes de distribution. Nous verrons que beaucoup de phénomènes linguistiques se laissent représenter par une d'entre elles, proposée par le linguiste G.K. Zipf. Dans cette distribution, on trouve le mot le plus fréquent et on compte le nombre de ses occurrences, puis les mot qui vient ensuite en fréquence, avec le nombre d'occurrences, et ainsi de suite. Si on place les résultats sur un graphique, on obtient quelque chose qui ressemble à ceci, basé sur le roman Moby Dick (résultats basés sur un blogue de Philippe Adjiman):

moby_dick

On constate qu'il y a quelques mots qui ont une fréquence très élevée, mais que la fréquence tombe rapidement et qu'à la fin on a un grand nombre de mots qui ont une fréquence très basse, ce qui donne la queue de la distribution. On peut représenter cette courbe de façon approximative au moyen d'une formule: si la fréquence du mot le plus fréquent est représenté par x, celle du deuxième mot en fréquence sera environ x/2, celle du troisième x/3, celle du quatrième x/4, et ainsi de suite.

Un grand nombre de phénomènes linguistiques semblent suivre la distribution de Zipf, y compris la fréquence des lettres et des phonèmes. En outre, on constate un certain nombre de corrélations entre le rang d'un mot (sa place dans la liste des fréquences) et d'autres caractéristiques. Ainsi, les mots les plus fréquents ont tendance à être plus courts et à posséder plus de sens. On retrouve également la plupart des formes irrégulières dans les hautes fréquences.

Le concept de mot

Dans la vie de tous les jours, nous avons tendance à parler de mots. Mais il est facile de montrer que ce concept manque de précision. Prenons, par exemple, les éléments suivants:

Selon le critère adopté pour délimiter les mots (espace, ponctuation, sens) le nombre de mots peut varier. Doit-on considérer table ronde comme un mot ou deux? Devant une phrase comme Nous avons acheté une table ronde pour la cuisine, on aurait tendance à parler de deux mots. Par contre, devant La table ronde a duré trois heures, on a plutôt tendance à parler d'un seul mot. Dans le cas de coupe, s'agit-il du nom ou du verbe? Et coupe du monde est un seul mot ou trois? Finalement, coupe-racines est un seul mot ou deux?

On voit donc qu'il faut bien spécifier le critère utilisé quand on parle de mots. Dans ce qui suit, nous utiliserons plutôt le terme unité lexicale pour désigner toutes les possibilités, et des termes plus spécifiques comme mot graphique pour spécifier chaque classe selon les critères utilisés.

Type et occurrences

Prenons la phrase suivante:

Le chat dort dans le lit.

Nous constatons que cette phrase contient deux fois la séquence le. Comment distinguer chaque fois que le apparaît du concept de le? En linguistique, nous distinguons le type, pour parler de la classe, et l'occurrence pour parler de chaque membre de la classe. On dirait ainsi que la phrase ci-dessus comprend le type le et deux occurrences de ce type.

Lemme et forme

Prenons maintenant une phrase plus complexe:

Ce chat dort dans son lit, mais les autres chats dormaient par terre.

Comment distinguer chat et chats? A-t-on un mot ou deux (ou pour être plus spécifique, un type ou deux)? Dans ce cas, on distingue le lemme CHAT, c'est-à-dire le mot abstrait, et les formes du lemme, chat et chats. De même, on constate que le lemme DORMIR se manifeste dans cette phrase sous deux formes distinctes, dort et dormaient. On aura noté qu'on utilise parfois les lettres majuscules pour représenter les lemmes et les lettres minuscules pour représenter les formes d'un lemme.

Lexique et vocabulaire

Il est possible d'envisager l'ensemble des unités lexicales en français dans une perspective très abstraite. On y mettrait tous les mots déjà attestés, et on pourrait même, à la limite, inclure les mots possibles. Cet ensemble possède un certain nombre de caractéristiques. Par exemple, on constate qu'on peut ajouter le préfixe re- à beacoup de verbes pour désigner le fait de répéter l'action du verbe. Par exemple, on a revoir, relire, revenir et ainsi de suite, et on peut imaginer d'autres formes comme reboire, reblesser, rechanter, etc. Cette classe abstraite d'unités lexicales dans une langue s'appelle le lexique. On ne peut pas observer le lexique directement en entier. On a plutôt accès à des échantillons du lexique.

En même temps, au cours de sa vie, chaque individu entend ou lit un certain nombre d'unités lexicales. Une sous-classe de ces unités lexicales est stockée dans sa tête. On parle alors du vocabulaire de l'individu. De façon analogue, l'ensemble des unités lexicales qui se trouvent dans un roman s'appellent le vocabulaire du roman, et par extension on peut parler du vocabulaire d'un auteur sur la base de l'ensemble des mots dans tous ses romans. Mais on notera une distinction entre ces deux situations. Dans le cas de l'auteur, on se trouve devant un groupe fermé de mots produits, tandis que dans le cas de l'individu, on est devant quelque chose de plus difficile à observer directement. En effet, le vocabulaire d'un individu peut être mesuré en partie par des tests de compréhension ou de production, mais il serait difficile de mesurer l'ensemble de son vocabulaire. En outre, il y a des mots qu'on comprend seulement en partie, ou seulement en contexte. D'ailleurs, la masse des mots dans la tête d'un individu change avec son contact avec de nouveaux mots, et avec l'oubli de mots plus anciens. Pour essayer de capter cette complexité, on distingue le vocabulaire actif (les mots effectivement produits) et le vocabulaire passif (les mots qu'on peut comprendre, sans nécessairement les utiliser.

Les parties du discours

Il suffit d'observer le vocabulaire d'un individu pendant quelques minutes pour constater que tous ses mots n'ont pas le même statut, et qu'il existe des différences basées sur le sens et sur l'emploi. Ainsi, certains mots désignent des objets ou des phénomènes conçus sans leur situation dans le temps. On parle alors de noms. En même temps, on constate que les noms se trouvent après d'autres mots comme le, la, les, mon, son, etc., qu'on appelle des déterminants. De même, d'autres mots désignent des phénomènes dans leur évolution temporelle, comme marcher, sauter, croire, etc. En même temps, on observe que les mots de la sorte possèdent, en français, certaines terminaisons, comme aient, eront, ent, etc. et qu'ils se trouvent après des pronoms comme je, tu, il, elle, etc. On désigne cette classe de mots comme des verbes.

Entre les différentes parties du discours, on peut observer quelques différences significatives. Certaines parties du discours appartiennent à une classe fermée, composée d'un petit nombre de membres. Ainsi, en français, il n'y a qu'une dizaine de pronoms personnels sujets (je, tu, il, elle, etc.) et on ne peut pas ajouter d'autres membres à cette liste. On parle aussi de mots outils. Par contre, il existe en français un grand nombre de noms, et on peut ajouter d'autres membres à la liste, par l'emprunt à d'autres langues ou par la création de mots nouveaux. On parle alors d'une classe ouverte et de mots pleins. Une des conséquences de cette distinction entre classe ouverte et classe fermée est que les membres de la classe fermée s'utilisent plus souvent que ceux de la classe ouverte. Cela se manifeste, entre autres choses, dans les listes de Zipf, où les déterminants ont tendance à se trouver vers le haut de la liste, et les noms plus bas.

Fréquence absolue et fréquence relative

Revenons brièvement à la notion de fréquence. Imaginons deux corpus, l'un composé de 1000 mots, l'autre de 100 mots. Supposons que la forme chat présente 50 occurrences dans les deux corpus. Que peut-on dire de cette fréquence absolue? Dans une perspective simpliste, on pourrait dire que les deux corpus sont équivalents en ce qui concerne la fréquence de chat. Mais cela laisse de côté la différence de taille entre les deux. Comment tenir compte de cela? Une solution consiste à représenter la fréquence de chat sous forme de pourcentage de toutes les occurrences dans chaque corpus. Ainsi, chat représente 5% du corpus de 1000 occurrences, mais 50% du corpus de 100 occurrences. Sa fréquence relative est nettement plus élevée dans le deuxième corpus.

Une autre façon de représenter la fréquence relative consiste à ramener chaque corpus étudié à une fréquence théorique plus élevée. Par exemple, pour ramener le corpus de 1000 mots à un million de mots, il faudrait le multiplier par 1000 (1000 fois 1000 = 1,000,000). Par contre, pour ramener le corpus de 100 mots à un million de mots, il faudrait le multiplier par 10,000 (100 fois 10,000 = 1,000,000). Pour calculer la fréquence relative d'une forme, dans chaque corpus, il suffit alors de le multiplier par le facteur de multiplication du corpus. Dans le cas du corpus de 1000 mots, la fréquence relative de chat par million d'occurrences sera alors 50 fois 1000 ou 50,000, tandis que sa fréquence relative par million de mots dans le corpus de 100 mots sera de 50 fois 10,000 ou 500,000.

Quelques secondes d'observation sont suffisantes pour se convaincre que les êtres humains n'ont pas d'accès direct à la fréquence absolue des unités lexicales. Par contre, plusieurs études ont démontré qu'ils ont une assez bonne capacité de comparer la fréquence relative de deux mots. Ainsi, si on vous demandait de comparer la fréquence de sur et de lentement, vous auriez tendance à choisir le premier comme le mot le plus fréquent des deux. Cette capacité se manifeste également devant une liste de mots.

L'information et le choix

Comme l'a montré le mathématicien Claude Shannon, la transmission de l'information repose sur le choix. Il faut au minimum une distinction entre deux possibilités. Pour prendre un cas simple, supposons deux personnes (A et B) qui essaient de trouver un ami (C) dont l'emplacement est connu de B seule. A et B arrivent à un croisé de chemins où il faut tourner à gauche ou à droite. A demande à B Dois-je tourner à gauche?. Tant que B ne répond pas, A ne sait pas s'il faut tourner ou pas. Par contre, une seule distinction (p.ex. entre oui et non) de la part de B suffit pour permettre à A de tourner ou pas. Cette seule distinction entre deux possibilités s'appelle un bit.

L'utilisation des mots du langage peut être représentée sous forme d'un ensemble de choix de la sorte. Prenons par exemple le début de mot suivant:

tri...

Devant cette séquence, on ne peut pas savoir comment le mot va se terminer: triangle, tricher, tricolore...? Par contre, si on ajoute une lettre:

tric...

la possibilité triangle est exclue. Et si on ajoute une autre lettre:

trich...

la possibilité tricolore est exclue.

Finalement, si on arrive à:

tricheus...

on sait que le mot est tricheuse, car le s exclut la seule autre possibilité: tricheur. C'est donc à la huitième lettre qu'on arrive à ce qu'on appelle le point d'unicité, où l'identité du mot est connue. D'autres mots ont un point d'unicité plus tôt, comme fjord, qui se distingue de tous les autres mots français dès la deuxième lettre, et d'autres plus tard.

Les collocations

Revenons à notre jeu de pile ou face. Nous avons vu que le fait d'avoir pile à un essai n'a aucun effet sur les chances d'avoir pile la fois suivante. On peut se demander si le langage fonctionne de la même façon. Le fait d'utiliser un mot donné, a-t-il un effet sur la probabilité du mot suivant? Un moment de réflexion suffit pour montrer que c'est bien le cas. Le choix d'un mot détermine une classe de possibilités pour le mot qui va suivre. Dans certains cas, cette classe peut être très étendue. Ainsi, après la, la classe comprend, au minimum, tous les adjectifs et noms féminins en français. Dans d'autres cas, le choix peut être petit, comme dans la séquence au fur et à..., où on sait que c'est mesure qui doit suivre. Les séquences de mots qui se suivent avec une certaine régularité s'appellent des collocations.

Au niveau des lettres, les séquences de deux lettres qui se suivent s'appelle un bigramme, de trois lettres un trigramme et ainsi de suite. Le site Lexique fournit une liste de bigrammes en français, dont voici la tête, où la première colonne représente le bigramme et la deuxième le nombre d'occurrences du bigramme par million d'occurrences dans le lexique.

es 24417
le 10779
en 25029
de 4040
nt 28872

En somme

On constate alors que le lexique, malgré ses dimensions énormes, est traversé de régularités, dont un certain nombre sont d'ordre quantitatif.


© 2014, Greg Lessard
Département d'Études françaises, Queen's University, Canada
Courriel: greg.lessard@queensu.ca
Notes sur la distribution