FREN 215
Introduction à la linguistique


Module 7

Le lexique


Greg Lessard, Études françaises, Queen's University

Lexique et vocabulaire

Le lexique est l'ensemble théorique des unités lexicales d'une langue

Le vocabulaire est l'ensemble réel des unités lexicales d'un individu

Le lexique et le vocabulaire

lexique_vocabulaire

Les unités lexicales : combien de mots ?

Le nouveau pont devant remplacer le pont Champlain sera réalisé en partenariat public-privé (PPP), il aura un péage et comportera six voies pour la circulation automobile, un corridor pour un système léger sur rail ainsi qu'une piste pour les piétons et cyclistes. Ce sont là, en gros, les paramètres que devra respecter l'éventuel constructeur de l'infrastructure qui sera choisi au printemps de 2015 et qui devra livrer le pont aux automobilistes québécois pour 2018. En présentant le dossier d'affaires, mercredi à Montréal, le ministre fédéral de l'Infrastructure, Denis Lebel, a toutefois refusé de préciser le coût estimé de l'ouvrage, faisant valoir que cette information devait demeurer confidentielle pour ne pas influencer le processus de soumissions.

Source www.lapresse.ca

Le rôle fondamental des critères

  • le mot orthographique
  • le mot grammatical

Le type et les occurrences

Deux hommes parurent. L'un venait de la Bastille, l'autre du Jardin des Plantes. Le plus grand, vêtu de toile, marchait le chapeau en arrière, le gilet déboutonné et sa cravate à la main. Le plus petit, dont le corps disparaissait dans une redingote marron, baissait la tête sous une casquette à visière pointue. Quand ils furent arrivés au milieu du boulevard, ils s'assirent à la même minute, sur le même banc.

Source: Flaubert, Bouvard et Pécuchet; abu.cnam.fr

Le lemme et les formes du lemme

Comment s'étaient-ils rencontrés? Par hasard, comme tout le monde. Comment s'appelaient-ils? Que vous importe? D'où venaient-ils? Du lieu le plus prochain. Où allaient-ils? Est-ce que l'on sait où l'on va? Que disaient-ils? Le maître ne disait rien; et Jacques disait que son capitaine disait que tout ce qui nous arrive de bien et de mal ici-bas était écrit là-haut.

Source: Diderot, Jacques le fataliste; abu.cnam.fr

Le lexique attesté et le lexique potentiel

lexique_potentiel

Items lexicaux trouvés dans Le Monde (fin juin, 2005) non attestés dans le Trésor de la langue française (Véronis, 2005)‏

agroalimentaire altermondialiste angolais animateur-producteur anti-tabac assurance-maladie attentat-suicide audiovisuel auriverde auropunctata autos ayatollah biodiversité cannabis chiite cibler cogneuses communautariste communautarisée design deux-roues directeur-général djihad droitise druze due-coat e-mail euro euro-arabe euros festives fractale gays grenoblois hard haïtienne homophobie hurdler hutus indépendantiste indépendantistes intercommunautaires internautes internet irakien irakienne irakiennes irakiens islamiste islamistes isérois ivoirienne jamaïquaine kha-nyou largage mbj md mds micro-ondes moghols méga-banques neurodégénérative non-fumeurs pakistanais perf pixels porte-parole prosyrien provisionnement président-directeur pédophile pédophilie raveurs relutive rwandais rwandaises salaste saoudien saoudite sarkozystes soul supporteurs surfacturations surfacturé techno tek'noz teknival texantutsis téléchargement ultracompacts écologiquement écosystèmes

Une difficulté

On ne peut pas mesurer tout le lexique ou tout le vocabulaire

Un échantillon est une sélection établie selon des critères explicites

L'échantillonnage

echantillon

La question des fréquences

Une expérience :

  1. pile ou face
  2. 10 fois
  3. compter la série de p ou f
  4. calculer le total des p et des f

Les transitions

Quelle est la probabilité de :

  • p après f ?
  • f après p ?
  • p après p ?
  • f après f ?

Comparons avec la langue

Quelle est la probabilité de :

  • chien après le?
  • le après chien?
  • la après sur ?
  • sur après la?

Construire un générateur linguistique

  • six bouts de papier
  • les mots Pierre, regarde, le, chien, souvent, petit
  • cacher les mots
  • tirer en ordre
  • lire le résultat

Dans le corpus ARTFL (disponible sur le site de la bibliothèque)

artfl_patron_sur

Résultats de la recherche ARTFL de sur ...

artfl_sur

Prévoir les résultats pour

  • très
  • plaît

La fréquence par millions d'occurrences (basée sur lexique.org)

freq_1

Les mots les plus fréquents (rangs 1-40): caractéristiques ?

La fréquence par millions d'occurrences (basée sur lexique.org)

freq_2

Les mots de fréquence légèrement plus basse (rangs 501-520 et 2001-2020): caractéristiques ?

La fréquence par millions d'occurrences (basée sur lexique.org)

freq_3

Les mots de basse fréquence (rangs 50001-50020 et 100001-100020): caractéristiques ?