extrait de la section Linguistique et Statistique de l'Encyclopaedia Universalis version 3.0 sur CD-ROM.

Linguistique et Statistique

Historiquement, les premiers à avoir abordé les aspects quantitatifs du langage sont sans doute les cryptographes et les sténographes. Les cryptographes ont dû établir des tables de fréquences de lettres; et c'est au sténographe Baptiste Estoup que l'on doit les premières observations connues sur les fréquences relatives des mots dans un texte.

Ces observations, reprises et développées ultérieurement, en particulier par George K. Zipf, consistent en ceci: si l'on dresse une table de l'ensemble des mots différents d'un texte quelconque, classés par ordre de fréquences décroissantes, on constate que la fréquence d'un mot est inversement proportionnelle à son rang dans la liste, ou, autrement dit, que le produit de la fréquence de n'importe quel mot par son rang est constant: ce que traduit la formule f * r = C, où f est la fréquence et r le rang. Cette égalité, qui n'est vraie qu'en approximation, est indépendante des locuteurs, des types de textes et des langues. Il semble ainsi qu'il s'agisse véritablement d'un trait général des énoncés linguistiques. Cette constatation, dont le tableau ci-dessous donne un exemple, est souvent désignée sous le nom de loi de Zipf ; elle n'est pas isolée, mais n'est que la première de toute une série d'autres que l'on peut résumer ainsi:

- La fréquence relative des catégories grammaticales, bien que variant d'un individu ou d'un texte à l'autre, est stable. C'est ainsi qu'en français les mots outils (articles, pronoms, conjonctions, prépositions) représentent 50 p. 100 de n'importe quel texte, l'autre moitié étant constituée par les mots pleins (substantifs, verbes, adjectifs, adverbes). On peut noter que dans le dictionnaire cette proportion est tout autre, les mots outils ne représentant que 0,5 p. 100 du lexique total.

- La fréquence des mots d'une langue dans le discours est liée à leur structure phonique; en particulier, le nombre de phonèmes d'un mot dépend de son rang. On peut ainsi observer une tendance générale de toutes les langues, selon laquelle plus un mot est fréquent, plus il est court (c'est-à-dire moins son "coût de production" est élevé). Cela apparaît bien dans le phénomène général d'abrègement des mots longs dont la fréquence a tendance à augmenter dans le discours: tronquements ("cinématographe" devient "cinéma" et "ciné"), sigles (S.N.C.F., U.R.S.S.), auxquels on peut rattacher certains phénomènes de substitution ("contremaître" devient "singe", etc.).

[Retour]