... parce que l'erreur est humaine
Fréquence d'utilisation des mots
L'option "Statistiques et sémantique" du menu "Sémantique" de notre correcteur et analyseur CORDIAL propose plusieurs mesures de fréquence d'utilisation des mots du texte (mesures pouvant être comparées à celles de 5 000 ouvrages), à savoir :
- pourcentage de mots appartenant au "Dictionnaire fondamental" de Georges Gougenheim. Ce dictionnaire, conçu en 1958, repris ici de la nouvelle édition de 1993, liste les 3 500 mots les plus courants de la langue française et correspond au vocabulaire de base de la langue française selon son auteur.
- pourcentage de mots appartenant à "L'Échelle Dubois-Buyse" de François Ters, Georges Mayer et Daniel Reichenbach. Cette échelle répartit 3 724 mots courants sur 43 niveaux, de l'échelon 1 ("maison", "papa", "porte", "rue") à l'échelon 43 ("dahlia", "bâiller"). Cette échelle mesure l'acquis en matière d'orthographe d'usage. Elle ne mesure donc pas la fréquence d'utilisation à proprement parler, même si les mots les mieux orthographiés sont aussi souvent les plus courants (mais certains mots assez courants, bien que non présents dans l'échelle Dubois-Buyse, comme "innombrable" ou "gouttière" sont aussi très mal orthographiés puisqu'une thèse récente montrait que seuls 4% et 6% des élèves de CM2 savaient écrire correctement ces deux mots !)
- pourcentage de mots appartenant au vocabulaire de base. Il s'agit ici de la proportion de mots, ou de sens de mots, pour lesquels nous avons relevé une fréquence d'occurrence élevée dans notre corpus de textes. Ce corpus, constitué de 2 600 ouvrages essentiellement littéraires, de plusieurs années du journal Le Monde, de dépêches de l'AFP, de textes issus des sites Internet et de forums de discussion, représente plus de 500 millions de mots (> 3 Go). On compte environ 6 000 mots ou sens de mots dans notre vocabulaire de base. Leur fréquence dans notre corpus est au moins égale à 1 occurrence sur 100 000. Cette proportion peut sembler faible mais, à titre d'exemple, des mots aussi "courants" que les mots "abîme", "aboyer" (qui figure pourtant dans le dictionnaire fondamental de Gougenheim) ou encore "abricot" figurent moins d'une fois sur cent mille mots dans notre corpus...
- pourcentage de mots rares. Ces mots, souvent techniques, ou ces sens de mots, ont une fréquence très faible dans notre corpus, c'est-à-dire inférieure à 1 occurrence pour 20 millions. Signalons ici que plus de la moitié des entrées de notre dictionnaire de noms communs figurent dans cette catégorie des mots rares ! pourcentage de mots appartenant au vocabulaire usuel. Il s'agit simplement ici des mots qui n'appartiennent pas au vocabulaire de base et qui ne sont pas rares, c'est-à-dire qui ont une fréquence moyenne ou basse. En gros ces mots sont normalement connus d'un lecteur français même de niveau scolaire moyen.
- fréquence du mot et diachronie. Depuis Cordial 2008, vous pouvez obtenir la fréquence des 48 000 mots les plus fréquents dans la fenêtre des combinaisons de mots. Cette fréquence fait référence au corpus de base de Synapse, qui regroupe 5 000 ouvrages et de très nombreuses pages Web et articles de presse, pour un total de 1,2 milliard de mots. Dans la même fenêtre, en bas à droite, vous pouvez par ailleurs visualiser la fréquence du mot dans le temps, entre les textes d'avant 1800, ceux du 19e siècle, ceux de 1900 à 1990 et ceux postérieurs à 1990, ainsi que sur les textes non littéraires. Vous constaterez par exemple que des mots aussi courants que "homme", "cœur" ou "âme" sont en fait de moins en moins employés !
Pour les deux ouvrages de comparaison, seuls les sens courants des mots de ces vocabulaires sont pris en compte. Ainsi le dictionnaire fondamental de Gougenheim et l'échelle Dubois-Buyse prennent en compte le verbe "assembler" que Gougenheim définit comme "mettre ensemble", donc le sens du verbe se rapportant à l'opération d'assemblage en informatique ne sera pas comptabilisé comme appartenant à ces listes, après désambiguïsation par notre analyseur.
Références bibliographiques :
- Dictionnaire fondamental, de Georges Gougenheim, éditions Didier, Paris, 1993.
- L'Échelle Dubois-Buyse, de François Ters, Georges Mayer et Daniel Reichenbach, éditions MDI, Paris, 6e édition, 1988
- Vocabulaire orthographique de base, de François Ters, Georges Mayer et Daniel Reichenbach, éditions OCDL, Paris, 4e édition, 1977.



