... parce que l'erreur est humaine
Le corpus de base
1. Intérêt et nécessité d'un corpus
Afin de corriger et d'analyser du mieux possible, Cordial doit :
- déterminer le vocabulaire utilisé;
- déterminer la fréquence des mots et leur utilisation dans le temps;
- constituer des bases de données de fautes de grammaire et d'orthographe, afin de détecter et de corriger les fautes vraiment commises;
- fournir des éléments de comparaison à l'utilisateur lorsque son texte est analysé.
Pour toutes ces raisons, il est nécessaire d'accumuler le plus grand nombre possible de textes, tout en essayant de conserver un équilibre entre les textes littéraires, les textes journalistiques, les textes techniques, et les autres textes. Pendant dix ans, le corpus utilisé était basé sur 2 600 ouvrages et un ensemble de textes journalistiques et de pages Web, le tout représentant environ 500 millions de mots (3 Go).
Ce corpus a fait l'objet d'un remaniement complet en 2006 et 2007. Le nombre d'ouvrages littéraires pris en compte est passé de 2 600 à 5 000, tandis qu'étaient ajoutés de nouveaux corpus, journalistiques, encyclopédiques, techniques, juridiques, pour un volume global de 7 364 082 568 caractères, soit 1,2 milliard de mots (très exactement 1 202 540 979 mots).
2. Répartition dans le temps du corpus
Globalement, le corpus est très récent puisque la répartition dans le temps des textes est la suivante :
| avant 1700 | 1,63 % |
| 1700-1799 | 1,71 % |
| 1800-1899 | 9,82 % |
| 1900-1990 | 7,75 % |
| 1991-2007 | 79,09 % |
Ce qui signifie que presque 4 textes sur 5 ont moins de 20 ans, ou encore que 7 textes sur 8 ont moins d'un siècle. Ces proportions sont à comparer à celles du corpus de l'ATILF par exemple (la base du TLF) dans laquelle plus de 90 % des textes ont plus d'un siècle… Pour des questions de copyright, les textes littéraires accessibles sur Internet sont également tout aussi vieux : 85 % des textes ont plus de 100 ans.
Les 5 000 ouvrages du corpus de Synapse Développement sont en moyenne plus vieux que l'ensemble du corpus puisque leur répartition est la suivante :
| avant 1700 | 3,80 % |
| 1700-1799 | 2,98 % |
| 1800-1899 | 7,13 % |
| 1900-1990 | 40,88 % |
| 1991-2007 | 45,21 % |
Ainsi, dans le corpus des 5 000 ouvrages, 45 % des textes ont moins de 20 ans et 85 % moins d'un siècle.
3. Répartition par genres du corpus
Ce corpus de 5 000 ouvrages est essentiellement littéraire mais pas uniquement puisqu'on y compte des ouvrages techniques ou juridiques. Voici la répartition par domaines des 5000 ouvrages :
| ouvrages administratifs | 2,41 % |
| ouvrages encyclopédiques | 1,24 % |
| ouvrages journalistiques | 0,41 % |
| ouvrages littéraires | 76,69 % |
| ouvrages techniques | 19,28 % |
En dehors des ouvrages techniques, qui constituent tout de même près de 20% des ouvrages, les autres domaines sont très marginaux dans les 5 000 ouvrages mais ils sont loin de l'être dans le corpus global puisque, pour 1,2 milliard de mots, la répartition par domaines est la suivante :
| textes administratifs | >13,98 % |
| textes encyclopédiques | 27,47 % |
| textes Internet | 6,57 % |
| textes journalistiques | 26,72 % |
| textes littéraires | 18,98 % |
| textes techniques | 6,29 % |

Voici le détail des textes utilisés en dehors des 5 000 ouvrages (qui représentent 23,9 % du corpus total) :
Corpus administratif et juridique (14 %)
- codes juridiques, français et belges (4,1 % du corpus administratif)
- décrets et textes de lois français (3,4 % du corpus administratif)
- rapports du Sénat français (2,3 % du corpus administratif)
- compte-rendus du Sénat (21,6 % du corpus administratif)
- débats du Parlement européen (11,9 % du corpus administratif)
- débats du parlement canadien Hansard (56,7 % du corpus administratif)
Corpus encyclopédique ( 27 %)
- pages françaises de Wikipédia (500 000 pages pour 245 millions de mots, juin 2007)
- pages de l'Encyclopaedia Universalis
Corpus Internet (7 %)
- textes de sites commerciaux ou institutionnels (43 % du corpus Internet)
- textes de sites de discussion et de blogs (57 % du corpus Internet)
Corpus journalistique (27 %)
- dépêches de l'AFP (22,9 % du corpus journalistique)
- articles du Monde diplomatique (4,5 % du corpus journalistique)
- articles du Monde (58,1 % du corpus journalistique)
- dépêche de l'agence de presse suisse ADS (12,1 % du corpus journalistique)
- articles de l'Essor, journal malien (1,8 % du corpus journalistique)
Corpus littéraire (19 %)
- uniquement constitué d'ouvrages littéraires (80% des 5 000 ouvrages)
Corpus technique (6 %)
- environ 20 % des 5 000 ouvrages (68 % du corpus technique)
- corpus médical (23 % du corpus technique)
- corpus informatique, thèses et manuels (9 % du corpus technique)
4. Répartition géographique du corpus
La répartition du corpus par origine géographique est la suivante :
| France | 85,8 % |
| Canada (Hansard et ouvrages littéraires) | 9,1 % |
| Suisse (ADS et ouvrages) | 3,4 % |
| Belgique (codes et ouvrages) | 1,0 % |
| Afrique ( l'Essor et ouvrages) | 0,7 % |
Sachant que la population francophone au Canda est évaluée à environ 7,5 millions (23 % de la population canadienne totale) tandis que la population française est de 64,1 millions, le rapport est de 8,55 (64,1/7.5) entre la population française et canadienne francophone pour un rapport de 10,6 (9,1/85.8) entre le corpus d'origine canadienne et le corpus d'origine française. Il apparaît donc que le corpus d'origine canadienne est un peu sur-représenté par rapport à la population francophone globale. C'est aussi le cas d'ailleurs du corpus suisse et, naturellement, du corpus français, les corpus belges et africain étant fortement sous-représentés, a fortiori les corpus antillais ou d'autres nations francophones qui sont en effectif si réduit que nous ne les avons pas pris en compte dans ce tableau, même si la liste des ouvrages indique que plusieurs écrivains antillais ou écrivant en français bien qu'issus de pays non francophones (comme Andrei Makine ou Émile Cioran) figurent dans le corpus littéraire.


