Le corpus de base


1. Intérêt et nécessité d'un corpus

Afin de corriger et d'analyser du mieux possible, Cordial doit :


Pour toutes ces raisons, il est nécessaire d'accumuler le plus grand nombre possible de textes, tout en essayant de conserver un équilibre entre les textes littéraires, les textes journalistiques, les textes techniques, et les autres textes. Pendant dix ans, le corpus utilisé était basé sur 2 600 ouvrages et un ensemble de textes journalistiques et de pages Web, le tout représentant environ 500 millions de mots (3 Go).


Ce corpus a fait l'objet d'un remaniement complet en 2006 et 2007. Le nombre d'ouvrages littéraires pris en compte est passé de 2 600 à 5 000, tandis qu'étaient ajoutés de nouveaux corpus, journalistiques, encyclopédiques, techniques, juridiques, pour un volume global de 7 364 082 568 caractères, soit 1,2 milliard de mots (très exactement 1 202 540 979 mots).


2. Répartition dans le temps du corpus

Globalement, le corpus est très récent puisque la répartition dans le temps des textes est la suivante :

avant 17001,63 %
1700-17991,71 %
1800-18999,82 %
1900-19907,75 %
1991-200779,09 %

Ce qui signifie que presque 4 textes sur 5 ont moins de 20 ans, ou encore que 7 textes sur 8 ont moins d'un siècle. Ces proportions sont à comparer à celles du corpus de l'ATILF par exemple (la base du TLF) dans laquelle plus de 90 % des textes ont plus d'un siècle… Pour des questions de copyright, les textes littéraires accessibles sur Internet sont également tout aussi vieux : 85 % des textes ont plus de 100 ans.

Les 5 000 ouvrages du corpus de Synapse Développement sont en moyenne plus vieux que l'ensemble du corpus puisque leur répartition est la suivante :

avant 17003,80 %
1700-17992,98 %
1800-18997,13 %
1900-199040,88 %
1991-200745,21 %

Ainsi, dans le corpus des 5 000 ouvrages, 45 % des textes ont moins de 20 ans et 85 % moins d'un siècle.

3. Répartition par genres du corpus

Ce corpus de 5 000 ouvrages est essentiellement littéraire mais pas uniquement puisqu'on y compte des ouvrages techniques ou juridiques. Voici la répartition par domaines des 5000 ouvrages :

ouvrages administratifs 2,41 %
ouvrages encyclopédiques 1,24 %
ouvrages journalistiques 0,41 %
ouvrages littéraires 76,69 %
ouvrages techniques 19,28 %

En dehors des ouvrages techniques, qui constituent tout de même près de 20% des ouvrages, les autres domaines sont très marginaux dans les 5 000 ouvrages mais ils sont loin de l'être dans le corpus global puisque, pour 1,2 milliard de mots, la répartition par domaines est la suivante :

>
textes administratifs 13,98 %
textes encyclopédiques 27,47 %
textes Internet 6,57 %
textes journalistiques 26,72 %
textes littéraires 18,98 %
textes techniques 6,29 %

Voici le détail des textes utilisés en dehors des 5 000 ouvrages (qui représentent 23,9 % du corpus total) :

Corpus administratif et juridique (14 %)

Corpus encyclopédique ( 27 %)

Corpus Internet (7 %)

Corpus journalistique (27 %)

Corpus littéraire (19 %)

Corpus technique (6 %)

4. Répartition géographique du corpus

La répartition du corpus par origine géographique est la suivante :

France 85,8 %
Canada (Hansard et ouvrages littéraires)9,1 %
Suisse (ADS et ouvrages)3,4 %
Belgique (codes et ouvrages)1,0 %
Afrique ( l'Essor et ouvrages)0,7 %

Sachant que la population francophone au Canda est évaluée à environ 7,5 millions (23 % de la population canadienne totale) tandis que la population française est de 64,1 millions, le rapport est de 8,55 (64,1/7.5) entre la population française et canadienne francophone pour un rapport de 10,6 (9,1/85.8) entre le corpus d'origine canadienne et le corpus d'origine française. Il apparaît donc que le corpus d'origine canadienne est un peu sur-représenté par rapport à la population francophone globale. C'est aussi le cas d'ailleurs du corpus suisse et, naturellement, du corpus français, les corpus belges et africain étant fortement sous-représentés, a fortiori les corpus antillais ou d'autres nations francophones qui sont en effectif si réduit que nous ne les avons pas pris en compte dans ce tableau, même si la liste des ouvrages indique que plusieurs écrivains antillais ou écrivant en français bien qu'issus de pays non francophones (comme Andrei Makine ou Émile Cioran) figurent dans le corpus littéraire.