Sécurisez vos écrits avec Cordial

À propos de la correction grammaticale française et des correcteurs informatiques

La Correction grammaticale française

La langue est l'outil de communication par excellence. Pour nous comprendre, nous utilisons un vocabulaire unique, plus ou moins large selon les locuteurs, et nous construisons nos phrases selon une logique identique, selon une syntaxe. Ne pas respecter la syntaxe ou l'orthographe, c'est courir le risque d'être mal compris, de ne pas être lu ou écouté. Nul ne rédige un texte, qu'il s'agisse d'une note de service, d'un courrier, d'un article de journal ou d'un essai littéraire, sans respecter du mieux possible les règles de la grammaire.

Un correcteur grammatical constitue donc un outil de base pour tout utilisateur de traitement de texte. Antithèse du gadget, la correction constitue l'une des fonctions capitales de ce type de logiciel, renvoyant définitivement aux oubliettes la machine à écrire. Car chacun, en écrivant, commet inéluctablement des fautes d'inattention, même s'il maîtrise parfaitement toutes les subtilités de la langue, et les correcteurs d'épreuves savent comme certaines de ces erreurs sont difficiles à déceler.

Si l'intérêt des correcteurs grammaticaux est incontesté, certains estiment que cette catégorie de logiciels risque de favoriser l'ignorance en laissant au processeur le soin d'appliquer les règles de grammaire, de même que la calculatrice serait supposée freiner ou tuer le calcul mental. Pourtant le correcteur, lorsqu'il explique la correction et lorsqu'il fournit une aide détaillée sur la règle appliquée, devient un outil d'apprentissage de la langue et de perfectionnement, pour autant que l'utilisateur se donne la peine de lire les messages et l'aide !

Le correcteur grammatical est sans doute le logiciel avec lequel l'utilisateur a le plus de rapports "passionnels". Utilisant généralement les techniques de développement les plus innovantes, il peut être considéré comme le logiciel grand public appartenant le plus au vaste domaine de l'intelligence artificielle. L'étendue infinie des énoncés possibles, l'ambiguïté de nombreux mots français (un sur trois en moyenne), le nombre tout aussi infini des erreurs possibles dans les énoncés, font que la correction ne peut s'effectuer selon une algorithmique classique et se doit d'emprunter à la logique floue et à la théorie des modèles mentaux, en réalisant l'association de véritables moteurs d'expertises.

Si le correcteur n'a que l'intelligence de ses concepteurs avec le handicap d'une binarisation de cette intelligence, il est souvent perçu par l'utilisateur comme un être à part entière, comme l'ordinateur personnalisé (certains auteurs de correcteurs ont d'ailleurs abondé dans ce sens en faisant "s'exprimer" leur logiciel à la première personne !) Il devient alors objet de fascination et de répulsion, ses performances devenant justificatrices de l'utilisation ou de l'achat du micro-ordinateur, ses incohérences ou ses méconnaissances devenant des preuves de la supériorité de l'homme sur la machine... Comme si l'homme devait se prouver sa supériorité par la connaissance de règles !

Ces réactions épidermiques l'emportent parfois sur l'analyse objective des correcteurs et donnent une coloration folklorique à ce domaine logiciel de pointe, au confluent de la linguistique et de l'informatique. Auteurs de CORDIAL, développeurs et linguistes, nous avons consacré plusieurs années à étudier les fautes courantes (en regroupant ainsi un corpus de plus de 40 000) et à produire le premier correcteur et analyseur global de la langue française. Il nous a paru intéressant, au-delà du logiciel lui-même, de fournir les conclusions auxquelles nous sommes parvenus.

Fautes d'orthographe, fautes de grammaire et fautes de sens

La distinction entre fautes d'orthographe et fautes de grammaire n'est pas exactement similaire pour un linguiste et un informaticien. Pour ce dernier, une faute d'orthographe correspond à un mot inconnu des dictionnaires, elle est du ressort des vérificateurs orthographiques, alors qu'une faute de grammaire correspond à un mot figurant dans un des dictionnaires mais ne devant pas être écrit ainsi dans ce contexte grammatical. Ainsi :

  • "les chevals piaffent" contient une faute d'orthographe, mais
  • "le chevaux piaffent" contient une faute "de grammaire", ou plus exactement une faute qui ne peut être corrigée par un vérificateur orthographique.
  • "les chevaux rient" contient une faute de sens, les chevaux pouvant hennir de plaisir mais le rire restant le propre de l'homme.

Pour le grammairien, la première phrase comporte une erreur de compétence (ignorance probable de la formation du pluriel de "cheval") alors que la seconde phrase comporte une erreur de performance (faute d'inattention, oubli de lettre). Quant à la faute de sens, elle est liée au contexte car on peut imaginer des acteurs jouant le rôle de chevaux et s'esclaffant...

Après dépouillement d'un corpus de plus de 40 000 fautes commises essentiellement par des adultes de niveau scolaire secondaire ou supérieur, souvent lors d'écriture de premier jet, nous avons recensé environ 60 % de fautes "d'orthographe" et 40 % de fautes de syntaxe, le nombre de fautes de sens étant infime. Parmi les fautes d'orthographe, certaines sont très fréquentes et correspondent à une méconnaissance probable de l'écriture de certains mots, la plupart semblent cependant être des fautes de frappe et d'inattention. Les principaux types d'erreurs sont les suivants :

    lettre manquante......................... 26 % 
    lettre remplacée par une autre........... 38 % 
    lettre superflue......................... 17 % 
    interversion de lettres.................. 6 % 
    soudure de mots.......................... 5 % 
    autres erreurs........................... 10 %


Ces statistiques s'appliquent aussi aux erreurs dites de grammaire, c'est-à-dire aux mots morphologiquement justes mais syntaxiquement erronés pour autant qu'il ne s'agit pas d'erreurs de compétence, par exemple d'utilisations d'homophones.

La notion même de faute mérite réflexion. Si l'oubli d'un "s" sur un pluriel ou un mauvais accord verbal ne souffre guère discussion, doit-on réclamer un indicatif ou un subjonctif dans une proposition débutant par "après que" ? L'Académie et les puristes réclament l'indicatif, mais l'usage lui préfère depuis longtemps le subjonctif et une phrase comme "après qu'il est allé à l'usine" paraît suspecte à nombre de nos contemporains. Même la règle bien connue qui préfère "je suis allé chez le boucher" à "je suis allé au boucher" n'a pas de fondement linguistique indiscutable. Après tout on ne saurait confondre "je suis allé chez les flics" et "je suis allé aux flics", qui ont deux valeurs sémantiques distinctes et la préposition "chez" induit une familiarité non présente dans "au", à tel point que si vous me dites être allé "chez le boucher", je suis en droit de me demander si vous êtes allé dans sa boutique ou à son domicile.

Afin de satisfaire les puristes comme le français moyen, une double stratégie nous semble nécessaire : les messages doivent donner, autant qu'il est possible, une évaluation du degré de nécessité de la règle appliquée ; par ailleurs un paramétrage pluri-optionnel à échelle variable doit permettre de définir les types de règles à prendre en compte et leur degré de prise en compte. Enfin pour chaque règle et autant qu'il est possible, les exceptions doivent être traitées afin d'éviter de fournir un message d'erreur à propos d'une formulation juste ou pouvant être tolérée.

La correction des fautes suppose que la fonction grammaticale de chacun des mots de la phrase ait pu être déterminée afin qu'en appliquant l'ensemble des règles d'accord on puisse mettre en valeur et corriger ces erreurs. Évidence... mais pas facile à réaliser ! L'ensemble des règles de syntaxe n'a jamais été formalisé en français (ni sans doute pour aucune langue) et il suffit de parcourir quelques ouvrages de linguistique pour constater que la langue est vivante, mouvante et fort diverse. Certaines formes syntaxiques comme les substantifs épithètes connaissent un développement récent tout à fait exceptionnel, spécialement dans le monde de la publicité (des talons aiguille aux tickets choc, en passant par la femme femme, le plombier-zingueur et le dépôt-vente...)

Le développement d'un correcteur de la langue française achoppe sur ce dilemme : soit on se limite aux constructions régulières, auquel cas on peut corriger bon nombre de fautes mais en forçant l'utilisateur à accepter ce moule (ainsi certains correcteurs demandent à l'utilisateur d'éviter telle ou telle structure, par exemple les substantifs épithètes), soit l'on tente de décrire et de prendre en compte la totalité des structurations possibles de la langue, mais l'on risque alors de générer une multitude de solutions parasites pour la phrase la plus banale (ainsi pourquoi ne pas accepter "des enfants sort une chanson" où "des enfants" serait un complément d'objet et où le sujet serait "une chanson", comme dans "des enfants vient une chanson" ?).

Fournir le minimum de messages inadéquats pour un maximum de messages adéquats est l'objectif que nous nous sommes fixé. À l'utilisateur de juger du résultat ! Mais en sachant que l'accroissement des performances se traduit par un accroissement de la complexité parfois exponentiel. C'est la loi de l'explosion combinatoire, ô combien d'actualité dans la correction syntaxique. Ainsi CORDIAL identifiera "par" comme un nom commun masculin singulier dans la phrase "ce joueur de golf est à dix sous le par" car le dictionnaire différencie la préposition "par" du nom. Les autres correcteurs ont fait l'impasse sur le nom, ce qui ne leur permet pas d'analyser correctement la phrase mais ce qui leur permet, a contrario, d'éviter de désambiguïser le mot "par" chaque fois qu'il figure dans une phrase... À un autre niveau, si l'on suit les grammairiens, le verbe "être" devrait quasiment toujours avoir un attribut, mais si l'on ne gère pas les exceptions, la phrase "je pense, donc je suis" ne pourra être acceptée.

La taille de l'univers sémantique, l'étendue des règles et des exceptions gérées, la multiplicité des types de fautes possibles, la prise en compte du langage populaire comme du langage soutenu, des belgicismes ou des helvétismes comme des anglicismes, tous ces facteurs contribuent à accroître le volume des bases lexicales et syntaxiques nécessaires et le volume du logiciel de traitement, surtout lorsque l'objectif est de corriger aussi bien les fautes d'inattention du journaliste ou du chercheur que les fautes de construction de l'enfant ou de l'étranger, voire les dysorthographies patentes.

Les correcteurs orthographiques et grammaticaux

Les correcteurs grammaticaux sont de piètres correcteurs orthographiques, moins performants en tout cas que les vérificateurs intégrés dans les traitements de texte, ceci étant sans doute dû à l'insuffisance de leurs bases lexicales. Les vérificateurs orthographiques français sont relativement satisfaisants, c'est-à-dire qu'ils sont capables de reconnaître un mot qui ne figure pas dans leurs dictionnaires et de proposer un ou plusieurs mots de substitution avec une assez bonne approximation. Ils sont pourtant très perfectibles. En effet : 

  • Leurs bases lexicales sont insuffisantes. Beaucoup de mots figurant dans un dictionnaire courant comme le Larousse ou le Robert leur sont inconnus. Ainsi pour ne prendre que la première page de la lettre "C" du petit Larousse, la plupart des vérificateurs orthographiques ignorent "caatinga", "cabasset" et "cabèche". Plus étonnant, les mots "paramétrage", "développeur", "fonctionnalités" ou "stylistiques" n'ont pas droit de cité pour ces vérificateurs. Les mots grossiers ont souvent été censurés, ce qui est tout bonnement effarant. Les noms propres y sont rares, les abréviations aussi. Ainsi "Larousse" ou "Mitterrand" sont inconnus des vérificateurs usuels qui proposent "larrons" et "miterai". Cela est d'autant plus sidérant que l'oubli d'un "t" et surtout d'un "r" à "Mitterrand" est très fréquent, même dans de grands quotidiens !
  • Les mots composés et expressions, surtout lorsqu'il n'y a pas réunion par un trait d'union, sont peu ou mal traités. La plupart des vérificateurs accepteront "la vache a deux corn" car l'expression "pop corn" est traitée en deux mots distincts. Ils accepteront aussi "c'est un à priori" au lieu de "c'est un a priori" ou encore une phrase comme "le modus est vraiment vivendi". A contrario ils ne sauront quoi vous proposer si vous écrivez "un hot-dog" ou "à qui mieux-mieux" car le trait d'union superflu n'appartient visiblement pas aux domaines d'erreurs traités.
  • En cas de mot inconnu, les propositions de mots sont souvent trop nombreuses, d'autant que le mot est court. Ces propositions sont parfois faites dans l'ordre alphabétique ou même par longueur de mot et, si une analyse relative permet à ces vérificateurs de faire figurer le mot juste parmi les propositions, il figure encore trop souvent en deuxième ou troisième position. Lorsque la faute se situe en début de mot, les propositions sont souvent incohérentes quand il y en a. Ainsi sur le mot "himuable" et malgré leur module de phonétisation, les vérificateurs ne trouvent pas le mot juste.
  • Le traitement phonétique prime sur les probabilités d'erreur. Notre corpus d'erreurs nous a montré que les reproductions phonétiques de mot sont rares, sauf chez l'enfant. Il serait préférable de mettre l'accent sur les erreurs fréquentes comme les interversions de lettres ou les ajouts et oublis d'espaces.

Ces vérificateurs, malgré leurs insuffisances, rendent toutefois des services et ont été adoptés par la plupart des utilisateurs de traitements de texte. Il n'en va pas de même des vérificateurs grammaticaux. Nos enquêtes auprès des utilisateurs nous laissent à penser que moins d'un tiers des habitués du traitement de texte utilisent le correcteur grammatical intégré ou un correcteur externe. Cette désaffection semble avoir différentes causes :

  • Ignorance de l'existence du correcteur grammatical. La pagination très réduite réservée aux correcteurs dans les manuels de traitement de texte est peut-être en cause, à moins que ce soit l'intégration encore récente de ces outils qui en soit responsable. Quoi qu'il en soit une fraction non négligeable des utilisateurs ne savent même pas qu'ils possèdent un correcteur grammatical.
  • Méfiance instinctive fréquemment associée à la haute idée que l'utilisateur se fait de son orthographe et de l'attention qu'il porte à son texte. Pourquoi effectuer une vérification grammaticale quand on ne fait quasiment pas de fautes ? Cette attitude trouve d'ailleurs une justification dans le nombre assez élevé de messages erronés ou inadéquats fournis par les correcteurs, en proportion d’autant plus grande que le texte d’origine est sans fautes. Dans ce cas, l’utilisation du correcteur devient très fastidieuse et l’on pourrait presque dire que meilleure est l’orthographe, plus les fausses erreurs sont proportionnellement fréquentes et moins le correcteur est utilisé. Mais cette méfiance est partagée par les utilisateurs commettant de nombreuses fautes. Ceux-ci, souvent peu sûrs de leur orthographe, s’aperçoivent en effet, à l’occasion d’une relecture par un tiers ou d’une vérification dans un manuel de grammaire, que le correcteur leur a fait ajouter une faute dans le texte.
  • Lourdeur d'utilisation. Ce reproche s'applique surtout aux correcteurs externes dont l'utilisation à partir d'un traitement de texte est souvent complexe, faute de macros d'appel ou par insuffisance de formats d'importation et d'exportation. À cela s'ajoute, pour certains correcteurs, une lenteur d'analyse évidente, vécue comme insupportable par nombre d'utilisateurs.
  • Manque d'ergonomie et de convivialité. La plupart des correcteurs disposent d'une aide très réduite, souvent de simples messages de commentaires d'erreurs en termes parfois abscons. Des fonctions aussi habituelles que le couper-coller, l'édition du texte courant ou le multi fenêtrage sont encore rares dans les correcteurs, lesquels disposent d'une interface fruste.
  • Insuffisance des bases lexicales. Les critiques que l'on peut faire aux vérificateurs orthographiques s'appliquent plus encore aux correcteurs grammaticaux. L'étroitesse des dictionnaires de noms propres y est encore plus grande et les propositions parfois surréalistes.

Ces critiques portent sur les correcteurs actuellement commercialisés et ne tiennent compte que de leurs caractéristiques. On pourrait ajouter que l'absence d'un paramétrage et le nombre très restreint de fonctions connexes à la correction (tous fournissent un conjugueur mais un logiciel seulement fournit des statistiques, un autre fournissant une analyse grammaticale) constituent également des insuffisances.
Pour reprendre les propres termes de l'un des utilisateurs interrogés, "tout se passe comme si les programmeurs des correcteurs, tout heureux du nombre de fautes corrigées par leur produit, avaient oublié qu'un logiciel doit aussi être facile à utiliser, disposer d'une aide complète et des fonctions couramment disponibles sur d'autres logiciels". Mais au-delà de ces critiques d'humeur, ce sont les reproches faits au processus de correction lui-même qui ont le plus de poids, d'autant que nos tests comparatifs en apportent la confirmation :
Sur un ensemble de 1000 phrases comportant une erreur par phrase et issues, sans tri préalable, de textes non relus et non corrigés de journalistes de "Libération", les correcteurs trouvent entre 37 % et 67 % des fautes (à titre indicatif CORDIAL en détecte 81 %). Ces résultats pèchent d’ailleurs par excès car nous avons considéré une erreur signalée comme corrigée même si le correcteur proposait plusieurs possibilités de correction. Par ailleurs sur des ouvrages "classiques" comme "Huis clos" ou "L’étranger", ces correcteurs fournissent entre 1 et 10 faux messages d’erreurs par page.
Cette médiocrité des corrections et cet afflux de messages inadéquats sont souvent ressentis comme insupportables par l’utilisateur, lequel attend toujours un correcteur puissant et convivial, même lorsque faute de mieux il utilise les logiciels existants.
Au-delà des fonctionnalités et des performances comparées, un test comparatif des correcteurs grammaticaux devrait, à notre sens, prendre en compte l'ensemble des messages d'erreurs fournis, vrais ou faux, et porter sur du texte "tout-venant" issu si possible de plusieurs scripteurs. Ainsi, en acceptant par exemple l'ensemble des propositions de corrections sur ces textes, il suffirait de compter au final le nombre de fautes (non corrigées ou ajoutées par le correcteur) pour obtenir une évaluation réaliste des performances de chacun des correcteurs.

Contactez-nous

Par email ou par téléphone au 05.61.63.03.74