... parce que l'erreur est humaine
Le dictionnaire de contextes de mots
Afin de fournir à l'utilisateur de Cordial une vision globale des associations entre les mots, nous avons créé un dictionnaire de combinaisons. Celui-ci a été élaboré à partir d'un ensemble d'ouvrages (5 000) et d'un très grand nombre d'autres sources (dépêches d'agences de presse, articles de journaux, pages Web, sites de discussion, blogs, encyclopédies, etc.)
Le "corpus" regroupant tous ces textes représente plus d'un milliard deux cent millions de mots, soit l'équivalent d'environ 20 000 ouvrages (soit, pour un lecteur, un livre par jour pendant 55 ans !). A partir de cet ensemble considérable (le plus grand ensemble de sources jamais utilisé en traitement automatique de la langue), nous avons élaboré notre dictionnaire de combinaisons de mots et un dictionnaire de contextes.
Ce dictionnaire de contextes comporte plus de 48 000 entrées, dont 15 800 mots composés (comme "abandon du projet" ou "ailier droit") et 32 200 mots simples. Ce sont les mots, simples ou composés, les plus souvent rencontrés dans les textes. Pour chacun de ces mots, le dictionnaire de contextes fournit quelques exemples de phrases dans lesquelles ce mot est utilisé. Nous privilégions l'utilisation du mot en position de sujet mais nous essayons de fournir des exemples correspondant au plus grand nombre possible de relations syntaxiques dans lesquelles ce mot a été trouvé (avec épithète ou non, en complément ou non, etc.)
Les exemples ont été extraits en priorité des 5 000 ouvrages, littéraires et techniques, qui constituent l'ossature de notre corpus (bien qu'ils constituent en volume moins du quart de ce corpus). Pour certains mots, en particulier techniques, il pourra cependant arriver que les exemples soient uniquement extraits de pages webs ou d'encyclopédies.




