Détecteur automatique de la langue

Ce composant permet de déterminer la langue utilisée dans un texte, même très court. Les langues prises en compte sont les principales langues occidentales : anglais, français, allemand, espagnol, italien, portugais, néerlandais, polonais. Si aucune de ces langues n'est reconnue, la librairie renvoie "autre langue".

Type d'utilisation

  • Tous logiciels traitant des textes dont la langue n'est pas a priori connue
  • Logiciels de traitement de texte, d'aide à la rédaction, de publication assistée par ordinateur
  • Logiciels d'apprentissage de langues
  • Logiciels de gestion de messagerie
  • Applications de recherche documentaire, de gestion bibliographique, pour lesquelles la détermination de la langue d'un document est importante pour l'utilisateur
  • Applications verticales dans lesquelles la détermination de la langue génère des traitements différenciés

Points forts

  • Détection algorithmique s'appuyant sur des données statistiques issues de gros corpus de textes dans les différentes langues reconnues
  • Plurilingualité possible (anglais, français, allemand, espagnol, italien, portugais, néerlandais, polonais)
  • Détection de langue sur des échantillons très réduits (succès à au moins 99% à partir de 23 caractères)
  • Extrême rapidité d'exécution : plus de 1 Mo de texte analysé par seconde sur Pentium 1 GHz
  • Fourniture d'une API et d'un programme de tests permettant de vérifier rapidement la conformité à cette API

Points forts

  • Détection des deux langues les plus probables
  • Pourcentage de probabilité statistique de chacune des deux langues les plus probables
  • Occupation mémoire d'environ 300 Ko pour le code.

Contact