Présentation de la communauté Texte et Connaissance

La communauté Texte et Connaissance à l’INRA développe des méthodes et outils innovants de capitalisation et de modélisation de connaissances afin de permettre leur exploitation, leur analyse et leur traitement pour des applications à caractère scientifique et technique.

Les équipes de recherche mènent des travaux dans trois grandes directions interdépendantes. 

 

L’analyse textuelle

L’analyse textuelle a une fonction exploratoire, elle vise à partir de l’analyse statistique des éléments du texte, c’est-à-dire des mots, des termes (analyse lexicométrique) et des données bibliographiques comme les auteurs ou mots-clefs (analyse bibliométrique) à faire émerger des éléments d’interprétation, par exemple sous forme de cartes. Dans les domaines économique et sociologique, l’étude d’évolutions de communautés scientifiques, de processus d’innovation ou d’appropriation de nouveaux concepts sont des exemples significatifs. L’analyse textuelle s’applique en général à de larges collections de documents textuels, potentiellement hétérogènes. Les méthodes développées à l’INRA apprtiennent en particulier au clustering et l’analyse distributionnelle.

 

L’extraction de connaissances à partir de textes.

La littérature scientifique constitue en effet un gisement de connaissances scientifiques de grande valeur, mais largement inexploité parce qu’uniquement sous forme textuelle. La croissance très rapide du volume de publications à un niveau mondial rend impossible une veille scientifique systématique. Il est nécessaire de doter les chercheurs d’outils semi-automatiques pour sélectionner, extraire, interpréter et formaliser ces connaissances, qui seront ensuite confrontées avec des connaissances de sources et domaines étendus. Ce besoin est particulièrement critique dans des domaines transversaux où la diversité des connaissances en jeu rend difficile leur appréhension par le chercheur (ex. Intégration multi-échelle). Les méthodes développées relèvent :

  • de l’analyse linguistique à différents niveaux terminologique, syntaxique, sémantique et pragmatique ;
  • de l’apprentissage automatique et de l’analyse de données pour induire des connaissances à partir d’exemples et généraliser les méthodes.

Les objectifs à l’INRA sont plus particulièrement la construction d’ontologie (concepts et relations) à partir de texte (langue naturelle et tableaux).

 

La modélisation des connaissances

La modélisation de connaissance intègre les connaissances de sources hétérogènes, données expérimentales, dires d’expert ou bases de données curées. Les modèles sont descriptifs (par exemple, sous forme d’ontologie) ou dynamiques et visent à décrire, capitaliser, simuler et prédire à partir des connaissances existantes. Ils sont représentés dans des langages formels, par exemple ceux du Web Sémantique qui permettent le raisonnement automatique (déduction, validation, induction), l’interopérabilité avec d’autres modèles et l’interrogation ou la conversion vers d’autres représentations (bases de données).

Un ensemble diversifié de méthodes d’acquisition de connaissances contribue à la conception des modèles de connaissances. Leur nature et leur périmètre sont déterminés par les applications visées. L’INRA développe plus particulièrement l’acquisition de connaissances à partir de textes et de dires d’experts.

 

La visualisation de connaissances et plus généralement l’interaction homme-machine forment une dimension transversale de Texte & Connaissance. Elle est critique dans l’utilisation de ces méthodes ; par exemple, l’interprétation humaine, la qualification de la pertinence des connaissances et éventuellement leur révision, sont indissociables des trois ensembles de méthodes, analyse textuelle, extraction de connaissance et modélisation. L’INRA développe des interfaces élaborées pour chacun de ces champs méthodologiques.

Enfin, les principaux domaines d’applications des recherches finalisées menées à l’INRA dans ce domaine sont :

  • La recherche sur les risques, l'innovation, les communautés de savoir et les dynamiques de la connaissance ;
  • La transformation de la biomasse à des fins alimentaires et non-alimentaires ;
  • Le risque alimentaire ;
  • La transformation des agro-ressources alimentaires et non-alimentaires ;
  • La modélisation des systèmes vivants dans leur environnement (de la cellule à l’organisme) ;
  • Le développement d’outils en bioinformatique pour l’aide à l’analyse et l’interprétation des données génomiques à haut-débit.

 

Mots-clés

Analyse textuelle ; extraction d’information ; modélisation de connaissances ; ontologie ; terminologie ; acquisition de connaissances ; apprentissage automatique ; traitement automatique de la langue naturelle ;