• L'UMRS 872 équipe 20 de L'INSERM (Unité mixte de recherche en santé) est une équipe de recherche en ingénierie des connaissances en santé qui s'appuie sur les Sciences et Technologies de l'Information et de la Communication (STIC) pour développer des systèmes à base de connaissances et des réseaux de soins en médecine. Le projet de recherche proposé par l'équipe est centré sur la problématique de la représentation et de la manipulation de connaissances qualitatives en médecine, explicitées dans des ressources terminologiques telles que les thesaurus, des modèles d'indexation, etc. Ce projet s'appuie sur les méthodes d'acquisition de connaissances à partir de corpus de textes, les outils de modélisation du travail collaboratif, les approches qualitatives de la fouille de données (raisonnement terminologique), les langages de représentation des connaissances (logiques de description, langages de représentation d'ontologies) qui sont les méthodologies et technologies innovantes pour la gestion des connaissances en santé. Une orientation a été volontairement prise autour des méthodologies de développement d'ontologies (identification des concepts qui permettent de décrire les connaissances d'un domaine, organisation taxonomique de ces concepts, organisation des relations sémantiques qui existent entre ces concepts) et des ontologies ont dores et déjà été construites au sein de notre équipe en pathologie tumorale mammaire, en réanimation chirurgicale, en périnatalité, ou encore dans le domaine de la pharmacovigilance.

  • L'école Nationale Supérieure des Télécommunications (Télécom Paris) est l'une des écoles du Groupe des Ecoles des Télécommunications (GET). Principalement située à Paris, mais également à Toulouse et Sophia Antipolis, Télécom Paris est l'une des principales institutions d'enseignement supérieur et de recherche françaises dans le domaine des Sciences et Technologies de l'Information, riche de 140 Enseignants-Chercheurs, de 20 chercheurs CNRS, de 1200 étudiants et de 300 doctorants. Le département Traitement du Signal et des Images est l'un des groupes leaders de la recherche publique dans les domaines du traitement des images, en particulier appliquée à la télédétection. Dans ce domaine du traitement des images pour l'observation de la Terre, Télécom Paris a accumulé 25 années d'expérience et fait soutenir plus de 30 thèses. 6 enseignants chercheurs et 12 doctorants s'y consacrent actuellement à des recherches concernant aussi bien l'imagerie optique que l'imagerie radar. Ce département abrite depuis juin 2005 le CNES-DLR-ENST Competence Centre on Information Extraction and Image Understanding for Earth Observation, centre de recherche franco allemand établi avec le soutien des agences spatiales des deux pays. Ce Centre de Compétence sera un appui constant pour le projet DaFOE4App et les résultats du projet devraient trouver un vaste champ d'application dans les travaux du Centre.

  • Heudiasyc (HEUristique et DIAgnostic des SYstèmes Complexes), fondée en 1980 à l'université de Technologie de Compiègne est depuis 1981 une unité mixte de recherche du CNRS (UMR 6599) et de l'Université de Technologie de Compiègne. Heudiasyc comprend une centaine de permanents et 60 doctorants. Heudiasyc est rattachée au département STIC du CNRS et mène des recherches en automatique, robotique, analyse de données et ingénierie des connaissances. C'est l'équipe « Document et Connaissance », positionnée sur l'ingénierie des connaissances, qui participe à DAFOE4APP. L'équipe DoC comprend 10 permanents et 13 doctorants. Elle est impliquée dans des projets concernant les ontologies et l'ingénierie documentaire. Bruno Bachimont, qui est rattaché à Heudiasyc, a élaboré la méthodologie ARCHONTE pour élaborer les ontologies différentielles et a dirigé la réalisation de l'éditeur DOE. Il a également réalisé l'ontologie du projet MENELAS dans le domaine médical (coronarographies). Par ailleurs, le thème DoC a développé un axe de recherche concernant la conservation patrimoniale numérique. Impliqué dans le projet européen CASPAR (IST appel 2.5.10), membre du comité de pilotage de la section « patrimoine » du pôle de compétitivité « CapDigital », le thème DoC est également impliqué dans l'application patrimoniale et apporte sa compétence de modélisation documentaire.

  • Mondeca est un éditeur de logiciel, créé en 2000, spécialisé dans les solutions de gestion d'ontologies. Son logiciel ITM « Intelligent Topic Manager » est utilisé pour la gestion de terminologie, thésaurus, bases de connaissances, description d'un référentiel métier. Les solutions de Mondeca sont utilisées par les media, les éditeurs juridiques, l'industrie automobile, les média, l'industrie pharmaceutique, l'armée... Acteur d'un domaine en pleine évolution et maturation, le Web Sémantique et les Ontologies, Mondeca consacre une part importante de son activité à la Recherche et aux travaux de normalisation internationaux. Mondeca participe au groupe de travail W3C sur les ontologies (OWL) ainsi qu'aux travaux de normalisation de SKOS. L'équipe Mondeca, qui intègre 3 thésards, est impliquée dans plusieurs projets européens IST. Mondeca est très attentive à la qualité et la diversité de son équipe qui doit tout à la fois implémenter des solutions opérationnelles et participer directement à l'évolution des technologies sémantiques.

  • L'équipe Ingénierie des Connaissances, de la Cognition et de la Coopération (IC3) de l'IRIT étudie des méthodes et outils pour le développement de systèmes coopérant avec leurs utilisateurs. Un des problématiques de recherche concerne la construction d'ontologies et de ressources terminologiques à partir de textes à l'aide de logiciels de traitement automatique des langues et de méthodes linguistiques. Les approches retenues dans l'équipe font toutes l'hypothèse que la mise au point de modèles peut être facilitée par des traitements automatiques dont les résultats doivent être interprétés et normalisés par un individu garant de l'adéquation du modèle à l'utilisation qui en est prévue. Des collaborations de plusieurs années avec l'ERSS (laboratoire de linguistique toulousain) ont débouché sur la mise au point d'un logiciel d'extraction de relations sémantiques à l'aide de patrons syntaxico-sémantiques, CAMELEON, ainsi que sur l'évaluation d'un extracteur de termes SYNTEX. Caméléon permet de rechercher des traces de relations et de concepts dans des textes spécialisés, soit en réutilisant et en adaptant des marqueurs linguistiques de relations sémantiques générales, soit en définissant des marqueurs propres à un domaine. Des propositions méthodologiques ont été formulées pour conduire les étapes de la construction de structures terminologiques depuis le choix du corpus jusqu'à la validation formelle des connaissances. Les recherches actuelles visent à adapter ces propositions et à intégrer ces outils (et d'autres) en fonction du type d'application visé, dont l'annotation de documents scientifiques, l'annotation de pages web pour un meilleur référencement ou encore l'indexation pour la recherche d'information. Une question transverse étudiée dans ces différents cadres applicatifs est celle de l'évolution des modèles, de leur maintenance en fonction de l'évolution des connaissances et de la terminologie dans un domaine, de nouveaux documents à annoter ou de nouveaux besoins des utilisateurs. Enfin, des recherches complémentaires sont développées, celles-ci relatives aux structures textuelles, dans la mesure où la modélisation de connaissances à partir de textes peut tirer parti de telles structures, et de l'élucidation de leur impact sur la compréhension du contenu informationnel proprement dit.

  • Le Laboratoire d'Informatique de l'Université Paris-Nord (LIPN) est associé au CNRS depuis janvier 1992 et a le statut d'U.M.R. depuis janvier 2001. Sous la direction de Christophe Fouqueré, le LIPN poursuit des recherches en automatisation du raisonnement autour de ses axes forts, l'Optimisation Combinatoire, l'Informatique fondamentale et l'Intelligence Artificielle en s'appuyant sur les compétences de ses membres, en particulier en Algorithmique, Logique, Langage naturel, Diagnostic. Ces recherches sont effectuées dans quatre équipes par soixante chercheurs et enseignants-chercheurs permanents. Au sein de ce laboratoire, l'équipe « Représentation des Connaissances et Langage Naturel » (RCLN) est animée par Adeline Nazarenko. Elle compte 3 professeurs, 8 maîtres de conférence, un chercheur CNRS 1ère classe, 6 doctorants et 2 ingénieurs contractuels. Cette équipe réunit des compétences dans différents domaines du traitement automatique des langues et de la fouille de textes (terminologie, statistique textuelle, extraction d'information, analyse de corpus, analyse et désambiguïsation sémantique) ainsi que de l'ingénierie des connaissances textuelles (construction, fusion, alignement d'ontologies). Elle travaille également en collaboration avec l'équipe « Apprentissage artificiel et applications » (A3) qui compte différents spécialistes en apprentissage (méthodes symboliques, numériques et à base de réseaux de neurones). Les membres RCLN du LIPN (CNRS UMR7030), investis dans le projet, apportent des compétences en ingénierie linguistique et en ingénierie des connaissances et une expérience de réalisation d'un outil d'aide à la création d'ontologie à partir de textes : TERMINAE. L'outil met en oeuvre une méthode de construction d'ontologie élaborée au sein du groupe TIA et présentée dans plusieurs congrès internationaux. L'outil a été diffusé dans la communauté Ingénierie des Connaissances et est référencé dans OntoWeb parmi des éditeurs d'ontologies internationaux. Il a été utilisé dans plusieurs projets pour construire des ressources terminologiques et ontologiques à partir de textes. Cette expérience donne des idées précises sur les problèmes de réalisation de plateforme et les technologies à mettre en oeuvre pour faciliter l'utilisation et la diffusion d'une plateforme ouverte.

  • Le LISI (Laboratoire d'Informatique Scientifique et Industrielle) est un laboratoire reconnu depuis 1992 comme Equipe d'Accueil par le Ministère en charge de la Recherche (EA 1232). Il comprend 14 enseignants-chercheurs répartis entre l'Ecole Nationale Supérieure de Mécanique et d'Aérotechnique (ENSMA) et l'Université de Poitiers, dont 6 habilités à diriger des recherches. Il est situé dans les locaux de l'ENSMA, sur le site du Futuroscope. Depuis le début des années 1990, l'équipe ingénierie des données travaille sur la modélisation à base ontologique dans le domaine technique. Un modèle d'ontologie formelle développé dans le laboratoire à travers de nombreuses collaborations internationales (projet ESPRIT PLUS et CIREP, IST MERCI, Collaborations Toshiba Corp. et OTAN) a en particulier été normalisé à l'ISO (ISO 13584, PLIB). Les travaux actuels de l'équipe, qui comporte quatre permanents et sept doctorants, et qui s'appuie pour les activités de développement et de transfert sur une structure de CRITT (le CRCFAO), porte sur la gestion des données à base ontologique de grande taille (bases de données à base ontologique), les méthodes de conception d'ontologies, les techniques d'intégration de données hétérogènes, les échange B2B et les langages de requêtes. Le modèle de bases de données à base ontologique développé au LISI, OntoDB, permet d'optimiser la gestion des données d'instances et a été testé jusqu'à quelques millions d'instances. Les travaux actuels portent sur l'optimisation de représentation des ontologies et des requêtes mixtes, ontologies-instances.

  • Grande école d'ingénieurs française, SUPELEC est une des références majeures dans le domaine des sciences de l'information, de l'énergie et des systèmes. SUPELEC poursuit une triple mission de formation initiale, de formation continue et de recherche. Elle forme chaque année plus de 440 élèves ingénieurs et reçoit chaque année dans ses laboratoires (départements propres et laboratoires mixtes avec le CNRS) plus de 50 nouveaux doctorants. Le domaine de recherche de SUPELEC est celui des sciences de l'information et de l'énergie, qui recouvre six sous domaines scientifiques dont l'informatique et les réseaux. Le thème abordé par le Département Informatique de SUPELEC concerne les « Systèmes Hétérogènes » et se décline en deux sous thèmes, à savoir les systèmes enfouis et les systèmes d'informations. C'est ce dernier thème qui va contribuer à ce projet. Ce thème compte 6 enseignants-chercheurs et 8 doctorants, dont deux en co-tutelle. L'objectif du thème Systèmes d'Informations est de proposer des modèles et des méthodes capables de traiter l'hétérogénéité présente dans les systèmes d'information et capables de s'adapter aux besoins contextualisés des utilisateurs. Il apportera son savoir-faire dans le domaine de l'extraction automatique de concepts et relations à partir de sources de données textuelles ainsi que dans l'extraction de correspondances sémantiques entre différentes versions d'une ontologie de manière à gérer son évolution.