Actualités
|
![]() |
Emploi
|
![]() |
Start-up
|
![]() |
Evénements 01 | ![]() |
Avis d'expert | ![]() |
Vidéos | ![]() |
Indicateurs
|
![]() |
Distribution
|
![]() |
Telecharger Pro
|
![]() |
Livres blancs | ||||||||||||||||||||||||












Antidot, Exalead, Go Albert, Organic Information Solutions (OIS)… Quatre éditeurs français présents à Coria 2007. Cette quatrième conférence sur la recherche d'informations se tenait fin mars à Saint-Etienne. Une table ronde réunissant chercheurs, universitaires, et éditeurs a mis en évidence que les avancées des outils de recherche répondent à trois types de besoins bien identifiés. Le premier est le ciblage, qui vise à réduire le nombre de documents potentiellement pertinents - et donc de proposer en tête de classement les quelques réponses dont le taux de rappel approche les 100 %. Le deuxième besoin est lié à la prise en compte de la terminologie spécifique d'un domaine. Il s'agit de construire des index structurés à partir de l'analyse syntaxique et sémantique des documents. C'est l'appel à l'ontologie, ensemble organisé de concepts représentés par des graphes en vue de modéliser un domaine de connaissance. La troisième piste abordée répond au besoin de personnalisation. Le but, ici, est de développer des modes d'interaction efficaces pour aider les utilisateurs à communiquer au système un maximum d'information sur leurs attentes. Ces systèmes de recherche d'information incorporent des méthodes d'apprentissage, qui les dotent de fortes capacités d'adaptabilité, allant jusqu'à l'automatisation.
Proposer des documents rangés sur des étagères et non empilés les uns sur les autres, tout en conservant la facilité d'utilisation des moteurs de recherche grand public. C'est actuellement la solution One:Enterprise d'Exalead, mise sur le marché en début d'année, qui relève le mieux ce défi. A chaque requête, elle renvoie la liste des termes et des catégories associées. “ Cet outil de recherche d'entreprise offre la même simplicité d'utilisation qu'un moteur web classique, dit François Bourdoncle, président et cofondateur d'Exalead. Dans cette interaction entre les systèmes et les utilisateurs, nous mettons l'accent sur les processus cognitifs. ” Une quête à long terme, qui justifie à elle seule l'embauche de thésards et la participation aux programmes de recherche européens. Go Albert suit la même démarche de partenariat universitaire - en particulier dans le domaine de la modélisation des connaissances (création d'ontologies combinées au sein de carte). “ La première génération d'outils faisait appel à la modélisation des connaissances, explique Eric Fourboul, directeur général produits et développement de Go Albert. Aujourd'hui, nos logiciels de visualisation s'orientent vers l'exploration. Nous nous intéressons à l'interaction d'un utilisateur non expert avec les outils d'intelligence économique, et au textmining sans outil préformaté. ” Son produit, AMI Entreprise Intelligence, se compose d'une suite logicielle, qui couvre l'ensemble des besoins spécifiques d'un projet d'intelligence économique ou de capitalisation des connaissances. Observer, collecter, alerter, valider, analyser… La personnalisation s'effectue par conception modulaire, avec des connecteurs autoapprenants qui se paramètrent au fil de l'eau. Reposant sur une technologie brevetée dite de signature de documents, AMI distingue dans un texte l'essentiel de l'accessoire.
“ A partir du moment où on centralise les traitements, les index et les moteurs doivent gérer la complexité en un seul endroit, dit Fabrice Lacroix, président d'Antidot. Ce qui conduit à faire des mauvais choix, peu pertinents, et non pérennes. ” Chaque information, chaque source de données dispose de ses propres spécifications. Il est donc important de placer les agents au plus près possible de la source. Ensemble logiciel spécialisé sur une source, chacun d'eux peut fonctionner de façon autonome. “ Pour le web, les algorithmes de l'agent seront centrés sur la complexité liée à l'analyse des liens. Si l'on travaille sur les flux RSS, ces algorithmes seront différents. Et différents encore pour le courriel et les catalogues électroniques, qui, dans certains champs, utilisent des sémantiques particulières. ” Récupération des données d'une part, transversalité (rapprochement des données) de l'autre : en découpant chaque fonction d'un moteur de recherche, c'est cette approche en termes d'agents qui autorise l'agilité. “ Si l'on adopte une vision industrielle sur quinze ans, on constatera que l'approche vieillotte d'éditeurs comme Autonomy aura du mal à résister à Fast, par exemple. La complexité grandissante de l'information a rendu leurs produits très lourds. ”
Infocodex, le moteur de recherche d'Organic Information Solutions (OIS), génère des métadonnées des documents qu'il parcourt. “ La fonction de base de notre logiciel consiste à aller lire des documents non structurés ”, dit Philippe Salle, gérant d'OIS. Courriel, sites web, répertoire des fichiers d'entreprise, Microsoft Office… Les documents peuvent être lus dans cinq langues différentes (français, anglais, allemand, italien, et espagnol). Il retrouve les principales idées ou thèmes des documents. Et classe ces derniers à la volée en constituant une bibliothèque que l'on peut visualiser. Le logiciel utilise pour cela la linguistique, la statistique, et les réseaux neuronaux autoapprenants.
Pour Philippe Mulhem, c'est en effet sur cette interaction entre les systèmes et les utilisateurs qu'il est urgent d'avancer. “ Il faut s'orienter vers davantage de transparence du processus de recherche. Aujourd'hui, on pose une requête, et l'on attend la réponse. Cela n'a pas changé depuis quarante ans. ” L'idée ? Rendre le processus de recherche plus transparent afin de poser des requêtes sans en avoir l'air. Mais, en même temps, ne pas se retrouver submergé par un flot de réponses plus ou moins inadaptées à la requête. Pour Philippe Mulhem, l'idéal serait de fournir au système un document exemple, et de le laisser ensuite se débrouiller seul.
a.muller@01informatique.presse.fr
Issus ou non de la recherche universitaire, ces petits éditeurs français se positionnent sur l'un de ses domaines d'excellence, à la frontière du web sémantique et de l'intelligence artificielle.
Création : 2000.
Effectif : 70 personnes.
CA 2006 : environ 5 M d'euros.
PDG : François Bourdoncle.
L'idée : plate-forme technologique unique pour le poste de travail, l'entreprise, ou le web.
Création : 1999.
Effectif : 14 personnes.
CA 2006 : 850 000 euros.
PDG : Fabrice Lacroix.
L'idée : solutions de recherche d'information pour les entreprises.
Création : 1999.
Effectif : 15 personnes.
CA en 2006 : 1,1 M d'euros.
PDG : Alain Beauvieux.
L'idée : logiciels pour capitaliser et valoriser les informations non structurées.
Création : 2005
Effectif : 3 personnes.
CA 2005 : moins de 50 000 euros, peu de projets finalisés.
PDG : Philippe Salle.
L'idée : créer une start up spécialiste du traitement de l'information non structurée.
Le chantre du sémantique a rejoint le groupe Thales après avoir failli être repris par des investisseurs canadiens.
Créée en 2001, la société Lingway décline son moteur sémantique dans quatre grands domaines, dont le recrutement. Elle emploie 25 personnes et réalise un chiffre d'affaires de 1,6 million d'euros.
A la suite du rachat d'une partie de Triplehop par Oracle en juin 2005, la structure européenne s'est rebaptisée Polyspot. Son moteur est référencé depuis peu par Gartner.
Sous l'impulsion de l'ancien fondateur d'Anisem, l'activité de Sinequa est repartie à la hausse. Le moteur de recherche réalise aujourd'hui un chiffre d'affaires de 4 millions d'euros et vise les 100 % de croissance. Il emploie 35 personnes.
Financé par l'Agence nationale de la recherche (ANR), le projet Eiffel consiste à mettre en œuvre une plate-forme de collecte, d'analyse, de consolidation, de classement, et de mise en relation d'informations dans le domaine du tourisme. Il recourt à différentes technologies : web sémantique, linguistique, et intelligence artificielle. Le web sémantique, sur lequel travaille Antidot dans le cadre de ce projet, pose des problèmes de vocabulaire commun et d'ontologie. L'idée est de concevoir les balises qui permettront au moteur de se repérer.
Pour un restaurant, la notion d'heure d'ouverture, notamment, est très porteuse de sens. Mais pour automatiser une recherche d'information, la machine doit comprendre le sens de ces horaires, et les rattacher à des règles. L'objectif est donc de réaliser un moteur d'inférence intelligent, auquel des règles d'usage seront ensuite appliquées. Et, à terme, de disposer d'une plate-forme technique de moteur de recherche sémantique, utilisable dans d'autres secteurs d'activité.
Le travail d'un chercheur n'est pas le même que celui d'un développeur. Les rythmes diffèrent, les objectifs ne sont pas les mêmes, et il n'existe pas de fonds commun de recherche. Ces trois raisons expliquent, selon Philippe Mulhem, pourquoi les partenariats entre chercheurs et industriels ne réussissent pas toujours. Le développement d'un agent s'effectue en quelques semaines, tandis qu'une recherche dure trois ans - le temps d'une thèse de doctorat. Le travail scientifique se fonde sur l'état de l'art. “ Il faut rendre compte de ce qui a été fait ailleurs, dans les autres laboratoires académiques et dans les autres universités, car c'est en comparant nos travaux que nous faisons avancer les connaissances. ” Et surtout : “ Dans les laboratoires, nous n'explorons que des domaines très étroits. Nous ne produisons pas d'outils qui se greffent tout de suite sur une application. ” Or, c'est souvent cela que les industriels attendent des chercheurs…
















