Catégoriser des documents électroniques, tel est le besoin commun de Total et de l'Apec. Le groupe pétrolier cherche à industrialiser le classement d'articles dans le cadre de son activité de veille économique. Le tri, auparavant effectué à la main, porte sur un volume quotidien de cinq cents documents, fournis par Factiva et Lexis-Nexis.
L'agence pour l'emploi des cadres, quant à elle, a recours à la classification pour aider les doctorants à orienter leurs recherches d'emploi, en caractérisant le type de compétences qu'attendent les entreprises. Les deux organismes ont toutefois retenu des technologies différentes. Chez Total, la classification repose sur une solution de textmining autoapprenante. L'Apec, elle, a misé sur la richesse d'un thésaurus, dont le paramétrage s'étale sur le long terme.
Adapter la cartouche de veille, conçue pour un autre métier
« Nous ne voulions pas d'une solution exigeant la conception de dictionnaires spécifiques » , se souvient Anne Bonnet Ligeon, responsable du département conseil et coordination technique de la division « veille information et archive » de Total. En production depuis le début d'année, la plate-forme de textmining de Temis repose sur un plan de classement spécifique à l'univers de la veille économique. Et pour remplir les différentes catégories, le logiciel applique des règles d'extraction fondées sur la reconnaissance de concepts clés : acquisition, fusion de sociétés, privatisation... Pour ce faire, il détermine le genre grammatical de chaque mot, identifie des noms propres, et repère, par une analyse morphosyntaxique, des structures de phrases types. L'article passé au crible est ensuite classé dans l'une des thématiques prédéfinies. Les substrats sont extraits et associés sous forme d'index. Ceux-ci sont conservés, alors que, passé une semaine, l'article est effacé.
Pour en arriver là, il a cependant fallu adapter le logiciel de Temis au monde de l'industrie pétrolière. Sa cartouche de veille avait, en effet, été développée pour les besoins des banques. « Trois catégories ont ainsi été rajoutées, précise Anne Bonnet Ligeon. Elles concernent les infrastructures, les champs pétroliers, et les valeurs de mesures dans le cadre d'échanges de volumes. » Des articles types ont été soumis aux équipes de Temis pour déceler de nouvelles règles d'extraction. Ce travail de paramétrage a nécessité moins d'un mois. L'investissement humain de Total a été minime. Et il le restera, en dépit d'un contexte concurrentiel très changeant.
Grâce à la composante d'autoapprentissage du logiciel, le nom des nouvelles sociétés est repéré par un jeu de déduction, puis catégorisé dans Temis sans la moindre intervention. Ce projet de textmining, aujourd'hui réservé aux responsables de la veille économique, intéresse d'autres entités à la recherche d'un outil pour classifier leurs documents.
L'Apec, en revanche, a opté pour un logiciel plus gourmand en paramétrage. L'environnement n'est pas le même : les volumes s'avèrent plus importants et, surtout, les thèmes plus variés. Le corpus est constitué de toutes les annonces publiées depuis deux ans, qui ciblent les doctorants. Soit au total cent trente mille, aujourd'hui périmées. Baptisé Simulateur de marché, le système de classification a été déployé au sein de l'Université technologique de Compiègne pour aider ses thésards à identifier le type de mission correspondant à leurs compétences extrêmement pointues. Le processus requiert deux étapes. D'abord, il faut remonter les annonces en phase avec le profil du demandeur d'emploi par le biais d'une requête en langage naturel - une fonction assurée par le moteur sémantique de Lingway, déployé pour l'occasion. Ensuite, il s'agit de classer, le temps de la recherche, les annonces récoltées selon le type de mission exigée. L'outil de Lingway les range selon les verbes et les formules types dans les catégories préétablies par l'Apec : organiser, former, produire, etc.
Éviter les aberrations dues à la polysémie
La pertinence des résultats obtenus est conditionnée, en grande partie, par la richesse du thésaurus associé au moteur. « L'outil de Lingway maîtrisait le monde juridique, moins celui de l'emploi » , précise Michel Rannou, responsable des relations partenaires à l'Apec, en charge du projet. L'agence a fourni à l'éditeur les nomenclatures des différentes fonctions et familles de fonctions référencées à l'Apec. « Pour éviter les aberrations dues, par exemple, aux termes polysémiques, il fallait également préciser les familles de fonctions qui se rejettent et celles qui s'attirent. » Un an après le déploiement du moteur, ces paramétrages demandent encore à être affinés. Il convient de tisser des liens entre des termes spécifiques et de créer des règles sur les fréquences de proximité.
Sur la partie recherche d'annonces, le taux d'erreur est estimé à environ 20 %. Essentiellement en raison du bruit (annonces remontées à tort) et du silence (annonces oubliées). C'est un progrès par rapport à l'ancien moteur plein texte classique. Ce ratio baissera, certes, mais lentement, puisque les modifications restent manuelles et dépendantes de la disponibilité des consultants de Lingway. Quant au classement des annonces dans les catégories de l'Apec, il met en oeuvre des procédés plus simples que la recherche des annonces. Seuls quelques réglages ont dû être effectués, portant sur la polysémie des verbes. Pour un résultat fiable, approchant les 100 %. D'ici à quelques semaines, l'Apec proposera ce simulateur de marché à ses autres partenaires - écoles et universités.
![]() |
Activité :
pétrole et gaz.
![]()
Nombre de salariés :
110 000 (niveau groupe).
![]()
Chiffre d'affaires 2003 :
105 M d'euros.
![]()
Localisation :
siège à Paris-la Défense.
![]()
Technologie testée :
logiciel de textmining de Temis, Insight Discoverer Extracror, associé à la cartouche de veille économique.
![]()
Prix :
moins de 100 000 euros, intégration et maintenance comprises.
![]() |
Mobilité
HTC Touch HD. Le rival de l'iPhone. Comparez les prix !
|
|
![]() |
Photos
720 corps nus pour sauver la feuille de vigne.
|
|
1 Orange
2 Free
3 Bouygues Telecom
> Plus de détails

![]() |
> Jeu en ligne :
Titan Poker Une des salles les plus populaires d'Europe...
|
|
