S'abonner :  Newsletters    Magazines
[ INDEXATION ]
L'Apec revalorise ses offres d'emploi
Depuis le début de l'année, l'Apec améliore la qualité des informations décrivant les offres grâce à leur indexation « intelligente ». A terme, la recherche d'emploi en ligne devrait en bénéficier.

Patrick Brebion , 01 Informatique (n° 1829), le 30/09/2005 à 07h00

Vous êtes ingénieur informatique spécialisé en décisionnel. Vous recherchez un poste. Le site d'emploi doit être capable de retourner une offre comportant les mots « Business Objects » et « consultant » . Jusqu'ici, l'interface de recherche du site de l'Agence pour l'emploi des cadres (Apec) n'identifiait que les annonces correspondant strictement aux critères demandés. Pour ramener davantage de résultats sans perdre en pertinence, un classement plus souple des annonces et CV dans de multiples catégories s'imposait. Une tâche impossible à effectuer manuellement. En effet, l'Apec reçoit plusieurs milliers d'offres par mois, et davantage encore de CV.

Le choix d'un outil de recherche plein texte a été écarté. Facile à mettre en oeuvre et économique en ressources, il se révélait trop rudimentaire. Il ne recherchait que les mots demandés, sans interpréter la question. Afin de gagner en exhaustivité sans perdre en pertinence, la solution pour l'Apec passait donc par l'indexation des documents. L'agence décide ainsi, il y a trois ans, d'ajouter une couche intelligente et automatisée dans le traitement des données textuelles internes et d'une partie du web. Dominique Jaquet, DSI de l'Apec, est convaincu de l'intérêt des outils de traitement automatique de la langue (TAL). « Outre améliorer les résultats de recherche, utiliser les TAL aide à mesurer la qualité des documents. » Le projet global a été découpé en plusieurs briques. « Nous avons décidé de commencer par le premier flux de données entrant, à savoir les offres » , ajoute-t-il.

Un moteur sémantique

Sobrement baptisée qualité des offres, cette brique a fait l'objet d'une première sélection de fournisseurs en 2003. Le cahier des charges initial prévoyait de répondre aux requêtes formulées en langage naturel. Se détachent alors Autonomy, Témis et Lingway. Les deux derniers, s'appuyant sur une technologie sémantique ­ statistique pour Autonomy ­, sont retenus pour leur capacité à répondre aux questions en langage naturel. Les liens privilégiés entre le DSI et Lingway (*) ­ il a déjà travaillé avec cet éditeur ­ ont fait la différence.

La même année, une maquette est réalisée à partir d'un échantillon d'annonces. Le moteur d'indexation se fonde à la fois sur des statistiques, liées à la fréquence d'apparition des mots et expressions dans un texte, et sur la comparaison des mots avec le dictionnaire de 150 000 concepts fourni par l'éditeur. Avant d'affecter un sens à un mot, qui en possède trois en moyenne dans la langue française, le moteur mixe statistiques et proximité avec d'autres mots dans l'arborescence du dictionnaire. Organisé sous forme d'une structure arborescente, ce dernier associe des synonymes à des concepts et leur donne un poids en fonction du niveau de proximité. « La présence, dans la même annonce, des mots " système d'information " et " environnement " attribue à " environnement " un sens technique, et non pas écologique » , explique le DSI.

A partir de l'analyse de chaque document, l'application a déjà ajouté quelques milliers de mots clés ou expressions au dictionnaire. Ces descripteurs équivalent à des synonymes porteurs de sens. A ce jour, un linguiste continue de valider l'ajout définitif dans le dictionnaire métier de l'Apec.

Pas de dérapage dans la cohérence des résultats

Parallèlement, l'application attribue un score à chaque annonce pour en mesurer la qualité. Cette note est calculée en fonction de plusieurs facteurs : présence de mentions interdites (nationalité...) ­ ou indispensables (rémunération...) ­ et d'informations sur l'entreprise (le profil du poste...). En fonction du score, l'offre est publiée ou repart chez l'émetteur pour un complément d'information. Parmi les douze critères repérés par l'application dans un texte, certains demeurent difficiles à interpréter. « " Rattaché au DG, le chef des ventes... " affecte bien le critère hiérarchique, explique Olivier Guilhaume, directeur marketing de l'Apec. Tandis que " le DG recherche son chef des ventes... " n'est pas reconnu comme tel. » Pour valider l'application, une comparaison a été établie entre les résultats générés par Lingway et ceux des quatre consultants qui, jusque-là, procédaient par échantillonnage à la validation du classement des annonces. Effectué à l'aveugle, le contrôle n'a pas relevé de différence entre le travail manuel et celui de l'application, qui passera donc en production en fin 2004. Le moteur Lingway, installé sur un serveur Windows dédié, reçoit le détail de l'annonce, et en profite pour ajouter des « variantes » (synonymes) au dictionnaire. Il transmet ensuite l'information à la base de données. Il s'interface d'ailleurs avec le moteur d'indexation statistique ­ en l'occurrence, Oracle Text­, et ne prend en charge que la partie sémantique.

Après six mois d'utilisation, Dominique Jaquet se montre satisfait : « Nous effectuons ponctuellement un contrôle de cohérence entre les résultats donnés par l'application et ceux d'un expert. Sans avoir repéré de dérapages. » L'application travaille de façon homogène sur toutes les annonces, et non plus sur un échantillon. « En six mois de production, nous avons déjà divisé par deux le nombre d'annonces rejetées » , se réjouit le DSI. Et son collègue au marketing de préciser : « Sur les critères les plus difficiles à évaluer, la pertinence est passée de 40 à 70 % depuis le début, et devrait encore s'améliorer. Mais un taux de 100 % est illusoire. » L'outil ne mesure pas la qualité littéraire d'un texte...

(*) Lingway a reçu le prix 2005 de la jeune entreprise high-tech Oséo/ 01 Informatique .

Le moteur de recherche intervient sur trois domaines

1. L'analyse des offres

L'indexation identifie et analyse tous les mots et expressions porteurs de sens (matérialisés par un jeu de couleurs dans la capture d'écran). Cette opération transforme ainsi un texte en une suite de champs, qui sont ensuite reliés aux concepts du dictionnaire.

2. La mesure de la qualité

L'analyse du texte de l'offre s'opère par évaluation de douze critères, comme le niveau de précision sur le rattachement hiérarchique du poste. Ce traitement automatique aboutit à une note globale de l'annonce, qui conditionne sa publication ou son renvoi pour complément d'informations.

3. L'enrichissement du dictionnaire

L'ajout de variantes ­ par exemple, « génie décisionnel » ­ sert à relier dans le dictionnaire cette expression à « environnement décisionnel » . Ce qui contribue à faire remonter davantage d'offres répondant aux requêtes des demandeurs d'emploi. Et donc à simplifier la recherche d'emploi.


L'agence pour l'emploi des cadres (APEC)

Statut : association de type loi 1901 gérée par le Medef et six syndicats.

Activité : conseil en recrutement (25 000 entreprises et 400 000 cadres utilisateurs en 2004).

Implantation : 45 agences en France.

Effectif : 870 salariés, dont 640 consultants. La DSI compte 60 personnes.

Le projet

Objectif : réduire le nombre d'offres d'emploi mal formulées et améliorer la pertinence des recherches.

Durée : neuf mois. En production depuis début 2005.

Coût : 80 000 euros (divisés à parts égales entre la licence et le développement).


Dominique Jaquet (Apec) : « bâtir un portail et des services de push d'informations personnalisés »

« La qualité des offres constitue seulement la première pierre de la relation personnalisée en ligne que nous mettons progressivement en place avec nos interlocuteurs, cadres ou entreprises. L'indexation des CV, en cours de réalisation, servira à incorporer et à indexer dans notre base les documents bureautiques envoyés par les cadres. Outre le gain de temps, la première maquette montre que les informations contenues dans ces fichiers sont plus riches que celles saisies dans le formulaire en ligne actuel. Mais nous ne recherchons pas seulement une meilleure adéquation entre les profils et les offres. Dès l'an prochain, le portail et les services de push d'e-mails seront personnalisés en fonction non seulement d'attentes explicites, comme la recherche d'un profil, mais aussi implicites grâce à l'analyse des CV. »


Les autres projets

En cours ou à venir, les programmes portent sur le traitement de la langue.

Simulateur de marché

Sert à des jeunes diplômés à identifier des secteurs ou entreprises recrutant leur profil à partir d'une analyse sémantique de l'historique des offres. On découvre, entre autres, que des SSII sont susceptibles d'embaucher des ingénieurs en mécanique des fluides. En production.

Intégration directe des CV dans un format bureautique

En cours de développement. Prévue pour mars 2006.

Recherche des offres en langage naturel

Repose sur l'indexation sémantique des documents. Prévue pour 2006.

Personnalisation du site

Push généré à partir de recherches effectuées sur une partie du web, la documentation de l'Apec, et l'hebdomadaire Courrier cadre. Recherches définies à partir d'un enrichissement des thèmes d'intérêt déclarés du cadre et de l'analyse des documents le concernant. Prévue pour 2006.



>Jeu de course :
Need For Speed Shift
créé par des pilotes pour des pilotes !

publicité
> Logiciel :
TuneUp Utilities
Optimise votre système d'exploitation.

classement FAI
Retrouvez chaque semaine le classement des fournisseurs d'accès avec ip-label 1 Bouygues Telecom 2 Free 3 Orange > Plus de détails
offres d'emploi
TOP Telechargement
Retrouvez 300 logiciels indispensables pour équiper votre PC.

Service 01net
Newsletters 01net
abonnez vous gratuitement !
  
01Informatique
01 INFORMATIQUE
L'hebdo de référence des décideurs informatiques.
Micro Hebdo
MICRO HEBDO
L'hebdo qui vous simplifie la micro
et Internet.
L'Ordinateur Individuel
L'ORDINATEUR INDIVIDUEL
Le mensuel informatique qui vous informe et vous conseille.
Tous droits réservés © 1999 - 2009 Internext - 01net.