logiciels pilotes / drivers mobiles et PDA jeux logos et sonneries cartes virtuelles bandes annonces

Abonnez-vous aux flux RSS
BitDefender IS 2008
Protégez efficacement votre ordinateur familial pendant 2 ans.
Téléchargement
Tout savoir sur le SP3 de Windows XP
FORUMS
NEWSLETTERS
CHAT
MON ESPACE PRODUIT
EMPLOI ET FORMATIONS
TELECHARGEMENT PILOTES
         01net    Web
La recherche en entreprise se professionnalise Patrick Brébion [ MOTEUR ]
La recherche en entreprise se professionnalise
Devenus plus aboutis, les moteurs de recherche constituent désormais une brique essentielle des portails Internet, des intranets et des sites d'e-commerce.

Patrick Brébion , Décision Informatique (n° 690), le 30/10/2006 à 07h00

« J'ai besoin du document en allemand qui prouve que nous avons contrôlé le niveau d'activité de notre sous-traitant basé en Chine. » Répondre à une telle requête devient plus aisé grâce aux innovations des moteurs de recherche. Certains sont désormais capables d'interpréter et de traduire une requête dans une langue étrangère, de parcourir les index de la langue cible et de rapatrier les données ad hoc. Ainsi, l'utilisateur peut poser des questions dans une langue et trouver des documents pertinents dans une autre. Dans bien d'autres domaines, les moteurs ont récemment enrichi leur couverture fonctionnelle. Ils peuvent, par exemple, supprimer les redondances, classer les réponses en fonction de l'organisation de l'entreprise, ouvrir de nouvelles pistes de recherche avec des restrictions par périodes, types de fichiers, etc.

À ce jour, le domaine des moteurs de recherche professionnels reste pourtant un marché de niche. « Le chiffre d'affaires d'un éditeur spécialisé dépasse rarement les trois millions d'euros à ce jour », confirme Alain Garnier, président de l'Apil, une association qui regroupe des éditeurs. Mais ce marché est en mutation. « Les appels d'offres de portails ou d'intranets comportent de plus en plus souvent des applications de recherche. Les budgets qui y sont consacrés s'échelonnent de 25 000 à 250 000 euros », ajoute Alain Garnier.

Une tendance également confirmée par Fabien Tavernier, PDG d'Hemisphere, une SSII partenaire de Fast, éditeur du moteur de recherche du même nom : « La nouvelle génération de moteurs réduit le nombre de clics pour accéder aux données sur un intranet, et facilite la transformation de visiteurs en acheteurs sur des sites marchands. Les projets de commerce en ligne comportent désormais une brique pour la recherche. » Autre signe de maturité du marché, les acquisitions démarrent. Dernière en date, l'éditeur Lingway vient d'acheter e-manation, une société spécialisée dans l'analyse automatique des CV, une déclinaison métier des technologies de recherche et d'indexation.

Utilisation : rationaliser les recherches

Créée par Nicole Notat, Vigeo est une agence de notation qui cherche à évaluer les pratiques sociales et environnementales des entreprises. Pour ce faire, les sites Web des multinationales, des syndicats et de quelques ONG et organisations internationales, comme l'OIT pour le travail, sont des sources de données importantes pour réaliser la cinquantaine de rapports d'analyse de dix à vingt pages produits tous les mois. Utilisés à l'origine par les analystes, « les moteurs grand public, Google en particulier, se sont révélés inadaptés à notre métier. Pas de fonction d'alerte, difficulté à qualifier les sources, à partager l'information, doublons, etc. », constate Meryam Maizi, ingénieur documentaliste.

En outre, Vigeo a besoin d'être alertée très rapidement sur tout événement touchant l'environnement ou le social. Au quotidien, quelque vingt-cinq analystes lancent des recherches à partir de l'application métier. Cette dernière prend en charge la réalisation des rapports et facilite le workflow pour leur validation. Basée sur Autonomy, l'application de recherche indexe plus de cinquante sites institutionnels, de multinationales et de syndicats. « Un chiffre qui devrait monter rapidement à quatre-vingts », ajoute Arnaud Jésupret.

Spécialisée dans la collecte et l'analyse de la presse, la société Press Index recense un nombre beaucoup plus important de sources. Elle reçoit chaque jour pour la seule presse quotidienne régionale 400 éditions produites par les vingt-cinq éditeurs majeurs nationaux dans des flux XML. Et ce, sans compter plus de 3 000 titres papier pour la presse nationale et spécialisée et environ autant de sites Web d'informations. « Pour trier et analyser ces articles sur un sujet donné, la notion de mots-clés est insuffisante, constate Dominique Fournier, directeur marketing et communication. Regrouper tous les articles portant sur le même sujet et créer automatiquement des résumés pertinents implique l'utilisation d'un outil capable de comprendre le sens d'un texte. » Pour ce faire, Press Index a lancé, début 2006, le projet MAP, moteur d'analyse de la pertinence, basé conjointement sur les logiciels de Temis et de Mondeca. Actuellement en phase de prototype, ce logiciel facilite le regroupement d'articles par thèmes.

Motivation différente pour la banque d'affaires Espirito Santo et de la Vénétie. « Notre métier nécessite de travailler avec des quantités considérables de documents », rappelle Fabrice Bouland, responsable informatique de la banque. Pour gérer ces documents, ce dernier avait commencé par demander un audit destiné à choisir une solution de gestion de contenu. L'audit a conclu à l'inutilité d'un tel outil, car la plupart des documents ne servent qu'une seule fois, lors de la demande d'un prêt bancaire. En revanche, l'audit a mis en exergue l'intérêt d'un moteur de recherche. « Nous créons à peu près 100 000 documents par an. Ces documents sont stockés dans des arborescences sur un serveur de fichiers. Trouver un document peut demander du temps », analyse Fabrice Bouland. En dehors de la DSI, les services Organisation et Financements structurés, le département dédié au montage de prêts complexes et internationaux, utilisent le moteur. « Ces utilisations justifient largement le coût de la licence de 10 000 euros », assure Fabrice Bouland.

La mise en oeuvre : connecter les moteurs d'indexation

Fast a été choisi pour l'intranet de la branche Power Service d'Alstom, spécialisée dans les services à la production d'énergie (maintenance des turbines électriques, etc.). Ce choix découle d'une raison simple. Basé sur BroadVision, le portail utilise déjà ce moteur pour indexer ses pages HTML. « Nous avons ajouté et mis en production au printemps le module File Traverser de Fast pour indexer les autres fichiers bureautiques, PDF et HTML », rappelle Dirk Engberg, chef de projet technique. Installé sur le serveur d'applications, ce module est lancé chaque nuit pour indexer les modifications ou les nouveaux fichiers.

La banque Espirito Santo et de la Vénétie a retenu Exalead début 2006. « Le moteur indexe l'existant de 200 000 documents sur les serveurs, ainsi que trois postes de travail pour l'instant », indique Fabrice Bouland. Le connecteur Exalead Desktop for Lotus prend en charge les courriels et les documents attachés sur chaque poste de travail concerné.

Chez Press Index, la mise en place a supposé de connecter le moteur d'indexation à tous les flux XML entrants quotidiennement. « Une étape qui devra être affinée compte tenu des volumes à prendre en compte », prévoit Dominique Fournier, directeur commercial et marketing de Press Index.

Filiale de la Poste chargée de l'acheminement des colis en Europe, GeoPost est implantée dans sept pays européens. Le développement d'une application de recherche s'est fait en parallèle avec la mise en production d'un portail collaboratif pour les quelque 250 utilisateurs des services marketing. Tous les documents produits par les équipes marketing sont indexés au fil de l'eau.

Les gains : une information synthétique

Le métier de la banque impose une traçabilité des documents qui se renforce avec les nouvelles dispositions réglementaires. « Nous pouvons être amenés à prouver que certaines actions de contrôle ont bien été réalisées ou encore retrouver les conditions contractuelles en cours à un moment donné dans la vie d'un crédit, illustre Fabrice Bouland. Les seuls gains de temps pour retrouver ces données suffisent à amortir le coût du projet. » Des gains qui ne sont pas seulement temporels. Intérêt différent chez Vigeo. Dans cette société, le moteur ne se contente pas de donner des réponses, mais apporte des suggestions. « Par exemple, à partir d'une recherche comportant le mot " déchet ", l'application proposera à l'utilisateur de poursuivre avec " déchet polluant " ou "déchet radioactif" », explique Arnaud Jésupret.

L'application aide également à identifier les sources, une contrainte pour Vigeo. En outre, elle alerte les utilisateurs sur de nombreux critères comme une modification dans une page. Pour Press Index, l'application en cours de déploiement sur certains postes n'est que la première brique d'une série de services de recherche. « L'application pourrait servir, par exemple, à assurer un service de veille économique. Lancer une recherche sur une société permettra d'accéder directement à tous les articles la concernant. Des résultats déjà classés par thèmes : activité, résultats, nominations, etc. Sans moteur intelligent, arriver au même résultat suppose de chercher sur des mots-clés dans chacun des supports - Le Monde, les Echos, etc. - et de synthétiser ces données », indique Dominique Fournier, de Press Index.

Les écueils : parfois déroutant à utiliser

« L'utilisation du moteur n'est pas encore entrée dans les habitudes de travail de tous, regrette Arnaud Jésupret. Des analystes continuent à utiliser d'autres moteurs de recherche. » Certains effets de bord, comme le fait de ne pas renvoyer de réponses à partir de questions contenant des mots pourtant courants, « surprennent certains utilisateurs », ajoute Arnaud Jésupret. Le fonctionnement des moteurs de recherche surprend aussi pour d'autres raisons. « J'ai toujours retrouvé les documents que je recherchais. Mais j'ai parfois été surpris que le moteur ne renvoie pas un document alors que j'utilisais un mot-clé présent dans son titre », s'étonne Fabrice Bouland.

Pour régler ces problèmes, la pondération des sources permet de régler le niveau de silence, mot consacré décrivant les documents ignorés dans les résultats de recherche malgré leur pertinence. Dans tous les projets, la question sensible de la sécurité s'est rapidement posée. La plupart des moteurs permettent de filtrer l'accès aux données en fonction des droits de chacun sur les serveurs Windows, la messagerie Lotus, etc. Mais les tests portant sur la sécurité restent compliqués à mettre en oeuvre. Il est difficile d'imaginer tous les scénarios d'accès de recherche et leurs implications avec les droits d'accès aux données.

Cliquez ici pour agrandir l'image

Tester la sécurité

Si affecter des droits demeure simple à mettre en oeuvre et à tester à partir d'une application donnée, il n'en est pas de même avec un moteur de recherche. Ce dernier indexe potentiellement toutes les sources et peut donc tout ramener dans ses filets. Entre les possibilités extrêmes, restriction ou ouverture totale, l'approche mixte est la plus pertinente. Mais cette dernière suppose de tester les accès. Avec toute la difficulté que cela suppose dans l'établissement de scénarios.

Donner des indices pour trouver la bonne information

Lorsque l'on cherche des informations sur un sujet sans connaître précisément les sources, un moteur classique reste inadapté. Les moteurs sémantiques extraient, à partir des documents indexés, les lieux, dates, personnes et thèmes en rapport avec la question. Et proposent de nouvelles pistes pertinentes liées par le sens aux mots utilisés dans la question.

Difficiles à utiliser

Les techniques d'indexation des moteurs d'entreprise sont complexes. Elles mixent souvent une approche statistique (nombre d'occurrences des mots-clés demandés, etc.), syntaxique (adverbe plus substantif, etc.) et sémantique (recherche de synonymes, de termes proches, etc.).

Des outils polyglottes

Les moteurs multilingues sont nombreux. Plus rares, les moteurs de recherche Cross Language renvoient des documents dans une langue différente de celle utilisée dans la question. Couplant la recherche à l'analyse sémantique, le moteur renvoie toutes les réponses pertinentes.


Les principales offres sur le marché français
Cliquez ici pour agrandir l'image


Suite de l'article
Partager les savoirs
Intégrer au portail grâce à des API
« Faire des recherches floues sans se soucier des termes exacts »

écrire à l'auteur imprimer
envoyer par mail
Cet article est extrait de : Décision Informatique

Seul hebdomadaire généraliste qui aide concrètement au choix et à la mise en œuvre opérationnelle, grâce à une information pragmatique et concrète.

Découvrez le magazine
Contactez la rédaction
Abonnez vous
Emploi 
Recherches d'emploi :
Les rémunérations, les offres de dernière minute , les formations, ...  !
Astuces
Trucs et Astuces : tous les matchs de l'Euro 2008 dans votre calendrier et sur votre bureau !

Dossier spécial


Etes-vous prêts pour l'entreprise 2.0 ?
> Cet été, 01net. vous fait découvrir les avenirs possibles de votre quotidien au travail.
Et vous demande votre opinion.





matériel
Reportage au coeur d'un centre d'archivage gigantesque

système d'exploitation
Plongée dans l'environnement Linux des députés

conversation high-tech
Kiwi mail : l'archivage externalisé de la totalité de sa messagerie

La logithèque pro windows   > mac   > linux


Villes, départements et régions,
retrouvez leurs dépenses et investissements informatiques et télécoms en partenariat avec
Secteurpublic.fr


Cette semaine

4 435 000 euros, la dépense high-tech du conseil régional de Languedoc-Roussillon en 2007.


Pour retrouver toute l'actualité des noms de domaine
Cliquez ici

LOGICIELS LIBRES
Vous cherchez une
solution open source ?
Retrouvez notre guide des logiciels libres
SUJETS CHAUDS

Environnement haute-disponibilité
moyenne du 23 06 au 22 07 2008
rang hébergeurs disponibilité
des sites
performance d'accès aux sites qualité
globale
tendance
1 integra 99.94 97.59 99.35 En hausse
2 Ornis 99.78 97.68 99.26 En hausse
3 Atos Origin 98.90 97.71 98.60 En hausse
  Moyenne 98.84 93.93 97.61  


Serveurs dédiés
moyenne du 23 06 au 22 07 2008
rang hébergeurs disponibilité
des sites
performance d'accès aux sites qualité
globale
tendance
1 Magic Online 99.94 99.12 99.74 En baisse
2 Amen 99.98 96.64 99.14 En hausse
3 Ikoula 99.79 97.07 99.11 En baisse
  Moyenne 99.83 96.96 99.12  

01net.com, en partenariat avec , mesure chaque semaine les performances des hébergeurs

Pour retrouver tout le test des opérateurs ToIP
Cliquez ici


A ne pas manquer !


Abonnez-vous gratuitement !
Quotidienne
Hebdomadaire
 
découvrez 01men.com
> toutes nos newsletters

FLUX RSS

Des détails sensibles sur la mégafaille Internet diffusés par mégarde


La sécurité de millions de cartes à puce sans contact sérieusement remise en question


La direction d'IBM ne veut toujours pas d'augmentations salariales générales, selon les syndicats


Le PC goûte à la puissance nouvelle des puces graphiques


Etes-vous prêts pour l'entreprise 2.0 ?


> tout le classement  




KIOSQUE
01 Informatique
01Informatique
L'hebdo de référence des décideurs informatiques.
Micro Hebdo
Micro Hebdo
L'hebdo qui vous simplifie la micro et Internet.
L'Ordinateur Individuel
L'Ordinateur Individuel
Le mensuel informatique qui vous informe et vous conseille.

Les flux RSS de 01net.


Tous les PodCasts
audio et video
Tous droits réservés © 1999 - 2008 Internext - 01net.
Sites du réseau 01net Network : 01net. - 01men - RMC - BFM - BFM TV - La Tribune - Micro Achat - TousLesPodcasts - Caractere.net - Electronique.biz - Mesures.com - Transaction.fr