Passer au contenu

Moteurs d’indexation : l’intranet doit s’adapter

Le déploiement des moteurs d’indexation impose une étude du fonctionnement de son intranet, et parfois des modifications, pour optimiser les fonctions de recherche d’information.

Face à l’augmentation de volume du contenu diffusé sur les intranets des entreprises, la quête d’une information s’apparente souvent à la recherche d’une aiguille dans une botte de foin. Sur Internet, cette problématique a fait des annuaires et autres moteurs de recherche les principales portes d’entrée du web. Elle incite aujourd’hui les entreprises à installer sur leur intranet des moteurs d’indexation moins puissants que leurs homologues du web.“Nous centralisons sur le même serveur plus de 35 000 CV reçus et exploités par nos agences, et ce, sous forme de fichiers PDF uniquement. Pour rechercher des CV archivés, nous nous sommes équipés de Verity Portal One”, illustre Laurence Spadacini, responsable études et méthodes de la société d’intérim Expectra.

Recenser et indexer les informations

Première étape de l’utilisation d’un moteur de recherche : la création automatisée d’un index pour laquelle les moteurs passent en revue tous les mots contenus dans les pages des sites intranet soumises à leur analyse. Ils ne conservent ensuite qu’un exemplaire des termes recensés mais associent à chacun d’eux l’URL de chaque page où ils ont été rencontrés. Cet index sera ensuite interrogé par le module de recherche du logiciel pour présenter aux utilisateurs les pages censées contenir le mot-clé demandé.Cette phase d’indexation doit être précédée d’un travail de recensement des informations à référencer et d’identification des logiciels serveurs dont elles proviennent. L’opération vise à définir les connecteurs que l’entreprise devra acquérir en plus du moteur lui-même. Ces connecteurs sont des passerelles spécifiques vers les bases de données de Lotus Notes, de Microsoft Exchange, vers DB2, SQL Server ou encore toute base ODBC. Une fois installés, ils permettront au moteur d’indexer le contenu des serveurs concernés. “La mise en place de notre moteur a duré 30 jours homme”, précise Michaël Achour, directeur de la division système d’information groupe Société Générale. En 1996, la banque a choisi d’installer le moteur Fulcrum Search Server de Hummingbird avec lequel elle indexe aujourd’hui 50 des 150 sites qui composent son intranet. Comparée à ces étapes de déploiement, l’indexation des sites est tout aussi ardue. Si l’opération à proprement parler peut se résumer à sélectionner une commande donnant l’ordre au moteur de sonder les sites, une intervention humaine est nécessaire au préalable. Ce que confirme Philippe Axus, responsable de l’architecture Internet et intranet de BNP Paribas, qui utilise depuis six mois Fulcrum Search Server 4.0. “Nous avons optimisé l’indexation de nos sites en insérant des métabalises dont le contenu est ensuite parcouru par le moteur.” Une opération qui permettra, par exemple, d’accompagner les liens affichés lors d’une recherche d’un résumé de leur contenu. La Société Générale a également dû adapter ses sites : “Nous avons supprimé progressivement les pages de nos sites composées de cadres car elles étaient mal référencées”, explique Michaël Achour. Ces pages con- tiennent en effet plusieurs documents. Or, les moteurs ne prennent en compte qu’un seul d’entre eux, ne référençant ainsi que partiellement le contenu des pages. Pour éviter d’indexer plusieurs fois les mêmes informations, BNP Paribas a dû prendre en compte la particularité des bases Notes. Celles-ci présentent parfois plusieurs vues, et donc plusieurs URL, pour un même document. “La solution consistait à n’indexer qu’une vue générique développée pour l’occasion”, explique Philippe Axus. Autre incompatibilité technique rencontrée par BNP Paribas : indexer les pages dont le contenu est directement généré par un navigateur sur un poste client au moyen d’une applet Java. Ce contenu n’était logiquement pas accessible au moteur conçu pour sonder uniquement le contenu des serveurs. Pour y remédier, BNP Paribas a cette fois-ci recréé ces pages sur le serveur. En revanche, tout comme la Société Générale, elle n’a pas résolu les problèmes posés par l’indexation des sites sécurisés.“Au départ nous avons tenté de référencer ces sites. Mais excepté l’accès à la page d’accueil, nous n’arrivions pas à sécuriser par mot de passe celui des autres pages lorsque leur ouverture était réalisée à partir d’un lien donné par le moteur”, explique Philippe Axus de la BNP.

Des moteurs spécialisés dans le texte

La chaîne de télévision TV5 souhaitait, quant à elle, indexer à partir du même moteur ses fichiers bureautiques et vidéo. Une possibilité que n’offrent pas les moteurs d’indexation qui référencent les fichiers contenant du texte. La chaîne a donc associé les moteurs de recherche Screening Room Capture et Retrieval Ware 6.8 de Convera. Destiné à indexer des fichiers vidéo, le premier logiciel n’est utilisé par TV5 que pour ses fonctions de création de scripts de vidéo. Ces derniers décrivent en détail les documents vidéo conservés par la chaîne. Générés sous forme de fichiers texte, ces scripts peuvent ensuite être indexés par Retrieval Ware, qui gère finalement les requêtes des utilisateurs à la recherche de fichiers vidéo ou bureautiques.En dépit des efforts consentis pour optimiser le fonctionnement de leur logiciel, aucune des entreprises interrogées n’a réellement évalué la pertinence des réponses du moteur aux requêtes des utilisateurs. La Société Générale s’en tient pour l’heure à un autre indicateur de satisfaction dont se félicite Michaël Achour : “Le taux d’utilisation du moteur de recherche a augmenté de 550% en 2001, ce qui représente une moyenne de 6000 visiteurs par jour sur un total de 46 000 personnes susceptibles d’y accéder.”

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.


Fabrice Alessi