01net Pro Entreprise informatique
Actualités gestion et logiciel informatique professionnel
Offre et recherche Emploi informatique internet
Salon conférences inofrmatique IT ebusiness 01
Le Cloud Computing
Vidéos reportage entreprise acteur informatique
Retrouvez tous les services 01Net dédiés aux professionnels !
Télécharger logiciels Pro et progiciels
Livres blancs e-commerce informatique et nouvelles technologies
Retrouvez l'ensemble des dossiers de la rédaction 01net Entreprise
Les synthèses des bonnes pratiques sur les sujets IT du moment

Une nouvelle architecture pour indexer dix fois plus de documents

L'augmentation du volume d'informations à gérer en entreprise a poussé les équipes de Sinequa à revoir l'architecture de leur moteur de recherche. Alors que Sinequa Corporate Search 5 supportait 5 millions de documents, la version 7.0 sait en gérer 50 millions par serveur.
Pour éviter un temps d'accès à l'index trop long, celui-ci a été divisé en dix index de tailles croissantes. Le plus petit indexe les documents les plus récents. Une fois devenu trop volumineux, un nouvel index est créé, et les plus gros sont fusionnés puis mis à jour. Le temps d'indexation a aussi été réduit. Les pipelines d'indexation ne sont pas liés à l'index, mais uniquement au document. L'index est donc alimenté par dix processus en même temps. Au-delà de 50 millions de documents, plusieurs serveurs doivent être utilisés en grille.

Un agent de textmining personnalisable

L'agent de textmining, qui ne se chargeait, jusqu'ici, que de l'extraction d'entité, permet maintenant de rapprocher des entités et d'en garder la trace, y compris sur de gros volumes d'information. Deux sociétés partenaires pourront ainsi être détectées comme telles. Sinequa a défini une grammaire XML pour que les entreprises spécifient les entités nommées qui les intéressent et les liens qui les unissent. Dans la version 7.0, les fichiers XML sont à manipuler directement par les utilisateurs, mais la mouture 7.1 comportera un outil graphique qui facilitera leur traitement.

Moteur de recherche.
Produit : Corporate Search 7.0.

Corporate Search 7.0 de Sinequa : moteur de recherche d'entreprise 64 bits. Environ 50 millions de documents par serveur. Mécanisme de serveurs en grille. Support SAN en mode snapshot.

A partir de 30 000 euros (prix variable selon le volume de données et le nombre de connecteurs utilisés dans le cas d'un faible volume de documents).

Cloudview Search Edition d'Exalead, Fast ESP de Microsoft, Information Access Platform d'Endeca, Google Search Appliance 6.0, et Polyspot Enterprise Search.

envoyer
par mail
imprimer
l'article