Courant 2004, le spécialiste de la comparaison de prix, Kelkoo, cherchait à renforcer son procédé d'enrichissement de texte (tagging). En bref, qualifier les termes significatifs des offres mis en lignes sur les sites marchands, les extraire puis les ordonner pour les rendre exploitables par un moteur de recherche. Si l'outil interne, hérité de l'Inria, était parfaitement taillé pour les sites présentant une information bien structurée (vente de billets d'avion ou de produits informatiques), il était peu adapté à une syntaxe ne répondant à aucune règle récurrente. Cette capacité à cibler des sites « déstructurés » l'habillement, notamment , Kelkoo est allé la chercher sur le marché. Son choix s'est porté sur l'offre d'une start up iséroise, jusque-là inconnue, Sight Up. Sa particularité provient de son système de tagging, reposant sur des méthodes d'intelligence artificielle, est auto-apprenant. Il ne nécessite, pour cet apprentissage, qu'un corpus extrêmement réduit.
« Ce système d'enrichissement de texte ne se nourrit d'aucune règle. Seulement d'exemples. Pour chaque catégorie (habillement homme, lingerie...), nous générons ces exemples à partir d'une quinzaine de sites » , précise Gilles Vandelle, directeur de projet chez Kelkoo. Lors de cette phase de paramétrage, les utilisateurs sélectionnent manuellement des valeurs (veste, rouge, lin...) et les rangent dans les emplacements réservés aux attributs (couleur, matière, marque...). Ils spécifient aussi des contre-exemples. Ils bâtissent ainsi les bases d'un glossaire que le système étoffe et achève ensuite par lui-même. « Une fois ce glossaire complété, pour une catégorie donnée, il s'adapte à n'importe quel site, indépendamment de sa structure. »
Inspiré de l'ADN
Le logiciel d'extraction de Sight Up s'appuie sur un algorithme s'inspirant du comportement de l'ADN. Il cherche à coder la langue et non à y déceler des relations sémantiques. Ce qui le rend indépendant de la syntaxe. Il se distingue ainsi des deux autres familles d'outils passées en revue par Kelkoo : les méthodes linguistiques et les statistiques. « Les premières sont idéales pour les textes répondant à une syntaxe claire, mais se révèlent peu adaptées au monde du shopping dont les phrases ne comportent souvent ni verbe, ni complément. Quant aux secondes, poursuit Gilles Vandelle, elles exigent un corpus dont Kelkoo ne dispose pas toujours, surtout lorsqu'il s'attaque à de nouvelles catégories. » Sur les 170 catégories de Kelkoo, Sight Up en couvre une soixantaine, dans 11 pays, en majorité dans l'habillement. La principale, la lingerie, est en place depuis janvier 2005.
Activité :
comparaison de prix des sites marchands sur le web.
![]()
Siège :
Paris.
![]()
Salariés :
190 en France.
![]()
Chiffre d'affaires :
Non communiqué.
Logiciel d'enrichissement de texte (ou tagging) Taggis, de l'éditeur Sight Up, utilisé essentiellement pour qualifier les sites d'habillement.
![]()
Coût :
plus de 100 000 euros pour une licence illimitée.
La phase de paramétrage au cours de laquelle les utilisateurs taguent manuellement les termes significatifs du site marchand doit être réalisée avec précision. Faute de quoi le système fait son auto-apprentissage sur des bases inexactes.
![]() |
> Logiciel : BitDefender
Contre les menaces : virus, trojans, keylogers, greywares, rootkits...
|
|
![]() |
GPS
Tom Tom Go 630 Europe. Comparez les prix !
|
|
1 Numericable
2 Orange
3 Darty
> Plus de détails

![]() |
NOUVEAU sur Windows
Tout le Web sur votre bureau : plus d’un millier de flux et widgets…
|
|
