Passer au contenu

La qualité des données du système d’information revient sur le devant de la scène

Les éditeurs de solutions d’extraction, transformation et chargement, tels SAS ou Ascential, intègrent plus finement des fonctions pour gérer la qualité des données.

Selon le cabinet d’analyses Data Warehousing Institute, les problèmes posés par la qualité des données coûteraient plus de 600 milliards de dollars par an aux sociétés américaines. Autant dire que, avec l’augmentation du volume des données stockées dans le système d’information et avec l’hétérogénéité persistante de leurs sources, les entreprises ne peuvent plus se contenter de développements ponctuels. Automatisation est le maître mot. C’est pourquoi SAS Institute et Ascential annoncent tous deux des stratégies d’intégration d’outils dédiés à la qualité des informations.Ascential vient ainsi d’acheter Vality Technology, l’un des premiers spécialistes du genre, pour compléter sa solution d’ETL (extraction, transformation et chargement) Datastage XE, qui comprenait un module de gestion de la qualité, mais orienté audit. “Cela permet la construction de statistiques d’utilisation, la vérification de formats et de bornes, mais pas le nettoyage “, précise Stéphane Heckel, en charge du marketing produits chez Ascential. Vality apportera donc ses technologies non seulement dans l’audit, mais aussi dans le nettoyage, le dédoublonnage et le matching d’adresses. “Cette dernière fonction donne une vision unique d’un client quand les données qui le concernent sont traitées par plusieurs progiciels “, explique Stéphane Heckel.

SAS tire parti de l’acquisition de Dataflux

Deux algorithmes permettent soit d’établir un lien vers la meilleure donnée, soit d’opérer une agrégation des informations les plus pertinentes. SAS Institute, lui, propose ETLQ, conséquence de l’intégration de Dataflux, acquis l’année dernière. “La solution de l’éditeur possédait déjà des fonctions de gestion de la qualité des données. Pour le contrôle de celles-ci et la cardinalité, cela pouvait suffire “, estime Marcel Lemahieu, responsable des offres datawarehouse et décisionnelle chez SAS. A cela, Dataflux ajoute principalement le dédoublonnage des adresses et des noms, et le matching. “La possibilité d’appliquer ces règles sur un échantillon, puis de les automatiser dans un batch est très utile “, ajoute Marcel Lemahieu.La solution Datastage agrémentée de ses nouvelles fonctions devrait être commercialisée en septembre prochain, après adaptation de l’outil aux spécificités françaises. Informatica, de son côté, propose aussi bien les technologies de léditeur Trillium que celles de Datamentors (Datafuse).

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.


Renaud Edouard