Data Cleansing – Fiabilisation de données

Problématique de la Fiabilisation des Données ou Data Cleansing

La Fiabilisation de Données ou Data Cleansing est une opération consistant à contrôler et améliorer la qualité des données d’un système d’information, par rapport à ses règles d’intégrité et de gestion ou celles d’un système vers lequel on souhaite migrer.

La qualité des données d’un système est souvent surestimée et de nombreux motifs, parfois légitimes, tendent à la compromettre :

  1. Ancienneté du système :
    • Manque de contrôles sur certaines zones « normalisées ». Exemple : adresses postales qui souvent ne sont pas conformes au référentiel postal et nécessitent un chantier de « normalisation d’adresses »
    • Absence d’intégrité référentielle du modèle de données
    • Manque de contrôles applicatifs
  2. Doublons fortuits ou voulus : La présence de doublons est fréquente, notamment sur les personnes physiques ou morales. Elle est souvent subie mais parfois aussi voulue par les utilisateurs car c’est ainsi qu’ils ont géré des manques fonctionnels de l’applicatif.
  3. Détournement de certaines zones par les utilisateurs pour gérer de nouvelles informations
  4. Anomalies de données causées par des bugs applicatifs corrigés tardivement
  5. Informations incomplètes, forçage d’informations, contournement de contrôles…

Le Data Cleansing est une opération souvent indispensable car les coûts engendrés par le manque de qualité des données sont loin d’être négligeables :

Coûts directs :

  • Obligations de reporting légal,
  • Statistiques approximatives voire fausses
  • Impossibilité de consolider des informations parfois réglementaires.
  • Plantages applicatifs
  • Fiabilisation impérative dans le cadre de la mise en œuvre d’une nouvelle application ou d’un nouveau système
  • Tarifs postaux plus élevés en raison de la mauvaise qualité des adresses, ou envois multiples aux doublons
  • Etc.

Coûts indirects :

  • Perte d’image
  • Perte de productivité
  • Etc.

Notre Offre de Data Cleansing

Un projet de Data Cleansing pour fiabiliser les données peut être lancé de manière indépendante ou dans le cadre de la migration vers un nouveau système.

Dans le premier cas, il convient de vérifier la qualité des données par rapport aux règles métier et d’intégrité du système sur lequel les données sont exploitées. Pour être efficace, il est souhaitable d’intégrer les moyens de contrôles développés dans un processus récurrent de mesure de la qualité des données.

Si l’on se situe dans le cadre de la migration vers un nouveau système, il est préférable de contrôler les données (sources) par rapport aux règles d’intégrité du nouveau système (cible) et de mettre en place au plus tôt, le chantier de fiabilisation qui est sur le chemin critique et peut impliquer des opérations manuelles longues avec un impact fort sur le planning du projet global.

Dans tous les cas, on privilégiera les fiabilisations automatiques ou automatic data cleansing pour alléger le coût de ces opérations.

Nos Outils de Data Cleansing

Notre approche fortement outillée de ces opérations, nous permet d’automatiser un grand nombre d’opérations nécessaires au data cleansing.

Nos outils d’analyse de système Recode permettent à partir :

  • du modèle physique des données,
  • des programmes,
  • des données réelles,
  • des cas d’utilisation,

…. de générer des modules de contrôles qui pourront être exécutés régulièrement.

Les restitutions comportent des tableaux de bord généraux permettant de mesurer la progression du chantier de fiabilisation ainsi que des états métier, reprenant les motifs de rejets classés par service et et fréquence d’occurrence.

Les listes de détail d’anomalie sont enrichies avec la signalétique fonctionnelle du dossier, permettant à l’utilisateur de le retrouver dans l’applicatif Source et Cible.

Nos ateliers permettent une automatisation poussée de ces travaux et des résultats rapidement disponibles.

Schéma de fiabilisation de données

Applications

Un Projet de Data Cleansing est occasionné par des contrôles qui peuvent être classés en 3 catégories :

  • Contrôles de format: Vérification de la conformité d’une donnée avec son type (Date, numérique, Liste de valeur,…) mais également, vérification de la plage de valeurs autorisée. Il est nécessaire de prendre en compte les valeurs sentinelles (exemple : date à l’année 9999) pour ne pas produire de fausses anomalies.
  • Contrôles d’Intégrité: Vérification des cardinalités du MCD. Exemple : Vérifier que l’on n’a pas de factures sans le client correspondant.
  • Contrôles applicatifs: Vérification de données conformément aux règles de gestion de l’applicatif. Exemples : contrôle de chevauchement ou de trous dans des périodes, Vérification d’une clé calculée (Clé RIB, Clé N° SS), contrôle code postal / Code commune INSEE, …

Afin de permettre des contrôles croisés avec d’autres applications (Comptabilité, CRM,…) On réalise également des comptages pour totaliser le nombre d’occurrences d’un cas fonctionnel (Exemple : Nombre de clients) ou cumuls de valeurs (Ex Total par client et total général).

Environnements

Notre technologie nous permet d’intervenir sur tous les environnements techniques.

Cas clients

Problématique Le service des achats de la SNCF gérait ses opérations sur une plateforme MVS, COBOL, DB2 avec un front en

Problématique GENERALI, troisième compagnie d’assurance au monde -derrière Allianz et Axa- s’est engagée dans une politique de réduction des coûts de

Archivage des données et documents des applications du SI du Groupe AG2R ayant vocation à être décommissionnées. Problématique Le groupe AG2R La

Retour en haut