Le Data Cleansing ou Fiabilisation de Données est une opération consistant à contrôler et améliorer la qualité des données d’un système d’information, par rapport à ses règles d’intégrité et de gestion ou celles d’un système vers lequel on souhaite migrer.
La qualité des données d’un système est souvent surestimée et de nombreux motifs, parfois légitimes, tendent à la compromettre :
. Ancienneté du système :
- Manque de contrôles sur certaines zones « normalisées ». Exemple : adresses postales qui souvent ne sont pas conformes au référentiel postal et nécessitent un chantier de « normalisation d’adresses »
- Absence d’intégrité référentielle du modèle de données
- Manque de contrôles applicatifs
. Doublons fortuits ou voulus : La présence de doublons est fréquente, notamment sur les personnes physiques ou morales. Elle est souvent subie mais parfois aussi voulue par les utilisateurs car c’est ainsi qu’ils ont géré des manques fonctionnels de l’applicatif.
. Détournement de certaines zones par les utilisateurs pour gérer de nouvelles informations
. Anomalies de données causées par des bugs applicatifs corrigés tardivement
. Informations incomplètes, forçage d’informations, contournement de contrôles…
Le Data Cleansing est intéressant car les coûts engendrés par le manque de qualité des données sont loin d’être négligeables :
Coûts directs :
- Tarifs postaux plus élevés en raison de la mauvaise qualité des adresses, ou envois multiples aux doublons
- Plantages applicatifs
- Statistiques approximatives voire fausses
- Impossibilité de consolider des informations parfois règlementaires.
- Fiabilisation impérative dans le cadre de la mise en œuvre d’une nouvelle application ou d’un nouveau système
- Etc ..
Coûts indirects :
- Perte d’image
- Perte de productivité
- Etc …