Pour atteindre leurs objectifs, de plus en plus de données sont collectées et utilisées par les entreprises en Tunisie et ailleurs, ce qui augmente également les risques d’erreurs. La solution est de procéder à leur nettoyage afin d’optimiser les processus de gestion des données. Le Data Cleaning consiste alors à identifier et corriger les données qui sont inexactes, altérées ou non pertinentes. Il s’agit d’une étape essentielle dans le traitement des données pour améliorer la cohérence, la fiabilité ainsi que les valeurs des informations à exploiter.

En réduisant les erreurs, le nettoyage renforce l’intégrité et la pertinence des données, ce qui permet de prendre des décisions précises et plus avisées. Quelles sont les pratiques de base du nettoyage de données ? Qu’est-ce qu’un jeu de données « impropre » ? Quels sont les avantages du nettoyage de données ?

Qu’est-ce que la gestion de la qualité des données ?

Il s’agit d’améliorer la qualité des données et de les gérer de façon continue. Il ne s’agit pas d’une tâche unique, car presque toutes les données d’une entreprise, en particulier les données clients, sont soumises à des changements constants. L’objectif doit donc être d’assurer la cohérence, l’exhaustivité et la mise à jour permanente des informations clients. Néanmoins, les entreprises n’améliorent généralement la qualité de leurs données que par étapes, parce qu’un nouveau projet, par exemple, offre une raison à cela (et les budgets correspondants sont disponibles). Par la suite, cependant, la qualité se détériore à nouveau. C’est dans la nature des choses, parce que les données changent à la suite de nouvelles circonstances, comme un changement de numéro de téléphone mobile ou d’adresse.

La gestion de la qualité des données est un processus qui assure la qualité des données tout au long de leur cycle de vie – de la saisie, du stockage et de l’utilisation à l’archivage et la suppression. L’approche en boucle fermée ou « closed loop » de la Total Data Quality est généralement utilisée. Au début, les données des clients sont déjà vérifiées lors de la collecte des données à l’aide des services Data Quality. Les données clients incorrectes qui ne peuvent pas être nettoyées automatiquement sont stockées dans une base de données intermédiaire et un rapport ou une alerte est envoyé au site de saisie afin qu’il puisse prendre des mesures correctives.

Grâce à ce cycle, les données des clients peuvent être vérifiées en permanence pendant l’enregistrement et le traitement. Des rapports réguliers sur ces processus (comme un tableau de bord de la qualité des données) permettent aux utilisateurs de mesurer la performance de la boucle fermée pour la gestion de la qualité des données (gestion de la performance) et d’améliorer continuellement le processus. Il en résulte une qualité de données pratiquement constante à un niveau élevé.

Cependant, la qualité des données ne s’arrête pas là. Les entreprises sont principalement structurées de telle sorte que la gestion de la Data Qualiy génère des dépenses excessives, parce que la souveraineté des données repose principalement sur les départements. Cela signifie que des services différents ou des domaines d’activité nouvellement développés ne peuvent pas accéder à toutes les données clients de l’entreprise. Les silos de données ne s’emboîtent pas les uns dans les autres. La gestion de la qualité des données dans de telles constellations se limite à des silos système distincts. Ces silos contiennent beaucoup de données sur les clients, qui pourraient être améliorées et enrichies en fusionnant avec les données disponibles à l’échelle de l’entreprise. Mais de facto, les structures et les processus existants entraînent des coûts élevés en raison des redondances.

Et ce qui aggrave la situation : Les entreprises parient sur le grand potentiel de leurs bases de données, à savoir la possibilité d’avoir une vision uniforme de leurs clients. La réalité donne à réfléchir, car les entreprises manquent de vue d’ensemble et leur direction peut difficilement se fier aux données pour prendre des décisions et prendre des mesures. De mauvaises décisions et de mauvais investissements peuvent en être la conséquence coûteuse. La nécessité de la qualité des données est évidente. Cependant, la gestion des données de référence, Master Data Management, est nécessaire pour s’assurer que le succès d’une gestion complète de la qualité des données ait un impact réel sur le travail quotidien des employés et le succès commercial de l’entreprise dans son ensemble.

Quand la qualité des données est-elle réellement mauvaise ?

Lors de conversations avec nos clients et les employés de différents services, on nous parle souvent de symptômes similaires de mauvaise qualité des données. Les symptômes peuvent être utilisés pour obtenir des pistes, afin de définir des initiatives concrètes en matière de qualité des données et d’obtenir les premières informations nécessaires à l’élaboration du catalogue des mesures.

Indices de mauvaise qualité des données

  • Duplication des clients et partenaires dans le système
  • Interlocuteurs obsolètes
  • Campagnes de publipostage entraînant des taux de retour élevés en raison d’adresses fausses ou incomplètes
  • Clients insatisfaits de recevoir plusieurs fois la même publicité
  • Campagnes marketing donnant lieu à de faibles taux de réponse
  • Civilité et lignes d’adresses erronées (par exemple : M. Catherine Dupont ou Mme Pierre Durand)
  • Opportunités de cross-selling et upselling ne peuvent pas être identifiés
  • Faible acceptation de la part des utilisateurs et plaintes des employés
  • Non-respect des dispositions légales

Pas à pas vers de meilleures données

Quelles que soient leur structure et leur organisation, les entreprises devraient adopter une approche progressive pour vérifier la qualité de leurs données. Premièrement, deux domaines étroitement liés doivent être évalués : La qualité des données et des processus associés. Puisque les données sont utilisées dans les processus de gestion, les processus décrivent leur objectif et fournissent le format de données nécessaire. Si, par exemple, des prospects qualifiés sont disponibles dans un tableur Excel (format) et doivent être utilisés pour les mailings (processus), le format doit être adapté en conséquence. Cela inclut l’ajout, l’enrichissement et l’encodage des champs de données de manière à ce qu’ils puissent être importés pour l’outil d’envoi. Par conséquent, chaque processus a une influence sur la qualité des données. Dans la pratique, de nombreux employés ignorent souvent la finalité pour laquelle les données doivent être utilisées et, par conséquent, le processus ultérieur ; le seul fait de ne pas en être conscient entraîne des erreurs.

1. Identifier les symptômes et les causes

Les indices de toute évaluation de la qualité des données sont des symptômes qui doivent être analysés. Si, par exemple, les employés se plaignent d’un effort de recherche manuel important ou d’un remaniement lors de la création de listes de clients, ces plaintes doivent être identifiées comme des symptômes. La cause peut résider dans le manque d’actualité des données ou dans le manque de confiance des employés dans les données. Si l’on suppose donc que la qualité des données est inadéquate, il faut aussi vérifier si les processus existants ont une influence sur celle-ci.

Un autre exemple est l’apparition multiple de clients et de partenaires commerciaux dans les systèmes de gestion de données (doublons). Une analyse des processus peut montrer que les salariés ne vérifient pas si de nouveaux clients existent déjà dans le système avant de les créer.

Afin de retracer les symptômes et les causes, les employés qui travaillent régulièrement avec les données devraient être inclus dans le processus. Les données et les processus à analyser résultent des symptômes et des causes respectifs. En outre, les responsables peuvent et doivent déterminer à quoi doivent ressembler les données de référence de l’entreprise afin que tous les salariés qui travaillent avec elles puissent les utiliser efficacement.

2. Profiling

Il s’agit maintenant de prouver le « feeling » et les connaissances empiriques des employés concernant l’état de la qualité des données par les résultats d’analyse. L’objectif est de montrer le statu quo des données et de faire une évaluation bien fondée de l’exhaustivité, de l’exactitude et de la redondance des données. Le résultat de ce profiling devrait répondre aux questions suivantes :

  • Quelles sont les informations manquantes ?
  • Où apparaissent les cas les plus étranges ?
  • Où le format ne correspond-il pas à la signification ?
  • Où deux ou plusieurs attributs sont-ils incohérents ?
  • Où les règles données sont-elles violées ?
  • Dans quel contexte les erreurs se produisent-elles ?
  • Comment une erreur apparaît-elle dans différents segments de données (différentes régions, différentes périodes d’acquisition, etc.) ?
  • Comment l’occurrence des erreurs change-t-elle au fil du temps ?

Pour répondre à ces questions, il est recommandé d’utiliser un logiciel qui recherche automatiquement les lacunes, les erreurs et les corrélations dans un ensemble de données, les compile et fournit ainsi la base du résultat de l’analyse.

Le profiling des données est une étape cruciale – si les entreprises négligent ce point, ce qui est souvent le cas, elles vont prendre des mesures pour améliorer la qualité des données à tout hasard. Car si les responsables ne connaissent pas clairement leur base de données, ils agissent instinctivement, mais n’en étudient pas toutes les causes. Par conséquent, leurs données demeurent peu fiables et les employés continuent d’être confrontés à des processus perturbés et à une mauvaise qualité des données.

3. Créer un catalogue de mesures

Sur la base du profilage, des mesures sont définies pour amener les données et la qualité des processus au plus haut niveau. Il peut s’agir de la définition de la finalité pour laquelle les données doivent être utilisées et des exigences qui leur sont imposées, ou de l’introduction d’un contrôle d’adresse en temps réel. Si l’on veut contrôler les doublons, un contrôle des doublons en temps réel pourrait être la solution. L’éventail des mesures possibles – ainsi que les exigences en matière de données et de processus – est large et dépend toujours du cas de figure concerné.

4. Nettoyer, adapter les processus

Dans tous les cas, l’entreprise doit nettoyer les données qu’elle a examinées, c’est-à-dire supprimer et corriger les données erronées. Il peut s’agir, par exemple, de la vérification automatisée des numéros de téléphone – une mesure et un soutien important pour les projets CRM, le helpdesk, la gestion des réclamations ou d’autres tâches de gestion des contacts clients. Les doublons y sont automatiquement supprimés.

Outre le nettoyage des données, les processus et les paysages de systèmes doivent souvent être adaptés. Si toutes les zones sont ajustées en conséquence, la qualité des données se situe idéalement au niveau maximal réalisable. Toutefois, son maintien à un niveau constant dépend de la gestion des données et de la qualité dans l’ensemble de l’entreprise.

La qualité des données est devenue aujourd’hui un levier incontournable pour le développement de l’activité d’une entreprise, quand bien même les dernières évolutions digitales ne recouperaient pas son cœur de métier. Une étude menée par IBM avance le chiffre suivant: la gestion lacunaire des données a coûté plus de 3000 milliards de dollars à l’économie américaine sur l’année 2019 !

Cette estimation vertigineuse laisse clairement transparaître les gains à tirer d’une gestion efficace, compréhensive et suivie de la qualité de vos données. Différents outils existent sur le marché pour répondre à ces différents besoins de traitement, mise à jour et nettoyage. Quel que soit le type de solution choisi, le plus important reste de connaître les bonnes pratiques en data qualityet de pouvoir mener régulièrement un audit de performance de la gestion de ces données.

La Tunisie ne dispose pas encore de suffisamment de spécialistes en Gestion et Gouvernance de données, mais cela peut très vite changer et il y a une opportunité à saisir : Global Engineering Center, leader dans la formation et le conseil autour des technologies émergentes, intelligence artificielle, Big Data, IoT et Business Intelligence en Tunisie vous ouvrent les portes pour investir dans ce domaine innovant à travers des worshops et formations pratiques assurés par des experts qualifiés et certifiés ainsi qu’une offre complète en prestation de services autour de la qualité/gestion des données & les analytics voire un accompagnement dans les projets data innovants.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

fr_FR
en_GB fr_FR