Skip to main content

Validité

Les 6 métriques de validité mesurées par DQS, le flux de diagnostic pour trouver les erreurs de format et le bruit, et comment configurer la validation par motifs.

Qu’est-ce que la validité ?

La validité mesure si les valeurs respectent les formats et motifs attendus. Une valeur est valide lorsqu’elle correspond à la structure définie. Elle est invalide lorsqu’elle enfreint les règles de format.

Une adresse e-mail est valide lorsqu’elle contient un « @ » et un domaine. Une URL est valide lorsqu’elle commence par un protocole et contient un domaine. Un code produit est valide lorsqu’il a le nombre exact de caractères que votre système exige.

DQS valide les valeurs de champs à l’aide d’expressions régulières (regex). Vous choisissez parmi les motifs intégrés pour les formats courants comme Email, URL et Fixed Length, ou vous écrivez votre propre regex pour tout format spécifique à votre métier.

Taux de validité = (Enregistrements correspondant au motif / Total des enregistrements) x 100

Si 35 500 des 50 000 enregistrements Contact ont une adresse e-mail qui correspond au motif e-mail, votre taux de validité Email est de 71 %. Les 29 % restants contiennent des valeurs qui échouent au contrôle.

Validité vs exactitude

Validité et exactitude sont deux concepts différents :

ContrôleValide ?Exact ?
[email protected]OuiInconnu sans vérification
john@companyNonS/O (format erroné)
[email protected]OuiNon (personne partie de l’entreprise)
555-123-4567OuiInconnu sans appel
555-12-456NonS/O (mauvais nombre de chiffres)

DQS mesure la validité parce que les contrôles de format peuvent être automatisés. L’exactitude nécessite une vérification externe ou humaine.

Des données valides fonctionnent dans vos systèmes même si elles ne reflètent pas la réalité. Des données invalides cassent vos systèmes indépendamment de leur véracité. Concentrez-vous d’abord sur la validité. Traitez l’exactitude par des processus de vérification.

Pourquoi la validité compte

Des données invalides provoquent des défaillances à travers toute votre stack. Les e-mails rejetés abîment la réputation d’expéditeur. Les numéros de téléphone mal formés font perdre du temps aux systèmes d’appel. Les URL cassées frustrent les utilisateurs et bloquent les outils d’enrichissement.

Les API rejettent les données mal formées. Quand votre intégration envoie un format d’e-mail invalide à une plateforme marketing, le lot entier peut échouer. Les Flows Salesforce qui parsent des valeurs de champs se cassent quand le format est inattendu.

Les modèles d’IA traitent le texte tel quel. Quand un champ de téléphone contient « Tél. : 555-1234 » au lieu d’un numéro propre, le modèle voit des motifs incohérents. Les formats invalides réduisent l’efficacité de l’IA et produisent des résultats peu fiables dans Agentforce.

SystèmeImpact de la validité
Campagnes e-mailLes rejets abîment la réputation d’expéditeur
TéléphonieLes numéros invalides font perdre du temps
Liens webLes URL cassées bloquent l’enrichissement et la navigation
APILes données mal formées provoquent des échecs de synchronisation
IA et AgentforceLes formats incohérents réduisent la précision du modèle

Comment DQS mesure la validité

DQS produit 6 métriques de validité organisées autour d’une question de diagnostic : « La donnée correspond-elle au motif, et y a-t-il du bruit caché dans les valeurs qui passent ? »

Considérez ces métriques comme un flux de diagnostic. Chaque étape révèle une couche plus profonde du problème.

Étape 1 : correspond-elle au motif ?

Le taux de validité est la métrique principale. Il calcule le pourcentage d’enregistrements où la valeur du champ correspond au motif configuré. C’est le chiffre à afficher sur un dashboard.

Vous configurez le motif Email sur le champ PersonEmail des Contacts. Le taux de validité revient à 71 %. Cela signifie que 29 % des adresses e-mail échouent au contrôle de format. Il leur manque le « @ », le domaine, ou elles contiennent des espaces. Toutes les campagnes marketing envoyées à ces adresses rebondissent. Tous les Workflows qui se déclenchent sur l’e-mail échouent silencieusement.

Valid Count vous donne le nombre absolu. Sur 50 000 Contacts, 35 800 ont une adresse e-mail valide. C’est votre audience e-mail réellement adressable, pas les 50 000 du système. Le marketing peut définir des projections de campagne réalistes au lieu de travailler à partir de chiffres gonflés.

Étape 2 : quelle est la décomposition complète ?

Les taux indiquent la gravité. Les comptages indiquent la charge de travail. Deux métriques complètent le tableau :

MétriqueCe qu’elle vous dit
Invalid RateLa formulation négative de votre score de validité. « 29 % de nos adresses e-mail sont structurellement invalides » attire plus l’attention dans une présentation au board que « 71 % sont valides ». Mêmes données, formulation orientée action.
Invalid CountLa charge de nettoyage en chiffre brut. Votre entreprise migre vers un nouveau système de téléphonie qui exige le format E.164. Invalid Count sur le champ Phone : 23 400. C’est le nombre exact d’enregistrements à reformater avant la mise en production.

Étape 3 : y a-t-il du bruit au-delà des erreurs de format ?

Une valeur peut passer un contrôle de format et rester du déchet. Votre formulaire web-to-lead exige un champ Company. Le taux de validité sur Company est de 98 %, parce que presque tout passe un motif texte basique. Mais Noise Rate révèle que 14 % de ces valeurs sont des entrées comme « asdf », « test », « xxxxx » ou « na na na ». Format valide, mais totalement inutile pour le routage commercial, l’enrichissement ou la segmentation.

Noisy Records Count vous donne le périmètre du nettoyage. Si Noise Rate est de 14 % sur 50 000 enregistrements, cela fait 7 000 leads avec des noms d’entreprise poubelle. Votre équipe opérationnelle peut constituer une file de nettoyage, estimer les heures et décider de supprimer automatiquement ou de marquer pour revue manuelle.

Deux catégories d’échec

Les métriques de validité distinguent deux problèmes fondamentalement différents :

ProblèmeMétriquesCause racineCorrectif
Erreurs de formatValidity Rate, Invalid Rate, Valid/Invalid CountErreurs humaines, bugs d’intégration, Validation Rules manquantesNettoyer les données : Validation Rules, transformation, enrichissement
Bruit et déchetNoise Rate, Noisy Records CountBots, soumissions forcées de formulaires, imports massifs avec des valeurs par défaut poubelleCorriger la source : CAPTCHA, refonte des champs obligatoires, suppression d’enregistrements

La distinction compte parce que le correctif est complètement différent. Les erreurs de format se résolvent en nettoyant les données. Le bruit se résout en corrigeant la source qui le produit.

Référence des métriques

Métriques fondamentales

Ces 2 métriques forment la base de toute analyse de validité. Elles vous disent le taux de correspondance et le nombre d’enregistrements qui passent.

MétriqueTypeCe qu’elle mesure
Validity RatePourcentagePart des enregistrements correspondant au motif configuré
Valid CountComptageNombre d’enregistrements correspondant au motif configuré

Métriques avancées

Ces 4 métriques vont au-delà de « correspond-elle ? » pour donner la décomposition complète, y compris la détection de bruit. Elles nécessitent le mode Advanced Format Validation.

MétriqueTypeCe qu’elle mesure
Invalid RatePourcentagePart des enregistrements échouant au motif
Invalid CountComptageNombre d’enregistrements échouant au motif
Noise RatePourcentagePart des enregistrements contenant des motifs de bruit (données poubelle)
Noisy Records CountComptageNombre d’enregistrements contenant des motifs de bruit

Pourquoi taux et comptages vont par paires

La plupart des métriques viennent sous forme de taux et de comptage. C’est intentionnel :

  • Les taux servent aux dashboards, au reporting direction et au suivi de tendances. « La validité est passée de 71 % à 92 % ce trimestre. »
  • Les comptages servent à la planification de projet. « Nous avons 23 400 numéros de téléphone à reformater. »

Utilisez les taux pour communiquer les progrès. Utilisez les comptages pour planifier le travail.

Couverture des types de champs

Les 6 métriques de validité partagent la même base de types de champs, avec les métriques de bruit limitées aux champs texte.

MétriqueLes 6 types de champsString et TextArea uniquement
Validity RateX
Valid CountX
Invalid RateX
Invalid CountX
Noise RateX
Noisy Records CountX

Les métriques fondées sur le motif (Validity Rate, Valid Count, Invalid Rate, Invalid Count) fonctionnent sur les 6 types de champs pris en charge : String, TextArea, Email, Phone, URL et Picklist.

Les métriques de bruit (Noise Rate, Noisy Records Count) ne s’appliquent qu’aux champs String et TextArea. Les motifs de bruit comme les caractères répétés ou l’écrasement de clavier sont des phénomènes de texte libre. Un champ Picklist avec une valeur valide ne peut pas contenir de bruit. La détection de bruit n’a de sens que sur les champs où les utilisateurs saisissent du texte libre.

Deux modes d’analyse

DQS propose deux modes d’analyse de validité :

Le mode Format Validation répond à la question : « Les valeurs correspondent-elles au motif attendu ? » Il produit les 2 métriques fondamentales et couvre l’essentiel d’un contrôle de conformité de format ou d’un audit rapide.

Le mode Advanced Format Validation va plus loin. Il produit les 6 métriques, y compris la décomposition complète valide/invalide et la détection de bruit. Utilisez ce mode quand vous devez distinguer les erreurs de format des données poubelle, ou quand vous avez besoin de comptages précis pour planifier un projet de nettoyage.

Besoin métierMode recommandé
Contrôle rapide de conformité de formatFormat Validation
Reporting ou audit de conformitéAdvanced (décomposition complète pour les régulateurs)
Évaluation de la qualité des leadsAdvanced (Noise Rate attrape le déchet qui passe les contrôles de format)
Évaluation pré-migrationAdvanced (décomposition complète pour cadrer la remédiation)
Gouvernance continue des donnéesCommencer par Format Validation, passer à Advanced pour la détection de bruit

Configurer la validité

Contrairement à la complétude (qui fonctionne automatiquement sur n’importe quel champ), la validité nécessite une configuration. Vous devez définir ce que « valide » signifie pour chaque champ avant que DQS puisse le contrôler. Un scan de validité sans motif n’a aucun sens : valide par rapport à quoi ?

DQS fournit 5 paramètres de configuration. Chacun peut être défini au niveau global et surchargé au niveau du champ individuel.

ParamètreCe qu’il contrôle
Pattern TypeLe format à valider. Choisissez parmi Email, URL, Fixed Length ou Custom regex. Obligatoire : vous devez choisir un type de motif avant de lancer un scan.
Pattern / Fixed LengthLa valeur précise pour le type choisi. Pour Fixed Length, entrez un nombre de caractères (1 à 255). Pour Custom, entrez une regex. Email et URL utilisent des motifs intégrés.
Custom PatternVotre propre regex quand Pattern Type est Custom. DQS valide votre regex avant sauvegarde et bloque les expressions invalides.
Include BlanksLorsqu’il est activé, DQS compte les valeurs vides comme invalides. Lorsqu’il est désactivé (par défaut), les blancs sont exclus de l’évaluation.
Case SensitiveLorsqu’il est activé, la correspondance tient compte de la casse. Lorsqu’il est désactivé (par défaut), la correspondance ignore la casse.

Types de motifs

TypeCe qu’il valideExemple passantExemple échouant
EmailFormat d’adresse e-mail standard : [email protected][email protected]user@domain, invalid-email
URLAdresses web HTTP/HTTPS avec domaine validehttps://example.comexample.com, htp://site.com
Fixed LengthNombre exact de caractères (que vous définissez)AAAAAAAAAA (10 caractères, si length = 10)SHORT (5 caractères)
CustomTout motif regex que vous définissezSelon votre motifSelon votre motif

Exemple : vos codes produits suivent le format « DQS- » suivi de 6 chiffres. Définissez Pattern Type sur Custom et entrez la regex ^DQS-\d{6}$. DQS signale tout code produit qui ne respecte pas cette structure.

Détection de bruit

La détection de bruit attrape des données qui passent les contrôles de format mais qui restent du déchet. DQS utilise deux heuristiques intégrées pour identifier les valeurs bruyantes :

Heuristique 1 : caractères identiques consécutifs. Trois caractères identiques ou plus d’affilée. Des valeurs comme « aaaa », « !!! », « --- » ou « xxxxx » déclenchent ce contrôle. Elles proviennent typiquement d’une touche enfoncée, de padding ou d’un abus de placeholder.

Heuristique 2 : caractères spéciaux excessifs. Plus de 50 % de caractères non alphanumériques (hors espaces). Des valeurs comme « !@#$%^ » ou « ***///--- » déclenchent ce contrôle. Elles indiquent un écrasement de clavier, une entrée de bot ou un déchet délibéré.

HeuristiqueCe qu’elle attrapeExemples bruyantsExemples propres
3 caractères identiques consécutifs ou plusPadding, remplissage, touche enfoncée« aaaa », « !!! », « --- », « xxxxx »« Premium », « DOT AB3 2024 »
Plus de 50 % de caractères spéciauxÉcrasement de clavier, bot, déchet« !@#$%^ », « ***test », « //—// »« [email protected] », « O’Brien Inc »

Vous pouvez aussi définir des motifs de bruit personnalisés via regex pour le déchet spécifique à votre org que les heuristiques intégrées ne couvrent pas.

Astuce : la détection de bruit est la plus utile sur les champs texte libre où les utilisateurs peuvent tout taper : Company, Description, Notes et champs texte personnalisés. Lancez-la d’abord sur vos champs web-to-lead, où les soumissions de bots et les entrées forcées sont les plus courantes.

Problèmes de validité courants

Adresses e-mail invalides

Les utilisateurs saisissent des e-mails sans format correct. « @ » manquants, domaines manquants, doubles points et fautes de frappe sont les problèmes les plus courants.

ProblèmeExemple
@ manquantjohn.company.com
Domaine manquantjohn@
Doubles points[email protected]
Fautes de frappe[email protected]

Impact : e-mails rejetés, score d’expéditeur dégradé, communications perdues.

Numéros de téléphone mal formés

Les champs Phone acceptent n’importe quel texte dans Salesforce, ce qui mène à des formats incohérents et invalides.

ProblèmeExemple
Lettres mélangées555-CALL-NOW
Mauvais nombre de chiffres555-12
Extension dans le champ555-1234 ext 5
Confusion indicatif pays1-555-123-4567 vs 555-123-4567

Impact : appels échoués, temps commercial gaspillé, erreurs de synchronisation téléphonie.

URL invalides

Les champs d’adresses web contiennent souvent des valeurs partielles ou mal formées.

ProblèmeExemple
Protocole manquantwww.company.com
Domaine manquanthttps://
Fautes de frappehtps://company.com
Identifiants sociaux@company (pas une URL)

Impact : liens cassés, enrichissement échoué, erreurs de navigation.

Bonnes pratiques

Validez à la saisie

Le meilleur contrôle de validité a lieu à la saisie. Utilisez des Validation Rules Salesforce pour imposer les formats avant que les données n’entrent dans votre système.

// Exemple : Validation Rule de format d'e-mail
NOT(ISBLANK(Email)) && NOT(REGEX(Email, "^[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\\.[A-Za-z]{2,}$"))

Standardisez les formats avant de scanner

Choisissez un seul format par champ et imposez-le. Pour les numéros de téléphone, E.164 (+15551234567) est le standard le plus universellement accepté. Pour les URL, exigez le protocole https://. Documentez vos décisions de format pour que l’équipe connaisse le standard.

Fixez les seuils selon la priorité du champ

Différents champs nécessitent des standards de validité différents :

ChampSeuil suggéréJustification
Email primaire95 %+Critique pour la communication
Phone90 %+Important mais données historiques à prévoir
Website85 %+Souvent saisi de façon incomplète
Codes texte personnalisés98 %+Générés par le système, haute conformité attendue

Utilisez la détection de bruit sur les champs texte libre

Lancez la détection de bruit sur les champs où les utilisateurs saisissent du texte libre : Company, Description, champs texte personnalisés et tout champ alimenté par des formulaires web. Noise Rate révèle des problèmes que la validation de format ne voit pas.

Documentez les formats attendus

Créez un dictionnaire de données qui précise le format attendu pour chaque champ, les variantes acceptables et des exemples de valeurs valides et invalides. Partagez-le avec votre équipe et référez-vous-y lors des projets de nettoyage.

Étapes suivantes

Vous comprenez désormais comment valider les formats de données et détecter les valeurs bruyantes. Poursuivez avec la dimension suivante :