Validité | DQS Resources

Qu’est-ce que la validité ?

La validité mesure si les valeurs respectent les formats et motifs attendus. Une valeur est valide lorsqu’elle correspond à la structure définie. Elle est invalide lorsqu’elle enfreint les règles de format.

Une adresse e-mail est valide lorsqu’elle contient un « @ » et un domaine. Une URL est valide lorsqu’elle commence par un protocole et contient un domaine. Un code produit est valide lorsqu’il a le nombre exact de caractères que votre système exige.

DQS valide les valeurs de champs à l’aide d’expressions régulières (regex). Vous choisissez parmi les motifs intégrés pour les formats courants comme Email, URL et Fixed Length, ou vous écrivez votre propre regex pour tout format spécifique à votre métier.

Taux de validité = (Enregistrements correspondant au motif / Total des enregistrements) x 100

Si 35 500 des 50 000 enregistrements Contact ont une adresse e-mail qui correspond au motif e-mail, votre taux de validité Email est de 71 %. Les 29 % restants contiennent des valeurs qui échouent au contrôle.

Validité vs exactitude

Validité et exactitude sont deux concepts différents :

Contrôle	Valide ?	Exact ?
[email protected]	Oui	Inconnu sans vérification
john@company	Non	S/O (format erroné)
[email protected]	Oui	Non (personne partie de l’entreprise)
555-123-4567	Oui	Inconnu sans appel
555-12-456	Non	S/O (mauvais nombre de chiffres)

DQS mesure la validité parce que les contrôles de format peuvent être automatisés. L’exactitude nécessite une vérification externe ou humaine.

Des données valides fonctionnent dans vos systèmes même si elles ne reflètent pas la réalité. Des données invalides cassent vos systèmes indépendamment de leur véracité. Concentrez-vous d’abord sur la validité. Traitez l’exactitude par des processus de vérification.

Pourquoi la validité compte

Des données invalides provoquent des défaillances à travers toute votre stack. Les e-mails rejetés abîment la réputation d’expéditeur. Les numéros de téléphone mal formés font perdre du temps aux systèmes d’appel. Les URL cassées frustrent les utilisateurs et bloquent les outils d’enrichissement.

Les API rejettent les données mal formées. Quand votre intégration envoie un format d’e-mail invalide à une plateforme marketing, le lot entier peut échouer. Les Flows Salesforce qui parsent des valeurs de champs se cassent quand le format est inattendu.

Les modèles d’IA traitent le texte tel quel. Quand un champ de téléphone contient « Tél. : 555-1234 » au lieu d’un numéro propre, le modèle voit des motifs incohérents. Les formats invalides réduisent l’efficacité de l’IA et produisent des résultats peu fiables dans Agentforce.

Système	Impact de la validité
Campagnes e-mail	Les rejets abîment la réputation d’expéditeur
Téléphonie	Les numéros invalides font perdre du temps
Liens web	Les URL cassées bloquent l’enrichissement et la navigation
API	Les données mal formées provoquent des échecs de synchronisation
IA et Agentforce	Les formats incohérents réduisent la précision du modèle

Comment DQS mesure la validité

DQS produit 6 métriques de validité organisées autour d’une question de diagnostic : « La donnée correspond-elle au motif, et y a-t-il du bruit caché dans les valeurs qui passent ? »

Considérez ces métriques comme un flux de diagnostic. Chaque étape révèle une couche plus profonde du problème.

Étape 1 : correspond-elle au motif ?

Le taux de validité est la métrique principale. Il calcule le pourcentage d’enregistrements où la valeur du champ correspond au motif configuré. C’est le chiffre à afficher sur un dashboard.

Vous configurez le motif Email sur le champ PersonEmail des Contacts. Le taux de validité revient à 71 %. Cela signifie que 29 % des adresses e-mail échouent au contrôle de format. Il leur manque le « @ », le domaine, ou elles contiennent des espaces. Toutes les campagnes marketing envoyées à ces adresses rebondissent. Tous les Workflows qui se déclenchent sur l’e-mail échouent silencieusement.

Valid Count vous donne le nombre absolu. Sur 50 000 Contacts, 35 800 ont une adresse e-mail valide. C’est votre audience e-mail réellement adressable, pas les 50 000 du système. Le marketing peut définir des projections de campagne réalistes au lieu de travailler à partir de chiffres gonflés.

Étape 2 : quelle est la décomposition complète ?

Les taux indiquent la gravité. Les comptages indiquent la charge de travail. Deux métriques complètent le tableau :

Métrique	Ce qu’elle vous dit
Invalid Rate	La formulation négative de votre score de validité. « 29 % de nos adresses e-mail sont structurellement invalides » attire plus l’attention dans une présentation au board que « 71 % sont valides ». Mêmes données, formulation orientée action.
Invalid Count	La charge de nettoyage en chiffre brut. Votre entreprise migre vers un nouveau système de téléphonie qui exige le format E.164. Invalid Count sur le champ Phone : 23 400. C’est le nombre exact d’enregistrements à reformater avant la mise en production.

Étape 3 : y a-t-il du bruit au-delà des erreurs de format ?

Une valeur peut passer un contrôle de format et rester du déchet. Votre formulaire web-to-lead exige un champ Company. Le taux de validité sur Company est de 98 %, parce que presque tout passe un motif texte basique. Mais Noise Rate révèle que 14 % de ces valeurs sont des entrées comme « asdf », « test », « xxxxx » ou « na na na ». Format valide, mais totalement inutile pour le routage commercial, l’enrichissement ou la segmentation.

Noisy Records Count vous donne le périmètre du nettoyage. Si Noise Rate est de 14 % sur 50 000 enregistrements, cela fait 7 000 leads avec des noms d’entreprise poubelle. Votre équipe opérationnelle peut constituer une file de nettoyage, estimer les heures et décider de supprimer automatiquement ou de marquer pour revue manuelle.

Deux catégories d’échec

Les métriques de validité distinguent deux problèmes fondamentalement différents :

Problème	Métriques	Cause racine	Correctif
Erreurs de format	Validity Rate, Invalid Rate, Valid/Invalid Count	Erreurs humaines, bugs d’intégration, Validation Rules manquantes	Nettoyer les données : Validation Rules, transformation, enrichissement
Bruit et déchet	Noise Rate, Noisy Records Count	Bots, soumissions forcées de formulaires, imports massifs avec des valeurs par défaut poubelle	Corriger la source : CAPTCHA, refonte des champs obligatoires, suppression d’enregistrements

La distinction compte parce que le correctif est complètement différent. Les erreurs de format se résolvent en nettoyant les données. Le bruit se résout en corrigeant la source qui le produit.

Référence des métriques

Métriques fondamentales

Ces 2 métriques forment la base de toute analyse de validité. Elles vous disent le taux de correspondance et le nombre d’enregistrements qui passent.

Métrique	Type	Ce qu’elle mesure
Validity Rate	Pourcentage	Part des enregistrements correspondant au motif configuré
Valid Count	Comptage	Nombre d’enregistrements correspondant au motif configuré

Métriques avancées

Ces 4 métriques vont au-delà de « correspond-elle ? » pour donner la décomposition complète, y compris la détection de bruit. Elles nécessitent le mode Advanced Format Validation.

Métrique	Type	Ce qu’elle mesure
Invalid Rate	Pourcentage	Part des enregistrements échouant au motif
Invalid Count	Comptage	Nombre d’enregistrements échouant au motif
Noise Rate	Pourcentage	Part des enregistrements contenant des motifs de bruit (données poubelle)
Noisy Records Count	Comptage	Nombre d’enregistrements contenant des motifs de bruit

Pourquoi taux et comptages vont par paires

La plupart des métriques viennent sous forme de taux et de comptage. C’est intentionnel :

Les taux servent aux dashboards, au reporting direction et au suivi de tendances. « La validité est passée de 71 % à 92 % ce trimestre. »
Les comptages servent à la planification de projet. « Nous avons 23 400 numéros de téléphone à reformater. »

Utilisez les taux pour communiquer les progrès. Utilisez les comptages pour planifier le travail.

Couverture des types de champs

Les 6 métriques de validité partagent la même base de types de champs, avec les métriques de bruit limitées aux champs texte.

Métrique	Les 6 types de champs	String et TextArea uniquement
Validity Rate	X
Valid Count	X
Invalid Rate	X
Invalid Count	X
Noise Rate		X
Noisy Records Count		X

Les métriques fondées sur le motif (Validity Rate, Valid Count, Invalid Rate, Invalid Count) fonctionnent sur les 6 types de champs pris en charge : String, TextArea, Email, Phone, URL et Picklist.

Les métriques de bruit (Noise Rate, Noisy Records Count) ne s’appliquent qu’aux champs String et TextArea. Les motifs de bruit comme les caractères répétés ou l’écrasement de clavier sont des phénomènes de texte libre. Un champ Picklist avec une valeur valide ne peut pas contenir de bruit. La détection de bruit n’a de sens que sur les champs où les utilisateurs saisissent du texte libre.

Deux modes d’analyse

DQS propose deux modes d’analyse de validité :

Le mode Format Validation répond à la question : « Les valeurs correspondent-elles au motif attendu ? » Il produit les 2 métriques fondamentales et couvre l’essentiel d’un contrôle de conformité de format ou d’un audit rapide.

Le mode Advanced Format Validation va plus loin. Il produit les 6 métriques, y compris la décomposition complète valide/invalide et la détection de bruit. Utilisez ce mode quand vous devez distinguer les erreurs de format des données poubelle, ou quand vous avez besoin de comptages précis pour planifier un projet de nettoyage.

Besoin métier	Mode recommandé
Contrôle rapide de conformité de format	Format Validation
Reporting ou audit de conformité	Advanced (décomposition complète pour les régulateurs)
Évaluation de la qualité des leads	Advanced (Noise Rate attrape le déchet qui passe les contrôles de format)
Évaluation pré-migration	Advanced (décomposition complète pour cadrer la remédiation)
Gouvernance continue des données	Commencer par Format Validation, passer à Advanced pour la détection de bruit

Configurer la validité

Contrairement à la complétude (qui fonctionne automatiquement sur n’importe quel champ), la validité nécessite une configuration. Vous devez définir ce que « valide » signifie pour chaque champ avant que DQS puisse le contrôler. Un scan de validité sans motif n’a aucun sens : valide par rapport à quoi ?

DQS fournit 5 paramètres de configuration. Chacun peut être défini au niveau global et surchargé au niveau du champ individuel.

Paramètre	Ce qu’il contrôle
Pattern Type	Le format à valider. Choisissez parmi Email, URL, Fixed Length ou Custom regex. Obligatoire : vous devez choisir un type de motif avant de lancer un scan.
Pattern / Fixed Length	La valeur précise pour le type choisi. Pour Fixed Length, entrez un nombre de caractères (1 à 255). Pour Custom, entrez une regex. Email et URL utilisent des motifs intégrés.
Custom Pattern	Votre propre regex quand Pattern Type est Custom. DQS valide votre regex avant sauvegarde et bloque les expressions invalides.
Include Blanks	Lorsqu’il est activé, DQS compte les valeurs vides comme invalides. Lorsqu’il est désactivé (par défaut), les blancs sont exclus de l’évaluation.
Case Sensitive	Lorsqu’il est activé, la correspondance tient compte de la casse. Lorsqu’il est désactivé (par défaut), la correspondance ignore la casse.

Types de motifs

Type	Ce qu’il valide	Exemple passant	Exemple échouant
Email	Format d’adresse e-mail standard : [email protected]	[email protected]	user@domain, invalid-email
URL	Adresses web HTTP/HTTPS avec domaine valide	https://example.com	example.com, htp://site.com
Fixed Length	Nombre exact de caractères (que vous définissez)	`AAAAAAAAAA` (10 caractères, si length = 10)	`SHORT` (5 caractères)
Custom	Tout motif regex que vous définissez	Selon votre motif	Selon votre motif

Exemple : vos codes produits suivent le format « DQS- » suivi de 6 chiffres. Définissez Pattern Type sur Custom et entrez la regex ^DQS-\d{6}$. DQS signale tout code produit qui ne respecte pas cette structure.

Détection de bruit

La détection de bruit attrape des données qui passent les contrôles de format mais qui restent du déchet. DQS utilise deux heuristiques intégrées pour identifier les valeurs bruyantes :

Heuristique 1 : caractères identiques consécutifs. Trois caractères identiques ou plus d’affilée. Des valeurs comme « aaaa », « !!! », « --- » ou « xxxxx » déclenchent ce contrôle. Elles proviennent typiquement d’une touche enfoncée, de padding ou d’un abus de placeholder.

Heuristique 2 : caractères spéciaux excessifs. Plus de 50 % de caractères non alphanumériques (hors espaces). Des valeurs comme « !@#$%^ » ou « ***///--- » déclenchent ce contrôle. Elles indiquent un écrasement de clavier, une entrée de bot ou un déchet délibéré.

Heuristique	Ce qu’elle attrape	Exemples bruyants	Exemples propres
3 caractères identiques consécutifs ou plus	Padding, remplissage, touche enfoncée	« aaaa », « !!! », « --- », « xxxxx »	« Premium », « DOT AB3 2024 »
Plus de 50 % de caractères spéciaux	Écrasement de clavier, bot, déchet	« !@#$%^ », « ***test », « //—// »	« [email protected] », « O’Brien Inc »

Vous pouvez aussi définir des motifs de bruit personnalisés via regex pour le déchet spécifique à votre org que les heuristiques intégrées ne couvrent pas.

Astuce : la détection de bruit est la plus utile sur les champs texte libre où les utilisateurs peuvent tout taper : Company, Description, Notes et champs texte personnalisés. Lancez-la d’abord sur vos champs web-to-lead, où les soumissions de bots et les entrées forcées sont les plus courantes.

Problèmes de validité courants

Adresses e-mail invalides

Les utilisateurs saisissent des e-mails sans format correct. « @ » manquants, domaines manquants, doubles points et fautes de frappe sont les problèmes les plus courants.

Problème	Exemple
@ manquant	john.company.com
Domaine manquant	john@
Doubles points	[email protected]
Fautes de frappe	[email protected]

Impact : e-mails rejetés, score d’expéditeur dégradé, communications perdues.

Numéros de téléphone mal formés

Les champs Phone acceptent n’importe quel texte dans Salesforce, ce qui mène à des formats incohérents et invalides.

Problème	Exemple
Lettres mélangées	555-CALL-NOW
Mauvais nombre de chiffres	555-12
Extension dans le champ	555-1234 ext 5
Confusion indicatif pays	1-555-123-4567 vs 555-123-4567

Impact : appels échoués, temps commercial gaspillé, erreurs de synchronisation téléphonie.

URL invalides

Les champs d’adresses web contiennent souvent des valeurs partielles ou mal formées.

Problème	Exemple
Protocole manquant	www.company.com
Domaine manquant	https://
Fautes de frappe	htps://company.com
Identifiants sociaux	@company (pas une URL)

Impact : liens cassés, enrichissement échoué, erreurs de navigation.

Bonnes pratiques

Validez à la saisie

Le meilleur contrôle de validité a lieu à la saisie. Utilisez des Validation Rules Salesforce pour imposer les formats avant que les données n’entrent dans votre système.

// Exemple : Validation Rule de format d'e-mail
NOT(ISBLANK(Email)) && NOT(REGEX(Email, "^[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\\.[A-Za-z]{2,}$"))

Standardisez les formats avant de scanner

Choisissez un seul format par champ et imposez-le. Pour les numéros de téléphone, E.164 (+15551234567) est le standard le plus universellement accepté. Pour les URL, exigez le protocole https://. Documentez vos décisions de format pour que l’équipe connaisse le standard.

Fixez les seuils selon la priorité du champ

Différents champs nécessitent des standards de validité différents :

Champ	Seuil suggéré	Justification
Email primaire	95 %+	Critique pour la communication
Phone	90 %+	Important mais données historiques à prévoir
Website	85 %+	Souvent saisi de façon incomplète
Codes texte personnalisés	98 %+	Générés par le système, haute conformité attendue

Utilisez la détection de bruit sur les champs texte libre

Lancez la détection de bruit sur les champs où les utilisateurs saisissent du texte libre : Company, Description, champs texte personnalisés et tout champ alimenté par des formulaires web. Noise Rate révèle des problèmes que la validation de format ne voit pas.

Documentez les formats attendus

Créez un dictionnaire de données qui précise le format attendu pour chaque champ, les variantes acceptables et des exemples de valeurs valides et invalides. Partagez-le avec votre équipe et référez-vous-y lors des projets de nettoyage.

Étapes suivantes

Vous comprenez désormais comment valider les formats de données et détecter les valeurs bruyantes. Poursuivez avec la dimension suivante :

Dans Salesforce : La qualité des données dans Salesforce — appliquez des formats valides à vos champs Salesforce
Suivant : Unicité — détecter et prévenir les enregistrements en double
Précédent : Complétude — s’assurer que les données requises sont présentes
Associé : Les cinq dimensions — vue d’ensemble de toutes les dimensions
Action : Évaluation de préparation à l’IA — voir vos scores de validité actuels