Qu’est-ce que la validité ?
La validité mesure si les valeurs respectent les formats et motifs attendus. Une valeur est valide lorsqu’elle correspond à la structure définie. Elle est invalide lorsqu’elle enfreint les règles de format.
Une adresse e-mail est valide lorsqu’elle contient un « @ » et un domaine. Une URL est valide lorsqu’elle commence par un protocole et contient un domaine. Un code produit est valide lorsqu’il a le nombre exact de caractères que votre système exige.
DQS valide les valeurs de champs à l’aide d’expressions régulières (regex). Vous choisissez parmi les motifs intégrés pour les formats courants comme Email, URL et Fixed Length, ou vous écrivez votre propre regex pour tout format spécifique à votre métier.
Taux de validité = (Enregistrements correspondant au motif / Total des enregistrements) x 100
Si 35 500 des 50 000 enregistrements Contact ont une adresse e-mail qui correspond au motif e-mail, votre taux de validité Email est de 71 %. Les 29 % restants contiennent des valeurs qui échouent au contrôle.
Validité vs exactitude
Validité et exactitude sont deux concepts différents :
| Contrôle | Valide ? | Exact ? |
|---|---|---|
| [email protected] | Oui | Inconnu sans vérification |
| john@company | Non | S/O (format erroné) |
| [email protected] | Oui | Non (personne partie de l’entreprise) |
| 555-123-4567 | Oui | Inconnu sans appel |
| 555-12-456 | Non | S/O (mauvais nombre de chiffres) |
DQS mesure la validité parce que les contrôles de format peuvent être automatisés. L’exactitude nécessite une vérification externe ou humaine.
Des données valides fonctionnent dans vos systèmes même si elles ne reflètent pas la réalité. Des données invalides cassent vos systèmes indépendamment de leur véracité. Concentrez-vous d’abord sur la validité. Traitez l’exactitude par des processus de vérification.
Pourquoi la validité compte
Des données invalides provoquent des défaillances à travers toute votre stack. Les e-mails rejetés abîment la réputation d’expéditeur. Les numéros de téléphone mal formés font perdre du temps aux systèmes d’appel. Les URL cassées frustrent les utilisateurs et bloquent les outils d’enrichissement.
Les API rejettent les données mal formées. Quand votre intégration envoie un format d’e-mail invalide à une plateforme marketing, le lot entier peut échouer. Les Flows Salesforce qui parsent des valeurs de champs se cassent quand le format est inattendu.
Les modèles d’IA traitent le texte tel quel. Quand un champ de téléphone contient « Tél. : 555-1234 » au lieu d’un numéro propre, le modèle voit des motifs incohérents. Les formats invalides réduisent l’efficacité de l’IA et produisent des résultats peu fiables dans Agentforce.
| Système | Impact de la validité |
|---|---|
| Campagnes e-mail | Les rejets abîment la réputation d’expéditeur |
| Téléphonie | Les numéros invalides font perdre du temps |
| Liens web | Les URL cassées bloquent l’enrichissement et la navigation |
| API | Les données mal formées provoquent des échecs de synchronisation |
| IA et Agentforce | Les formats incohérents réduisent la précision du modèle |
Comment DQS mesure la validité
DQS produit 6 métriques de validité organisées autour d’une question de diagnostic : « La donnée correspond-elle au motif, et y a-t-il du bruit caché dans les valeurs qui passent ? »
Considérez ces métriques comme un flux de diagnostic. Chaque étape révèle une couche plus profonde du problème.
Étape 1 : correspond-elle au motif ?
Le taux de validité est la métrique principale. Il calcule le pourcentage d’enregistrements où la valeur du champ correspond au motif configuré. C’est le chiffre à afficher sur un dashboard.
Vous configurez le motif Email sur le champ PersonEmail des Contacts. Le taux de validité revient à 71 %. Cela signifie que 29 % des adresses e-mail échouent au contrôle de format. Il leur manque le « @ », le domaine, ou elles contiennent des espaces. Toutes les campagnes marketing envoyées à ces adresses rebondissent. Tous les Workflows qui se déclenchent sur l’e-mail échouent silencieusement.
Valid Count vous donne le nombre absolu. Sur 50 000 Contacts, 35 800 ont une adresse e-mail valide. C’est votre audience e-mail réellement adressable, pas les 50 000 du système. Le marketing peut définir des projections de campagne réalistes au lieu de travailler à partir de chiffres gonflés.
Étape 2 : quelle est la décomposition complète ?
Les taux indiquent la gravité. Les comptages indiquent la charge de travail. Deux métriques complètent le tableau :
| Métrique | Ce qu’elle vous dit |
|---|---|
| Invalid Rate | La formulation négative de votre score de validité. « 29 % de nos adresses e-mail sont structurellement invalides » attire plus l’attention dans une présentation au board que « 71 % sont valides ». Mêmes données, formulation orientée action. |
| Invalid Count | La charge de nettoyage en chiffre brut. Votre entreprise migre vers un nouveau système de téléphonie qui exige le format E.164. Invalid Count sur le champ Phone : 23 400. C’est le nombre exact d’enregistrements à reformater avant la mise en production. |
Étape 3 : y a-t-il du bruit au-delà des erreurs de format ?
Une valeur peut passer un contrôle de format et rester du déchet. Votre formulaire web-to-lead exige un champ Company. Le taux de validité sur Company est de 98 %, parce que presque tout passe un motif texte basique. Mais Noise Rate révèle que 14 % de ces valeurs sont des entrées comme « asdf », « test », « xxxxx » ou « na na na ». Format valide, mais totalement inutile pour le routage commercial, l’enrichissement ou la segmentation.
Noisy Records Count vous donne le périmètre du nettoyage. Si Noise Rate est de 14 % sur 50 000 enregistrements, cela fait 7 000 leads avec des noms d’entreprise poubelle. Votre équipe opérationnelle peut constituer une file de nettoyage, estimer les heures et décider de supprimer automatiquement ou de marquer pour revue manuelle.
Deux catégories d’échec
Les métriques de validité distinguent deux problèmes fondamentalement différents :
| Problème | Métriques | Cause racine | Correctif |
|---|---|---|---|
| Erreurs de format | Validity Rate, Invalid Rate, Valid/Invalid Count | Erreurs humaines, bugs d’intégration, Validation Rules manquantes | Nettoyer les données : Validation Rules, transformation, enrichissement |
| Bruit et déchet | Noise Rate, Noisy Records Count | Bots, soumissions forcées de formulaires, imports massifs avec des valeurs par défaut poubelle | Corriger la source : CAPTCHA, refonte des champs obligatoires, suppression d’enregistrements |
La distinction compte parce que le correctif est complètement différent. Les erreurs de format se résolvent en nettoyant les données. Le bruit se résout en corrigeant la source qui le produit.
Référence des métriques
Métriques fondamentales
Ces 2 métriques forment la base de toute analyse de validité. Elles vous disent le taux de correspondance et le nombre d’enregistrements qui passent.
| Métrique | Type | Ce qu’elle mesure |
|---|---|---|
| Validity Rate | Pourcentage | Part des enregistrements correspondant au motif configuré |
| Valid Count | Comptage | Nombre d’enregistrements correspondant au motif configuré |
Métriques avancées
Ces 4 métriques vont au-delà de « correspond-elle ? » pour donner la décomposition complète, y compris la détection de bruit. Elles nécessitent le mode Advanced Format Validation.
| Métrique | Type | Ce qu’elle mesure |
|---|---|---|
| Invalid Rate | Pourcentage | Part des enregistrements échouant au motif |
| Invalid Count | Comptage | Nombre d’enregistrements échouant au motif |
| Noise Rate | Pourcentage | Part des enregistrements contenant des motifs de bruit (données poubelle) |
| Noisy Records Count | Comptage | Nombre d’enregistrements contenant des motifs de bruit |
Pourquoi taux et comptages vont par paires
La plupart des métriques viennent sous forme de taux et de comptage. C’est intentionnel :
- Les taux servent aux dashboards, au reporting direction et au suivi de tendances. « La validité est passée de 71 % à 92 % ce trimestre. »
- Les comptages servent à la planification de projet. « Nous avons 23 400 numéros de téléphone à reformater. »
Utilisez les taux pour communiquer les progrès. Utilisez les comptages pour planifier le travail.
Couverture des types de champs
Les 6 métriques de validité partagent la même base de types de champs, avec les métriques de bruit limitées aux champs texte.
| Métrique | Les 6 types de champs | String et TextArea uniquement |
|---|---|---|
| Validity Rate | X | |
| Valid Count | X | |
| Invalid Rate | X | |
| Invalid Count | X | |
| Noise Rate | X | |
| Noisy Records Count | X |
Les métriques fondées sur le motif (Validity Rate, Valid Count, Invalid Rate, Invalid Count) fonctionnent sur les 6 types de champs pris en charge : String, TextArea, Email, Phone, URL et Picklist.
Les métriques de bruit (Noise Rate, Noisy Records Count) ne s’appliquent qu’aux champs String et TextArea. Les motifs de bruit comme les caractères répétés ou l’écrasement de clavier sont des phénomènes de texte libre. Un champ Picklist avec une valeur valide ne peut pas contenir de bruit. La détection de bruit n’a de sens que sur les champs où les utilisateurs saisissent du texte libre.
Deux modes d’analyse
DQS propose deux modes d’analyse de validité :
Le mode Format Validation répond à la question : « Les valeurs correspondent-elles au motif attendu ? » Il produit les 2 métriques fondamentales et couvre l’essentiel d’un contrôle de conformité de format ou d’un audit rapide.
Le mode Advanced Format Validation va plus loin. Il produit les 6 métriques, y compris la décomposition complète valide/invalide et la détection de bruit. Utilisez ce mode quand vous devez distinguer les erreurs de format des données poubelle, ou quand vous avez besoin de comptages précis pour planifier un projet de nettoyage.
| Besoin métier | Mode recommandé |
|---|---|
| Contrôle rapide de conformité de format | Format Validation |
| Reporting ou audit de conformité | Advanced (décomposition complète pour les régulateurs) |
| Évaluation de la qualité des leads | Advanced (Noise Rate attrape le déchet qui passe les contrôles de format) |
| Évaluation pré-migration | Advanced (décomposition complète pour cadrer la remédiation) |
| Gouvernance continue des données | Commencer par Format Validation, passer à Advanced pour la détection de bruit |
Configurer la validité
Contrairement à la complétude (qui fonctionne automatiquement sur n’importe quel champ), la validité nécessite une configuration. Vous devez définir ce que « valide » signifie pour chaque champ avant que DQS puisse le contrôler. Un scan de validité sans motif n’a aucun sens : valide par rapport à quoi ?
DQS fournit 5 paramètres de configuration. Chacun peut être défini au niveau global et surchargé au niveau du champ individuel.
| Paramètre | Ce qu’il contrôle |
|---|---|
| Pattern Type | Le format à valider. Choisissez parmi Email, URL, Fixed Length ou Custom regex. Obligatoire : vous devez choisir un type de motif avant de lancer un scan. |
| Pattern / Fixed Length | La valeur précise pour le type choisi. Pour Fixed Length, entrez un nombre de caractères (1 à 255). Pour Custom, entrez une regex. Email et URL utilisent des motifs intégrés. |
| Custom Pattern | Votre propre regex quand Pattern Type est Custom. DQS valide votre regex avant sauvegarde et bloque les expressions invalides. |
| Include Blanks | Lorsqu’il est activé, DQS compte les valeurs vides comme invalides. Lorsqu’il est désactivé (par défaut), les blancs sont exclus de l’évaluation. |
| Case Sensitive | Lorsqu’il est activé, la correspondance tient compte de la casse. Lorsqu’il est désactivé (par défaut), la correspondance ignore la casse. |
Types de motifs
| Type | Ce qu’il valide | Exemple passant | Exemple échouant |
|---|---|---|---|
| Format d’adresse e-mail standard : [email protected] | [email protected] | user@domain, invalid-email | |
| URL | Adresses web HTTP/HTTPS avec domaine valide | https://example.com | example.com, htp://site.com |
| Fixed Length | Nombre exact de caractères (que vous définissez) | AAAAAAAAAA (10 caractères, si length = 10) | SHORT (5 caractères) |
| Custom | Tout motif regex que vous définissez | Selon votre motif | Selon votre motif |
Exemple : vos codes produits suivent le format « DQS- » suivi de 6 chiffres. Définissez Pattern Type sur Custom et entrez la regex ^DQS-\d{6}$. DQS signale tout code produit qui ne respecte pas cette structure.
Détection de bruit
La détection de bruit attrape des données qui passent les contrôles de format mais qui restent du déchet. DQS utilise deux heuristiques intégrées pour identifier les valeurs bruyantes :
Heuristique 1 : caractères identiques consécutifs. Trois caractères identiques ou plus d’affilée. Des valeurs comme « aaaa », « !!! », « --- » ou « xxxxx » déclenchent ce contrôle. Elles proviennent typiquement d’une touche enfoncée, de padding ou d’un abus de placeholder.
Heuristique 2 : caractères spéciaux excessifs. Plus de 50 % de caractères non alphanumériques (hors espaces). Des valeurs comme « !@#$%^ » ou « ***///--- » déclenchent ce contrôle. Elles indiquent un écrasement de clavier, une entrée de bot ou un déchet délibéré.
| Heuristique | Ce qu’elle attrape | Exemples bruyants | Exemples propres |
|---|---|---|---|
| 3 caractères identiques consécutifs ou plus | Padding, remplissage, touche enfoncée | « aaaa », « !!! », « --- », « xxxxx » | « Premium », « DOT AB3 2024 » |
| Plus de 50 % de caractères spéciaux | Écrasement de clavier, bot, déchet | « !@#$%^ », « ***test », « //—// » | « [email protected] », « O’Brien Inc » |
Vous pouvez aussi définir des motifs de bruit personnalisés via regex pour le déchet spécifique à votre org que les heuristiques intégrées ne couvrent pas.
Astuce : la détection de bruit est la plus utile sur les champs texte libre où les utilisateurs peuvent tout taper : Company, Description, Notes et champs texte personnalisés. Lancez-la d’abord sur vos champs web-to-lead, où les soumissions de bots et les entrées forcées sont les plus courantes.
Problèmes de validité courants
Adresses e-mail invalides
Les utilisateurs saisissent des e-mails sans format correct. « @ » manquants, domaines manquants, doubles points et fautes de frappe sont les problèmes les plus courants.
| Problème | Exemple |
|---|---|
| @ manquant | john.company.com |
| Domaine manquant | john@ |
| Doubles points | [email protected] |
| Fautes de frappe | [email protected] |
Impact : e-mails rejetés, score d’expéditeur dégradé, communications perdues.
Numéros de téléphone mal formés
Les champs Phone acceptent n’importe quel texte dans Salesforce, ce qui mène à des formats incohérents et invalides.
| Problème | Exemple |
|---|---|
| Lettres mélangées | 555-CALL-NOW |
| Mauvais nombre de chiffres | 555-12 |
| Extension dans le champ | 555-1234 ext 5 |
| Confusion indicatif pays | 1-555-123-4567 vs 555-123-4567 |
Impact : appels échoués, temps commercial gaspillé, erreurs de synchronisation téléphonie.
URL invalides
Les champs d’adresses web contiennent souvent des valeurs partielles ou mal formées.
| Problème | Exemple |
|---|---|
| Protocole manquant | www.company.com |
| Domaine manquant | https:// |
| Fautes de frappe | htps://company.com |
| Identifiants sociaux | @company (pas une URL) |
Impact : liens cassés, enrichissement échoué, erreurs de navigation.
Bonnes pratiques
Validez à la saisie
Le meilleur contrôle de validité a lieu à la saisie. Utilisez des Validation Rules Salesforce pour imposer les formats avant que les données n’entrent dans votre système.
// Exemple : Validation Rule de format d'e-mail
NOT(ISBLANK(Email)) && NOT(REGEX(Email, "^[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\\.[A-Za-z]{2,}$"))
Standardisez les formats avant de scanner
Choisissez un seul format par champ et imposez-le. Pour les numéros de téléphone, E.164 (+15551234567) est le standard le plus universellement accepté. Pour les URL, exigez le protocole https://. Documentez vos décisions de format pour que l’équipe connaisse le standard.
Fixez les seuils selon la priorité du champ
Différents champs nécessitent des standards de validité différents :
| Champ | Seuil suggéré | Justification |
|---|---|---|
| Email primaire | 95 %+ | Critique pour la communication |
| Phone | 90 %+ | Important mais données historiques à prévoir |
| Website | 85 %+ | Souvent saisi de façon incomplète |
| Codes texte personnalisés | 98 %+ | Générés par le système, haute conformité attendue |
Utilisez la détection de bruit sur les champs texte libre
Lancez la détection de bruit sur les champs où les utilisateurs saisissent du texte libre : Company, Description, champs texte personnalisés et tout champ alimenté par des formulaires web. Noise Rate révèle des problèmes que la validation de format ne voit pas.
Documentez les formats attendus
Créez un dictionnaire de données qui précise le format attendu pour chaque champ, les variantes acceptables et des exemples de valeurs valides et invalides. Partagez-le avec votre équipe et référez-vous-y lors des projets de nettoyage.
Étapes suivantes
Vous comprenez désormais comment valider les formats de données et détecter les valeurs bruyantes. Poursuivez avec la dimension suivante :
- Dans Salesforce : La qualité des données dans Salesforce — appliquez des formats valides à vos champs Salesforce
- Suivant : Unicité — détecter et prévenir les enregistrements en double
- Précédent : Complétude — s’assurer que les données requises sont présentes
- Associé : Les cinq dimensions — vue d’ensemble de toutes les dimensions
- Action : Évaluation de préparation à l’IA — voir vos scores de validité actuels