Skip to main content

Unicité

Les 6 métriques d'unicité mesurées par DQS, le flux de diagnostic pour trouver les doublons et le contenu répétitif, et comment configurer l'analyse d'unicité.

Qu’est-ce que l’unicité ?

L’unicité mesure si vos valeurs sont distinctes et non dupliquées. Un champ a une unicité élevée quand chaque enregistrement contient une valeur différente. L’unicité s’effondre quand la même valeur apparaît dans plusieurs enregistrements, ou quand des champs texte contiennent du contenu répétitif issu de modèles qui n’apporte aucune valeur analytique.

Les enregistrements en double coûtent à votre organisation à chaque étape. Trois enregistrements Account pour la même société fractionnent votre pipeline. Deux enregistrements Contact pour la même personne reçoivent deux e-mails marketing. Un texte standardisé collé dans des milliers de descriptions de Cases rend impossible l’extraction d’insights. L’analyse d’unicité quantifie tous ces problèmes.

Taux d'unicité = (Enregistrements avec valeurs uniques / Total) x 100

Si 7 800 des 10 000 enregistrements Contact ont une valeur Email distincte, votre taux d’unicité Email est de 78 %. Les 22 % restants partagent des adresses e-mail avec au moins un autre enregistrement. Cette métrique vous dit si un champ censé être unique l’est vraiment.

Pourquoi l’unicité compte

Reporting

Les doublons gonflent vos chiffres. Quand la même société apparaît sous trois Accounts, votre nombre d’Accounts est surestimé de deux. Les rapports de pipeline affichent trois affaires là où il y en a une. Les comptes clients utilisés dans les présentations board et le reporting investisseurs sont faux.

Automatisation

L’automatisation Salesforce traite chaque enregistrement indépendamment. Un Account en double déclenche des Workflows en double, envoie des notifications en double et crée des Tasks en double. Un processus de renouvellement qui se déclenche sur chaque Account correspondant à un nom d’entreprise se déclenche trois fois au lieu d’une.

IA et Agentforce

Les modèles d’IA traitent chaque enregistrement comme une entité distincte. Les enregistrements en double fragmentent la vue qu’a le modèle d’un client. Agentforce génère des réponses en utilisant vos données Salesforce. Quand trois enregistrements Account existent pour la même société, Agentforce voit trois clients, pas un avec un historique complet. Un contenu répétitif dans les champs texte apprend au modèle vos modèles, pas vos motifs métier.

SystèmeImpact de l’unicité
RapportsComptes gonflés, métriques fragmentées
WorkflowsDéclencheurs en double, notifications redondantes
Duplicate RulesSurchargées par les doublons existants si non détectés
AgentforceVue client fragmentée, apprentissage pollué par les modèles

Comment DQS mesure l’unicité

DQS produit 6 métriques d’unicité organisées autour d’une question de diagnostic : « La donnée est-elle distincte, comment est-elle distribuée et le contenu texte est-il original ? »

Considérez ces métriques comme un flux de diagnostic. Chaque couche s’appuie sur la précédente.

Couche 1 : les valeurs sont-elles uniques ?

Le taux d’unicité est la métrique principale. Il calcule le pourcentage d’enregistrements où la valeur est distincte (non dupliquée ailleurs dans le jeu de données). C’est le chiffre à afficher sur un dashboard.

Vous lancez un scan sur l’objet Contact. Le champ Email affiche un taux d’unicité de 78 %. Cela signifie que 22 % des adresses e-mail apparaissent sur plus d’un Contact. Certaines sont légitimes (e-mails partagés comme [email protected]), mais la plupart sont probablement des Contacts en double à fusionner. Ce chiffre justifie à lui seul une initiative de déduplication.

Distinct Count vous indique la cardinalité du champ : combien de valeurs différentes existent réellement. Si 10 000 enregistrements Contact contiennent 8 200 adresses e-mail distinctes, Distinct Count vaut 8 200.

Exemple : vous vous attendez à ce que la picklist Lead_Source ait environ 12 valeurs. Mais Distinct Count en affiche 87. Avant que la picklist soit restreinte, les commerciaux saisissaient du texte libre. « Web », « web », « Website », « Webinar », « web form » sont tous comptés comme distincts. Cette métrique révèle que vos données Lead Source ont besoin d’une normalisation, même si la picklist est désormais verrouillée.

Couche 2 : comment la donnée est-elle distribuée ?

Le taux d’unicité vous dit combien de valeurs sont uniques. Les métriques de distribution vous disent comment ces valeurs sont réparties. Deux champs peuvent avoir le même taux d’unicité mais des distributions très différentes.

Entropy mesure l’uniformité de la distribution des valeurs à l’aide de l’entropie de Shannon. L’échelle va de 0 (chaque enregistrement a la même valeur) à un maximum déterminé par le nombre de valeurs distinctes. Plus l’entropie est élevée, plus les données sont diverses et réparties.

L’entropie seule ne veut rien dire. Comparez-la à l’entropie maximale possible pour ce champ. Max = log2(Distinct Count), c’est-à-dire l’entropie que vous obtiendriez si chaque valeur distincte apparaissait exactement le même nombre de fois. Le ratio (réel / max) donne un score normalisé de 0 à 1 :

Normalisé (réel / max)Interprétation
0,9 ou plusDistribution uniforme : valeurs réparties uniformément
0,7 à 0,9Asymétrie modérée : certaines valeurs apparaissent plus souvent
En dessous de 0,7Dominé : quelques valeurs détiennent la majorité des enregistrements

Exemple : votre champ Industry sur Accounts a un taux d’unicité de 2 % (attendu pour une picklist) et 24 valeurs distinctes. Cela semble correct. Mais l’entropie est à 1,3, et l’entropie maximale pour 24 valeurs est à 4,6. Le score normalisé est de 0,28. La distribution est très asymétrique : 60 % des enregistrements sont « Technology » et « Financial Services ». Votre segmentation par industrie est en réalité un système à deux seaux déguisé en 24 catégories.

Max Frequency vous donne le nombre d’occurrences de la seule valeur la plus courante. Si « London » apparaît 8 400 fois dans le champ City, Max Frequency vaut 8 400.

Une valeur dominante unique signale souvent un problème de valeur par défaut, un artefact de migration ou une véritable concentration métier qui mérite investigation. Max Frequency soulève la question ; un rapide examen de la valeur réelle y répond.

Exemple : le champ Billing_Country a une Max Frequency de 34 000 sur 40 000 enregistrements. Cela fait 85 % des enregistrements avec un seul pays. Soit votre activité est vraiment concentrée sur un marché, soit quelqu’un a défini une valeur par défaut pendant la migration. La métrique fait émerger le motif ; c’est à vous d’en déterminer la cause.

Couche 3 : le contenu texte est-il original ?

Les deux premières couches mesurent si les valeurs sont identiques. La couche 3 pose une autre question : le contenu texte est-il substantiellement similaire ? Deux descriptions de Cases peuvent être 100 % uniques (numéros et dates différents) mais 90 % standardisées (même modèle, mêmes formules).

Boilerplate Rate est la métrique principale de l’originalité du contenu texte. Elle mesure le pourcentage de contenu qui est répétitif ou issu d’un modèle. Un score plus élevé signifie plus de contenu original avec moins de standardisation. DQS détecte les modèles courants comme les signatures d’e-mails, les mentions légales et les phrases répétées.

Exemple : votre organisation évalue si le champ Description sur Opportunities convient à une analyse win/loss par IA. Le taux d’unicité est de 99 % (chaque description est techniquement différente). Mais Boilerplate Rate révèle que 65 % du contenu suit le même modèle : « Client : [nom]. Besoin : [produit]. Échéance : [date]. » Le modèle d’IA apprendrait la structure du modèle, pas les motifs de victoire. Boilerplate Rate vous évite un projet d’IA « garbage in, garbage out ».

Boilerplate Records Count vous donne le périmètre du nettoyage en nombre absolu. Si 12 400 enregistrements contiennent du boilerplate, votre data steward connaît la taille du projet de remédiation.

Exemple : votre équipe de support consigne chaque interaction dans Case Comments. Boilerplate Records Count affiche 12 400. L’enquête révèle que les agents collent une ouverture standard (« Merci d’avoir contacté le support. Votre numéro de Case est… ») et une fermeture (« N’hésitez pas à nous recontacter… ») dans chaque Case. Avant d’utiliser l’IA pour analyser les interactions, ces 12 400 enregistrements doivent voir leur boilerplate retiré.

Trois angles d’analyse

Les métriques d’unicité couvrent trois préoccupations distinctes, chacune servant une partie prenante différente :

PréoccupationMétriquesQuestionPartie prenante
DuplicationUniqueness Rate, Distinct CountAvons-nous des valeurs répétées ?Data stewards (candidats à la fusion, Duplicate Rules)
DistributionEntropy, Max FrequencyComment la donnée est-elle répartie ?Analystes et data scientists (segmentation, modélisation)
OriginalitéBoilerplate Rate, Boilerplate Records CountLe contenu texte est-il vraiment original ?Équipes IA (qualité des données d’entraînement, extraction de contenu)

Référence des métriques

Métriques fondamentales

Ces 2 métriques forment la base de toute analyse d’unicité. Elles fonctionnent sur les 15 types de champs pris en charge.

MétriqueTypeCe qu’elle mesure
Uniqueness RatePourcentagePart des enregistrements avec des valeurs non dupliquées
Distinct CountComptageNombre total de valeurs distinctes dans le champ

Métriques avancées

Ces 4 métriques vont au-delà de « les valeurs sont-elles uniques ? » pour analyser les motifs de distribution et l’originalité textuelle. Elles nécessitent le mode Advanced Uniqueness Analysis.

MétriqueTypeCe qu’elle mesure
EntropyDécimalUniformité de la distribution (entropie de Shannon)
Max FrequencyComptageNombre d’occurrences de la valeur la plus courante
Boilerplate RatePourcentageDegré de contenu standardisé ou répétitif
Boilerplate Records CountComptageNombre d’enregistrements avec contenu standardisé

Couverture des types de champs

Différentes métriques s’appliquent à différents types de champs selon ce qu’elles mesurent.

Groupe de couvertureTypes de champsMétriques disponibles
Tous types (15)String, TextArea, LongTextArea, Number, Currency, Percent, AutoNumber, Date, DateTime, Picklist, Email, Phone, URL, Lookup, CheckboxUniqueness Rate, Distinct Count
Types analysables (9)String, TextArea, Number, Picklist, Multiselect Picklist, Checkbox, Email, Phone, URLEntropy, Max Frequency
Champs texte (3)String, TextArea, HtmlBoilerplate Records Count
Champs texte long (3)TextArea, LongTextArea, HtmlBoilerplate Rate

Les métriques principales fonctionnent sur les 15 types de champs parce que tout champ peut avoir des doublons. Les métriques de distribution fonctionnent sur 9 types de champs qui produisent des tables de fréquences comptables. Les métriques de boilerplate ne s’appliquent qu’aux champs texte car elles détectent des motifs de contenu répété dans du texte libre.

Deux modes d’analyse

DQS propose deux modes d’analyse d’unicité :

Le mode Basic Uniqueness répond à la question : « Les valeurs sont-elles distinctes ? » Il produit les 2 métriques fondamentales et couvre l’essentiel d’une détection rapide de doublons ou d’un audit de référence.

Le mode Advanced Uniqueness Analysis va plus loin. Il produit les 6 métriques, y compris l’analyse de distribution, les motifs de fréquence et la détection de boilerplate. Utilisez-le quand vous avez besoin de comprendre l’image complète de la distribution et de l’originalité du contenu texte.

Besoin métierMode recommandé
Audit rapide de détection de doublonsBasic Uniqueness
Évaluation de migration de donnéesAdvanced (Max Frequency attrape les valeurs par défaut, Entropy révèle l’asymétrie)
Hygiène des picklistsAdvanced (Entropy + Max Frequency révèlent l’asymétrie et les besoins de normalisation)
Évaluation des données d’entraînement IAAdvanced (les métriques de boilerplate évaluent l’originalité)
Gouvernance continueCommencer par Basic Uniqueness, passer à Advanced pour une analyse plus poussée

Configurer l’unicité

DQS fournit 2 paramètres de configuration pour l’unicité. Chacun peut être défini au niveau global et surchargé au niveau du champ.

ParamètreCe qu’il contrôle
Case SensitiveContrôle si la comparaison des valeurs tient compte de la casse. Lorsqu’il est désactivé (par défaut), « Apple » et « apple » comptent comme la même valeur. Lorsqu’il est activé, elles comptent comme deux valeurs distinctes.
Include BlanksContrôle si les enregistrements null et vides sont comptés. Lorsqu’il est désactivé (par défaut), les blancs sont exclus de l’évaluation. Lorsqu’il est activé, tous les enregistrements vides partagent une seule valeur « blanc », ce qui peut faire baisser le taux d’unicité.

Astuce : laissez Case Sensitive désactivé (par défaut) pour la plupart des champs. Activez-le uniquement quand la casse porte du sens, comme pour des codes produits où « ABC-100 » et « abc-100 » sont vraiment différents.

Quand activer Include Blanks

Par défaut, DQS exclut les enregistrements vides et null des calculs d’unicité. Cela a du sens pour les champs optionnels où les blancs sont attendus.

Activez Include Blanks quand les blancs eux-mêmes sont le problème à mesurer. Si 3 000 enregistrements Contact n’ont pas de valeur Email, ces 3 000 blancs partagent une valeur « blanc » dans le calcul. Cela abaisse le taux d’unicité et rend le problème visible dans la métrique principale.

Exemple : vous scannez Phone sur Contacts avec Include Blanks désactivé. Le taux d’unicité est de 91 %. Vous activez Include Blanks et relancez. Le taux tombe à 72 %. La différence révèle qu’une grande partie de vos Contacts partagent un trait commun : pas de numéro de téléphone. Le champ semblait sain quand les blancs étaient exclus, mais l’image complète raconte une autre histoire.

Problèmes d’unicité courants

Doublons issus d’imports massifs

Les migrations et les imports de listes introduisent des doublons quand la logique de rapprochement est insuffisante. Une liste de contacts achetée crée de nouveaux enregistrements pour des personnes déjà existantes. Un export de système legacy crée des Accounts qui chevauchent les données actuelles.

Correctif : auditez les imports avant chargement. Utilisez DQS pour établir une référence d’unicité sur les champs identifiants (Email, Phone, Website) avant et après chaque import.

Valeurs par défaut déguisées en données

Les intégrations et migrations écrivent souvent des valeurs par défaut dans les champs. « Unknown », « N/A » ou le nom même de l’entreprise apparaît sur des milliers d’enregistrements. Ces valeurs gonflent les comptages de doublons et déforment les métriques de distribution.

Correctif : lancez l’analyse d’unicité avancée. Max Frequency révèle la valeur dominante. Si une valeur apparaît sur 85 % des enregistrements, cherchez à savoir si c’est une donnée réelle ou une valeur par défaut.

Champs texte libre sans gouvernance

Les champs texte sans contrainte de picklist accumulent des variantes avec le temps. Le champ Job_Title sur Contacts stocke le même rôle de 15 façons. Le Distinct Count grimpe alors que l’ensemble conceptuel réel reste petit.

Correctif : lancez l’analyse d’unicité avancée sur les champs texte que vous prévoyez de standardiser. Utilisez Distinct Count et Entropy pour cadrer l’effort de normalisation. Convertissez les champs texte libre à forte valeur en picklists.

Champs texte pollués par du boilerplate

Les agents de support collent des ouvertures et fermetures standards dans chaque Case. Les commerciaux copient des modèles de description d’Opportunity. Les champs sont techniquement « uniques » (numéros de Case, dates), mais le contenu est à 90 % identique.

Correctif : lancez l’analyse d’unicité avancée avec détection de boilerplate sur les champs texte. Boilerplate Rate révèle le degré de pollution. Traitez cela avant d’utiliser ces champs pour l’entraînement IA ou l’analyse.

Identifiants partagés qui ressemblent à des doublons

E-mails de département ([email protected]), numéros de téléphone partagés et numéros de fax d’entreprise créent des valeurs légitimement dupliquées. Tout taux d’unicité faible ne signale pas un problème.

Correctif : évaluez l’unicité en contexte. Un champ Email avec 78 % d’unicité mérite investigation. Un champ Fax avec 40 % d’unicité est attendu. Fixez vos seuils de surveillance selon ce que le champ représente.

Bonnes pratiques

Choisissez la bonne métrique principale selon le type de champ

Uniqueness Rate est la bonne métrique principale pour les champs identifiants (Email, Phone, Account Name). Pour les champs de contenu textuel (Description, Notes, Comments), combinez Uniqueness Rate et Boilerplate Rate pour avoir l’image complète. Un champ peut afficher 99 % d’unicité et être à 65 % de boilerplate.

Utilisez les métriques de distribution pour les champs de segmentation

Pour les champs utilisés en segmentation, filtrage ou reporting (Industry, Country, Lead Source), vérifiez Entropy et Max Frequency. Une entropie faible révèle que votre picklist à « 24 catégories » est en réalité un système à 2 seaux. Max Frequency révèle les valeurs par défaut qui déforment vos segments.

Suivez les tendances entre les scans

Un scan unique montre l’état actuel. Exécutez des scans régulièrement pour détecter de nouvelles sources de doublons, mesurer l’impact des initiatives de déduplication et identifier les intégrations qui introduisent des données répétitives.

Priorisez par impact métier

Tous les champs n’ont pas besoin d’une forte unicité. Un champ Email avec des doublons signale un problème de fusion. Un champ Country avec des doublons est normal. Concentrez la surveillance d’unicité sur les champs qui servent d’identifiants, alimentent les Duplicate Rules ou nourrissent les modèles d’IA.

Traitez les causes racines

Une faible unicité signale un problème de processus. Cherchez à savoir si les utilisateurs créent des enregistrements sans vérifier s’ils existent déjà, si les imports manquent de logique de déduplication, ou si les intégrations écrivent des valeurs par défaut. Corrigez la source, pas le symptôme.

Étapes suivantes

Vous comprenez désormais comment mesurer et diagnostiquer les problèmes d’unicité. Poursuivez avec la dimension suivante :