Unicité : scénarios de configuration

Ce que couvrent ces scénarios

Cette page déroule trois configurations réelles de l’analyse d’unicité DQS. Chaque scénario couvre un problème métier précis.

Ces pas à pas s’appuient sur les concepts de l’article principal Unicité.

Scénario 1 : audit de déduplication d’e-mails sur les Leads

Le problème

Votre équipe marketing lance des campagnes de nurture. Les taux d’ouverture baissent et la plateforme d’e-mailing signale un nombre croissant d’« envois en double » : la même personne recevant deux fois le même e-mail. Vos Duplicate Rules attrapent les correspondances exactes, mais des doublons partiels passent. Deux enregistrements Lead pour la même personne avec la même adresse reçoivent tous deux la campagne.

Configuration

Utilisez le mode Basic Uniqueness sur l’objet Lead, en ciblant le champ Email.

Paramètre	Valeur	Pourquoi
Mode d’analyse	Basic Uniqueness	Vous voulez le taux et le comptage distinct, pas la distribution
Case Sensitive	OFF	Les adresses e-mail sont insensibles à la casse
Include Blanks	ON	Un e-mail vide sur un Lead vaut la peine d’être quantifié

Exemple de résultats

Métriques fondamentales :

Métrique	Valeur
Uniqueness Rate	74 %
Distinct Count	18 500

Total Leads : 25 000.

Lire les résultats

Commencez par la tête d’affiche : 74 % d’unicité. 26 % des adresses e-mail apparaissent sur plus d’un Lead. Sur 25 000 Leads, il n’existe que 18 500 adresses distinctes. L’écart de 6 500 enregistrements est celui des e-mails partagés.

À quoi ressemblent 26 % de doublons. Certains sont légitimes : adresses départementales comme [email protected] partagées entre plusieurs contacts. La plupart sont des Leads en double créés par différentes sources.

Include Blanks ON révèle l’image complète. Avec cette option, les Leads sans e-mail partagent tous une seule valeur « blanche ».

Pourquoi Basic Uniqueness suffit ici. La question est « combien d’e-mails sont dupliqués ? ». Uniqueness Rate et Distinct Count y répondent.

Que faire ensuite

Utilisez Distinct Count (18 500) comme audience réelle pour vos campagnes e-mail. Cadrez un projet de déduplication. Après nettoyage, rescannez.

Scénario 2 : distribution du champ Industry sur les Accounts

Le problème

Votre équipe data a construit un modèle de segmentation qui groupe les clients par Industry. Le modèle utilise 24 valeurs de picklist. Mais les segments sont inégaux : deux segments contiennent 70 % de tous les Accounts, les 22 autres se partagent les 30 % restants.

Configuration

Utilisez le mode Advanced Uniqueness Analysis sur l’Account, en ciblant le champ Industry.

Paramètre	Valeur	Pourquoi
Mode d’analyse	Advanced Uniqueness Analysis	Vous avez besoin d’Entropy, Max Frequency et Rarity
Case Sensitive	OFF	Valeurs contrôlées par picklist
Include Blanks	OFF	Les Industry vides sont un problème de complétude, pas d’unicité

Exemple de résultats

Métriques fondamentales :

Métrique	Valeur
Uniqueness Rate	0,16 %
Distinct Count	24

Métriques avancées :

Métrique	Valeur
Entropy	2,18
Max Frequency	5 200
Rarity	0 %

Total Accounts : 15 000.

Lire les résultats

Uniqueness Rate (0,16 %) est attendu et sans intérêt ici. Industry est une picklist. Une faible unicité est normale.

Distinct Count (24) confirme que votre picklist est intacte.

Entropy (2,18) révèle l’asymétrie. L’entropie maximale pour 24 valeurs est log2(24) = 4,58. Votre score est 2,18 / 4,58 = 0,48. Cela tombe bien en dessous du seuil 0,7 pour les distributions « dominées ». Quelques valeurs détiennent la majorité des enregistrements.

Normalisé (réel / max)	Interprétation
0,9 ou plus	Distribution uniforme
0,7 à 0,9	Asymétrie modérée
En dessous de 0,7	Dominé

Max Frequency (5 200) identifie la valeur dominante. Une valeur industry apparaît sur 5 200 des 15 000 enregistrements, soit 34,7 %. Un examen rapide révèle que c’est « Technology ».

Rarity (0 %) confirme qu’il n’y a pas de longue traîne.

Le verdict segmentation : votre modèle à 24 catégories est en réalité un système à 2 catégories.

Que faire ensuite

Présentez Entropy et Max Frequency à votre équipe data science. Deux options : (1) redessiner le modèle avec moins de catégories plus larges ; (2) enrichir les données Industry. Suivez Entropy dans le temps.

Scénario 3 : détection de boilerplate dans les descriptions de Cases pour l’IA

Le problème

Votre entreprise évalue une synthèse de Cases par IA. L’outil lit le champ Description et génère un résumé pour l’agent suivant. Avant d’investir, vous devez évaluer si vos descriptions contiennent assez de contenu original. Le champ est renseigné à 95 %, donc la complétude n’est pas le souci. Le souci est que les agents collent des modèles standards dans chaque case.

Configuration

Utilisez le mode Advanced Uniqueness Analysis sur l’objet Case, en ciblant le champ Description.

Paramètre	Valeur	Pourquoi
Mode d’analyse	Advanced Uniqueness Analysis	Active la détection de boilerplate
Case Sensitive	OFF	La détection ne dépend pas de la casse
Include Blanks	OFF	Les descriptions vides relèvent de la complétude

Exemple de résultats

Métriques fondamentales :

Métrique	Valeur
Uniqueness Rate	97 %
Distinct Count	29 100

Métriques avancées :

Métrique	Valeur
Entropy	14,8
Boilerplate Rate	42 %
Boilerplate Percentage	68 %
Boilerplate Records Count	20 400

Total Cases : 30 000.

Lire les résultats

Uniqueness Rate (97 %) semble sain, mais c’est trompeur. Presque chaque description est techniquement différente car chacune contient des numéros de Case, noms clients et dates uniques. Mais « unique » ne signifie pas « original ».

Boilerplate Rate (42 %) raconte la vraie histoire. 42 % du contenu est répétitif ou issu de modèles. Les agents collent des ouvertures standards (« Merci d’avoir contacté le support. Votre numéro de Case est… »), des fermetures standards et des listes de diagnostic dans chaque Case.

Boilerplate Percentage (68 %) montre l’étendue du problème. 68 % des Cases contiennent du texte standardisé, soit 20 400 sur 30 000.

Boilerplate Records Count (20 400) est votre chiffre de périmètre.

Le verdict préparation IA : l’outil de synthèse traitera du contenu standardisé sur 68 % des Cases. Il apprendra à résumer vos modèles, pas les problèmes de vos clients.

Entropy (14,8) est élevée, ce qui confirme que le texte est diversifié au niveau caractère.

Que faire ensuite

Présentez Boilerplate Rate (42 %) et Boilerplate Percentage (68 %) aux parties prenantes du projet IA. Trois approches pour réduire le boilerplate :

Retirer les modèles. Intégrez ouvertures et fermetures dans le layout ou un Screen Flow.
Former les agents à des descriptions efficaces.
Nettoyer le boilerplate des données historiques.

Relancez le scan après chaque cycle. Cible : Boilerplate Percentage en dessous de 30 % et Boilerplate Rate en dessous de 20 % avant déploiement.

Choisir votre configuration

Si vous devez…	Commencez par	Paramètres clés
Auditer des doublons sur un champ identifiant	Basic Uniqueness	Case Sensitive : OFF, Include Blanks : ON
Dimensionner un projet de déduplication	Basic Uniqueness	Utiliser Distinct Count pour calculer l’écart
Analyser la distribution d’un champ catégoriel	Advanced Uniqueness Analysis	Examiner Entropy, Max Frequency et Rarity
Détecter du contenu standardisé avant un projet IA	Advanced Uniqueness Analysis	Examiner Boilerplate Rate, Percentage et Records Count
Déterminer si un score « sain » cache des problèmes	Advanced Uniqueness Analysis	Associer Uniqueness Rate à Entropy ou Boilerplate Rate

Pour la référence complète, revenez à l’article principal Unicité.

Passez l’évaluation de préparation à l’IA pour voir vos scores d’unicité.