Skip to main content

Unicité : scénarios de configuration

Trois cas pratiques détaillés montrant comment configurer l'analyse d'unicité de DQS pour différents besoins métier.

Ce que couvrent ces scénarios

Cette page déroule trois configurations réelles de l’analyse d’unicité DQS. Chaque scénario couvre un problème métier précis.

Ces pas à pas s’appuient sur les concepts de l’article principal Unicité.

Scénario 1 : audit de déduplication d’e-mails sur les Leads

Le problème

Votre équipe marketing lance des campagnes de nurture. Les taux d’ouverture baissent et la plateforme d’e-mailing signale un nombre croissant d’« envois en double » : la même personne recevant deux fois le même e-mail. Vos Duplicate Rules attrapent les correspondances exactes, mais des doublons partiels passent. Deux enregistrements Lead pour la même personne avec la même adresse reçoivent tous deux la campagne.

Configuration

Utilisez le mode Basic Uniqueness sur l’objet Lead, en ciblant le champ Email.

ParamètreValeurPourquoi
Mode d’analyseBasic UniquenessVous voulez le taux et le comptage distinct, pas la distribution
Case SensitiveOFFLes adresses e-mail sont insensibles à la casse
Include BlanksONUn e-mail vide sur un Lead vaut la peine d’être quantifié

Exemple de résultats

Métriques fondamentales :

MétriqueValeur
Uniqueness Rate74 %
Distinct Count18 500

Total Leads : 25 000.

Lire les résultats

Commencez par la tête d’affiche : 74 % d’unicité. 26 % des adresses e-mail apparaissent sur plus d’un Lead. Sur 25 000 Leads, il n’existe que 18 500 adresses distinctes. L’écart de 6 500 enregistrements est celui des e-mails partagés.

À quoi ressemblent 26 % de doublons. Certains sont légitimes : adresses départementales comme [email protected] partagées entre plusieurs contacts. La plupart sont des Leads en double créés par différentes sources.

Include Blanks ON révèle l’image complète. Avec cette option, les Leads sans e-mail partagent tous une seule valeur « blanche ».

Pourquoi Basic Uniqueness suffit ici. La question est « combien d’e-mails sont dupliqués ? ». Uniqueness Rate et Distinct Count y répondent.

Que faire ensuite

Utilisez Distinct Count (18 500) comme audience réelle pour vos campagnes e-mail. Cadrez un projet de déduplication. Après nettoyage, rescannez.


Scénario 2 : distribution du champ Industry sur les Accounts

Le problème

Votre équipe data a construit un modèle de segmentation qui groupe les clients par Industry. Le modèle utilise 24 valeurs de picklist. Mais les segments sont inégaux : deux segments contiennent 70 % de tous les Accounts, les 22 autres se partagent les 30 % restants.

Configuration

Utilisez le mode Advanced Uniqueness Analysis sur l’Account, en ciblant le champ Industry.

ParamètreValeurPourquoi
Mode d’analyseAdvanced Uniqueness AnalysisVous avez besoin d’Entropy, Max Frequency et Rarity
Case SensitiveOFFValeurs contrôlées par picklist
Include BlanksOFFLes Industry vides sont un problème de complétude, pas d’unicité

Exemple de résultats

Métriques fondamentales :

MétriqueValeur
Uniqueness Rate0,16 %
Distinct Count24

Métriques avancées :

MétriqueValeur
Entropy2,18
Max Frequency5 200
Rarity0 %

Total Accounts : 15 000.

Lire les résultats

Uniqueness Rate (0,16 %) est attendu et sans intérêt ici. Industry est une picklist. Une faible unicité est normale.

Distinct Count (24) confirme que votre picklist est intacte.

Entropy (2,18) révèle l’asymétrie. L’entropie maximale pour 24 valeurs est log2(24) = 4,58. Votre score est 2,18 / 4,58 = 0,48. Cela tombe bien en dessous du seuil 0,7 pour les distributions « dominées ». Quelques valeurs détiennent la majorité des enregistrements.

Normalisé (réel / max)Interprétation
0,9 ou plusDistribution uniforme
0,7 à 0,9Asymétrie modérée
En dessous de 0,7Dominé

Max Frequency (5 200) identifie la valeur dominante. Une valeur industry apparaît sur 5 200 des 15 000 enregistrements, soit 34,7 %. Un examen rapide révèle que c’est « Technology ».

Rarity (0 %) confirme qu’il n’y a pas de longue traîne.

Le verdict segmentation : votre modèle à 24 catégories est en réalité un système à 2 catégories.

Que faire ensuite

Présentez Entropy et Max Frequency à votre équipe data science. Deux options : (1) redessiner le modèle avec moins de catégories plus larges ; (2) enrichir les données Industry. Suivez Entropy dans le temps.


Scénario 3 : détection de boilerplate dans les descriptions de Cases pour l’IA

Le problème

Votre entreprise évalue une synthèse de Cases par IA. L’outil lit le champ Description et génère un résumé pour l’agent suivant. Avant d’investir, vous devez évaluer si vos descriptions contiennent assez de contenu original. Le champ est renseigné à 95 %, donc la complétude n’est pas le souci. Le souci est que les agents collent des modèles standards dans chaque case.

Configuration

Utilisez le mode Advanced Uniqueness Analysis sur l’objet Case, en ciblant le champ Description.

ParamètreValeurPourquoi
Mode d’analyseAdvanced Uniqueness AnalysisActive la détection de boilerplate
Case SensitiveOFFLa détection ne dépend pas de la casse
Include BlanksOFFLes descriptions vides relèvent de la complétude

Exemple de résultats

Métriques fondamentales :

MétriqueValeur
Uniqueness Rate97 %
Distinct Count29 100

Métriques avancées :

MétriqueValeur
Entropy14,8
Boilerplate Rate42 %
Boilerplate Percentage68 %
Boilerplate Records Count20 400

Total Cases : 30 000.

Lire les résultats

Uniqueness Rate (97 %) semble sain, mais c’est trompeur. Presque chaque description est techniquement différente car chacune contient des numéros de Case, noms clients et dates uniques. Mais « unique » ne signifie pas « original ».

Boilerplate Rate (42 %) raconte la vraie histoire. 42 % du contenu est répétitif ou issu de modèles. Les agents collent des ouvertures standards (« Merci d’avoir contacté le support. Votre numéro de Case est… »), des fermetures standards et des listes de diagnostic dans chaque Case.

Boilerplate Percentage (68 %) montre l’étendue du problème. 68 % des Cases contiennent du texte standardisé, soit 20 400 sur 30 000.

Boilerplate Records Count (20 400) est votre chiffre de périmètre.

Le verdict préparation IA : l’outil de synthèse traitera du contenu standardisé sur 68 % des Cases. Il apprendra à résumer vos modèles, pas les problèmes de vos clients.

Entropy (14,8) est élevée, ce qui confirme que le texte est diversifié au niveau caractère.

Que faire ensuite

Présentez Boilerplate Rate (42 %) et Boilerplate Percentage (68 %) aux parties prenantes du projet IA. Trois approches pour réduire le boilerplate :

  • Retirer les modèles. Intégrez ouvertures et fermetures dans le layout ou un Screen Flow.
  • Former les agents à des descriptions efficaces.
  • Nettoyer le boilerplate des données historiques.

Relancez le scan après chaque cycle. Cible : Boilerplate Percentage en dessous de 30 % et Boilerplate Rate en dessous de 20 % avant déploiement.


Choisir votre configuration

Si vous devez…Commencez parParamètres clés
Auditer des doublons sur un champ identifiantBasic UniquenessCase Sensitive : OFF, Include Blanks : ON
Dimensionner un projet de déduplicationBasic UniquenessUtiliser Distinct Count pour calculer l’écart
Analyser la distribution d’un champ catégorielAdvanced Uniqueness AnalysisExaminer Entropy, Max Frequency et Rarity
Détecter du contenu standardisé avant un projet IAAdvanced Uniqueness AnalysisExaminer Boilerplate Rate, Percentage et Records Count
Déterminer si un score « sain » cache des problèmesAdvanced Uniqueness AnalysisAssocier Uniqueness Rate à Entropy ou Boilerplate Rate

Pour la référence complète, revenez à l’article principal Unicité.

Passez l’évaluation de préparation à l’IA pour voir vos scores d’unicité.