Ce que couvrent ces scénarios
Cette page déroule trois configurations réelles de l’analyse d’unicité DQS. Chaque scénario couvre un problème métier précis.
Ces pas à pas s’appuient sur les concepts de l’article principal Unicité.
Scénario 1 : audit de déduplication d’e-mails sur les Leads
Le problème
Votre équipe marketing lance des campagnes de nurture. Les taux d’ouverture baissent et la plateforme d’e-mailing signale un nombre croissant d’« envois en double » : la même personne recevant deux fois le même e-mail. Vos Duplicate Rules attrapent les correspondances exactes, mais des doublons partiels passent. Deux enregistrements Lead pour la même personne avec la même adresse reçoivent tous deux la campagne.
Configuration
Utilisez le mode Basic Uniqueness sur l’objet Lead, en ciblant le champ Email.
| Paramètre | Valeur | Pourquoi |
|---|---|---|
| Mode d’analyse | Basic Uniqueness | Vous voulez le taux et le comptage distinct, pas la distribution |
| Case Sensitive | OFF | Les adresses e-mail sont insensibles à la casse |
| Include Blanks | ON | Un e-mail vide sur un Lead vaut la peine d’être quantifié |
Exemple de résultats
Métriques fondamentales :
| Métrique | Valeur |
|---|---|
| Uniqueness Rate | 74 % |
| Distinct Count | 18 500 |
Total Leads : 25 000.
Lire les résultats
Commencez par la tête d’affiche : 74 % d’unicité. 26 % des adresses e-mail apparaissent sur plus d’un Lead. Sur 25 000 Leads, il n’existe que 18 500 adresses distinctes. L’écart de 6 500 enregistrements est celui des e-mails partagés.
À quoi ressemblent 26 % de doublons. Certains sont légitimes : adresses départementales comme [email protected] partagées entre plusieurs contacts. La plupart sont des Leads en double créés par différentes sources.
Include Blanks ON révèle l’image complète. Avec cette option, les Leads sans e-mail partagent tous une seule valeur « blanche ».
Pourquoi Basic Uniqueness suffit ici. La question est « combien d’e-mails sont dupliqués ? ». Uniqueness Rate et Distinct Count y répondent.
Que faire ensuite
Utilisez Distinct Count (18 500) comme audience réelle pour vos campagnes e-mail. Cadrez un projet de déduplication. Après nettoyage, rescannez.
Scénario 2 : distribution du champ Industry sur les Accounts
Le problème
Votre équipe data a construit un modèle de segmentation qui groupe les clients par Industry. Le modèle utilise 24 valeurs de picklist. Mais les segments sont inégaux : deux segments contiennent 70 % de tous les Accounts, les 22 autres se partagent les 30 % restants.
Configuration
Utilisez le mode Advanced Uniqueness Analysis sur l’Account, en ciblant le champ Industry.
| Paramètre | Valeur | Pourquoi |
|---|---|---|
| Mode d’analyse | Advanced Uniqueness Analysis | Vous avez besoin d’Entropy, Max Frequency et Rarity |
| Case Sensitive | OFF | Valeurs contrôlées par picklist |
| Include Blanks | OFF | Les Industry vides sont un problème de complétude, pas d’unicité |
Exemple de résultats
Métriques fondamentales :
| Métrique | Valeur |
|---|---|
| Uniqueness Rate | 0,16 % |
| Distinct Count | 24 |
Métriques avancées :
| Métrique | Valeur |
|---|---|
| Entropy | 2,18 |
| Max Frequency | 5 200 |
| Rarity | 0 % |
Total Accounts : 15 000.
Lire les résultats
Uniqueness Rate (0,16 %) est attendu et sans intérêt ici. Industry est une picklist. Une faible unicité est normale.
Distinct Count (24) confirme que votre picklist est intacte.
Entropy (2,18) révèle l’asymétrie. L’entropie maximale pour 24 valeurs est log2(24) = 4,58. Votre score est 2,18 / 4,58 = 0,48. Cela tombe bien en dessous du seuil 0,7 pour les distributions « dominées ». Quelques valeurs détiennent la majorité des enregistrements.
| Normalisé (réel / max) | Interprétation |
|---|---|
| 0,9 ou plus | Distribution uniforme |
| 0,7 à 0,9 | Asymétrie modérée |
| En dessous de 0,7 | Dominé |
Max Frequency (5 200) identifie la valeur dominante. Une valeur industry apparaît sur 5 200 des 15 000 enregistrements, soit 34,7 %. Un examen rapide révèle que c’est « Technology ».
Rarity (0 %) confirme qu’il n’y a pas de longue traîne.
Le verdict segmentation : votre modèle à 24 catégories est en réalité un système à 2 catégories.
Que faire ensuite
Présentez Entropy et Max Frequency à votre équipe data science. Deux options : (1) redessiner le modèle avec moins de catégories plus larges ; (2) enrichir les données Industry. Suivez Entropy dans le temps.
Scénario 3 : détection de boilerplate dans les descriptions de Cases pour l’IA
Le problème
Votre entreprise évalue une synthèse de Cases par IA. L’outil lit le champ Description et génère un résumé pour l’agent suivant. Avant d’investir, vous devez évaluer si vos descriptions contiennent assez de contenu original. Le champ est renseigné à 95 %, donc la complétude n’est pas le souci. Le souci est que les agents collent des modèles standards dans chaque case.
Configuration
Utilisez le mode Advanced Uniqueness Analysis sur l’objet Case, en ciblant le champ Description.
| Paramètre | Valeur | Pourquoi |
|---|---|---|
| Mode d’analyse | Advanced Uniqueness Analysis | Active la détection de boilerplate |
| Case Sensitive | OFF | La détection ne dépend pas de la casse |
| Include Blanks | OFF | Les descriptions vides relèvent de la complétude |
Exemple de résultats
Métriques fondamentales :
| Métrique | Valeur |
|---|---|
| Uniqueness Rate | 97 % |
| Distinct Count | 29 100 |
Métriques avancées :
| Métrique | Valeur |
|---|---|
| Entropy | 14,8 |
| Boilerplate Rate | 42 % |
| Boilerplate Percentage | 68 % |
| Boilerplate Records Count | 20 400 |
Total Cases : 30 000.
Lire les résultats
Uniqueness Rate (97 %) semble sain, mais c’est trompeur. Presque chaque description est techniquement différente car chacune contient des numéros de Case, noms clients et dates uniques. Mais « unique » ne signifie pas « original ».
Boilerplate Rate (42 %) raconte la vraie histoire. 42 % du contenu est répétitif ou issu de modèles. Les agents collent des ouvertures standards (« Merci d’avoir contacté le support. Votre numéro de Case est… »), des fermetures standards et des listes de diagnostic dans chaque Case.
Boilerplate Percentage (68 %) montre l’étendue du problème. 68 % des Cases contiennent du texte standardisé, soit 20 400 sur 30 000.
Boilerplate Records Count (20 400) est votre chiffre de périmètre.
Le verdict préparation IA : l’outil de synthèse traitera du contenu standardisé sur 68 % des Cases. Il apprendra à résumer vos modèles, pas les problèmes de vos clients.
Entropy (14,8) est élevée, ce qui confirme que le texte est diversifié au niveau caractère.
Que faire ensuite
Présentez Boilerplate Rate (42 %) et Boilerplate Percentage (68 %) aux parties prenantes du projet IA. Trois approches pour réduire le boilerplate :
- Retirer les modèles. Intégrez ouvertures et fermetures dans le layout ou un Screen Flow.
- Former les agents à des descriptions efficaces.
- Nettoyer le boilerplate des données historiques.
Relancez le scan après chaque cycle. Cible : Boilerplate Percentage en dessous de 30 % et Boilerplate Rate en dessous de 20 % avant déploiement.
Choisir votre configuration
| Si vous devez… | Commencez par | Paramètres clés |
|---|---|---|
| Auditer des doublons sur un champ identifiant | Basic Uniqueness | Case Sensitive : OFF, Include Blanks : ON |
| Dimensionner un projet de déduplication | Basic Uniqueness | Utiliser Distinct Count pour calculer l’écart |
| Analyser la distribution d’un champ catégoriel | Advanced Uniqueness Analysis | Examiner Entropy, Max Frequency et Rarity |
| Détecter du contenu standardisé avant un projet IA | Advanced Uniqueness Analysis | Examiner Boilerplate Rate, Percentage et Records Count |
| Déterminer si un score « sain » cache des problèmes | Advanced Uniqueness Analysis | Associer Uniqueness Rate à Entropy ou Boilerplate Rate |
Pour la référence complète, revenez à l’article principal Unicité.
Passez l’évaluation de préparation à l’IA pour voir vos scores d’unicité.