Unikhet: Konfigurationsscenarier

Vad dessa scenarier täcker

Den här sidan går igenom tre verkliga konfigurationer av DQS unikhetsanalys. Varje scenario täcker ett specifikt affärsproblem, visar exakta inställningar att använda och förklarar hur man läser resultaten.

Dessa genomgångar bygger på koncepten från den huvudsakliga artikeln Unikhet. Läs den först om du är ny för unikhetsmätvärden, de diagnostiska lagren eller skillnaden mellan Grundläggande unikhet och Avancerad unikhetsanalys.

Scenario 1: E-postdedupliceringsrevision på Leads

Problemet

Ditt marknadsföringsteam kör nurture-kampanjer via Salesforce. Öppningsfrekvenser sjunker, och e-postplattformen rapporterar ett stigande antal “dubblerade utskick”: att samma person tar emot samma e-post två gånger. Dina dupliceringshanteringsregler fångar exakta-matchposter, men partiella dubbletter glider igenom. Två Lead-poster för samma person med samma e-postadress tar båda emot kampanjen. Du behöver ett konkret tal: hur många Lead-e-postadresser delas över flera poster?

Konfiguration

Det här är en enkel kontroll för dupliceringsidentifiering. Använd läget Grundläggande unikhet på Lead-objektet, och rikta dig mot fältet Email.

Inställning	Värde	Varför
Analysläge	Grundläggande unikhet	Du behöver duplikationsgraden och distinkt antal, inte fördelning eller boilerplate-analys
Skiftlägeskänslig	AV	E-postadresser är skiftlägeskänsliga. “[email protected]” och “[email protected]” är samma adress.
Inkludera tomma	PÅ	En tom e-post på en Lead är ett problem värt att kvantifiera. Att inkludera tomma innebär att alla tomma e-postposter delar ett “tomt” värde, vilket sänker Unikhetsgraden och gör luckan synlig.

Skiftlägeskänslig AV är standardvalet och rätt val för e-post. Om två poster lagrar “[email protected]” och “[email protected]” är det samma adress. Att aktivera skiftlägeskänslighet skulle räkna dem som distinkta och dölja dupliceringen.

Exempelresultat

Grundläggande mätvärden:

Mätvärde	Värde
Unikhetsgrad	74 %
Distinkt antal	18 500

Totalt antal Lead-poster utvärderade: 25 000.

Läsa resultaten

Börja med rubriken: 74 % unikhet. Det innebär att 26 % av e-postadresserna förekommer på mer än en Lead-post. Av 25 000 Leads finns bara 18 500 distinkta e-postadresser. Gapet på 6 500 poster är delade e-postadresser.

Vad 26 % duplicerade e-poster ser ut som i praktiken. Vissa är legitima: avdelningsadresser som [email protected] eller [email protected] delade över flera contacts på samma företag. De flesta är duplicerade Leads skapade av olika källor. Ett webbformulär skapar en Lead. En listimport skapar en annan. En säljare skapar en tredje från ett visitkort. Alla tre har samma e-postadress.

Inkludera tomma PÅ avslöjar hela bilden. Med Inkludera tomma aktiverat räknas Leads utan e-postadress alla som delar ett enda “tomt” värde. Om 2 000 av de 25 000 Leads saknar e-post, räknas dessa 2 000 poster som dubbletter av varandra. Det sänker Unikhetsgraden jämfört med att exkludera tomma, men det ger dig det ärliga talet. Din kampanj kan nå 18 500 distinkta adresser som mest, inte 25 000.

Varför Grundläggande unikhet räcker här. Frågan är “hur många e-poster är duplicerade?” Unikhetsgrad och Distinkt antal svarar på den frågan. Du behöver inte Entropi eller Sällsynthet för att bestämma om du ska starta ett dedupliceringsprojekt. Om du senare vill förstå fördelningsmönstret (hur många e-poster förekommer exakt två gånger kontra tio gånger), byt till Avancerad unikhetsanalys för den fullständiga bilden.

Vad du gör härnäst

Använd Distinkt antal (18 500) som din verkliga adresserbara publik för e-postkampanjer. Avgränsa ett dedupliceringsprojekt för posterna med delade e-poster. Börja med att exportera Leads grupperade efter e-postadress, och slå sedan samman eller ta bort duplicaterna. Efter rensning, kör genomsökningen igen och spåra Unikhetsgraden över tid. Om den sjunker mellan genomsökningar har en ny dupliceringskälla dykt upp: en listimport, ett webbformulär utan dedup-logik, eller en integration som skapar poster utan att kontrollera om befintliga finns.

Scenario 2: Branschfältsfördelning på Accounts

Problemet

Ditt datateam byggde en Account-segmenteringsmodell som grupperar kunder efter Bransch. Modellen använder 24 branschpicklist-värden för att skapa riktade segment. Men segmenten är ojämna: två segment innehåller 70 % av alla Accounts, medan de återstående 22 segmenten delar de övriga 30 %. Datavetenskapsteamet misstänker att Bransch-fältet har ett fördelningsproblem, inte ett modellproblem. Du behöver bekräfta om fältets värdefördelning är genuint sned och identifiera de dominerande värdena.

Konfiguration

Använd läget Avancerad unikhetsanalys på Account-objektet, och rikta dig mot fältet Industry. Du behöver fördelningsmätvärden (Entropi, Maxfrekvens, Sällsynthet) för att svara på frågor om hur värden är spridda.

Inställning	Värde	Varför
Analysläge	Avancerad unikhetsanalys	Du behöver Entropi, Maxfrekvens och Sällsynthet för fördelningsanalys
Skiftlägeskänslig	AV	Picklist-värden är kontrollerade. Skiftlägeskänslighet är inte relevant här.
Inkludera tomma	AV	Tomma Bransch-värden är ett fullständighetsproblem, inte ett unikhetsproblem. Exkludera dem för att fokusera på fördelningen av ifyllda värden.

Inkludera tomma AV är rätt val för det här scenariot. Du analyserar hur befintliga data är fördelade över kategorier. Att lägga till tomma i beräkningen skulle förvanska fördelningsmätvärdena utan att svara på din segmenteringsfråga. Om du vill veta hur många Accounts som saknar Bransch-värde, kör en fullständighetsanalys istället.

Exempelresultat

Grundläggande mätvärden:

Mätvärde	Värde
Unikhetsgrad	0,16 %
Distinkt antal	24

Avancerade mätvärden:

Mätvärde	Värde
Entropi	2,18
Maxfrekvens	5 200
Sällsynthet	0 %

Totalt antal Account-poster utvärderade: 15 000.

Läsa resultaten

Unikhetsgrad (0,16 %) är förväntad och irrelevant här. Bransch är en picklist med 24 värden över 15 000 poster. Nästan varje värde delas av hundratals poster. En låg Unikhetsgrad på ett picklist-fält är normalt. Det här mätvärdet är inte syftet med den här analysen.

Distinkt antal (24) bekräftar att din picklist är intakt. Alla 24 konfigurerade värden förekommer i datan. Inga oseriösa fritextposter finns. Datan är ren ur ett konsekvensperspektiv.

Entropi (2,18) avslöjar snedfördelningen. Maximal entropi för 24 distinkta värden är log2(24) = 4,58. Din faktiska entropi är 2,18. Det normaliserade resultatet är 2,18 / 4,58 = 0,48. Det faller väl under tröskeln på 0,7 för “dominerade” fördelningar. Några få värden håller de flesta posterna. Datavetenskapsteamets misstanke bekräftas: segmenteringsproblemet finns i datan, inte modellen.

Hur man tolkar normaliserad entropi:

Normaliserad (faktisk / max)	Tolkning
0,9 eller högre	Jämn fördelning: värden spridda jämnt
0,7 till 0,9	Måttlig snedfördelning: vissa värden förekommer mer än andra
Under 0,7	Dominerad: ett fåtal värden håller de flesta posterna

Ditt resultat på 0,48 är i det “dominerade” intervallet.

Maxfrekvens (5 200) identifierar det dominerande värdet. Ett branschvärde förekommer på 5 200 av 15 000 poster, eller 34,7 % av datamängden. En snabb kontroll avslöjar att det är “Technology.” Det näst vanligaste värdet är troligen ansvarigt för det mesta av den återstående koncentrationen. Tillsammans utgör två värden de 70 % klustring ditt team observerade.

Sällsynthet (0 %) bekräftar att det inte finns något lång svans. Var och en av de 24 distinkta värdena förekommer mer än en gång. Inga singleton-värden finns. Det här är förväntat för ett välkontrollerat picklist-fält. På ett fritextfält vill du se Sällsynthet för att fånga stavfel och enstaka poster, men på en picklist är 0 % Sällsynthet normalt.

Segmenteringsutlåtandet: Din 24-kategoris modell är i verkligheten ett 2-kategoris system. “Technology” och en annan bransch dominerar datamängden. De återstående 22 kategorierna delar 30 % av posterna, vilket ger varje kategori ett genomsnitt på ungefär 200 poster. Vissa segment är för små för meningsfull analys.

Vad du gör härnäst

Presentera Entropi och Maxfrekvens för ditt datavetenskapsteam. Siffrorna bekräftar fördelningsproblemet. Två alternativ: (1) Omdesigna segmenteringsmodellen för att använda färre, bredare kategorier som återspeglar den faktiska fördelningen. Gruppera de 22 mindre branscherna i 4-5 makro-kategorier. (2) Berika Bransch-datan. Om koncentrationen i “Technology” är uppblåst för att säljare som standard väljer den vid postskapande, undersök om en stor del av dessa 5 200 poster tillhör en annan bransch. Kör en regelbunden genomsökning och spåra Entropi över tid. I takt med att du korrigerar felklassificerade poster stiger Entropi mot en hälsosammare fördelning.

Scenario 3: Boilerplate-identifiering i ärendebeskrivningar för AI-beredskap

Problemet

Ditt företag utvärderar AI-driven ärendesammanfattning för supportteamet. AI-verktyget läser fältet Description på Cases och genererar en sammanfattning för nästa handläggare som plockar upp ärendet. Innan du investerar behöver du bedöma om dina ärendebeskrivningar innehåller tillräckligt med originalinnehåll för att AI:n ska producera användbara sammanfattningar. Fältet är ifyllt på 95 % av ärendena, så fullständighet är inte bekymret. Bekymret är att supporthandläggare kopierar och klistrar in standardmallar i varje ärende.

Konfiguration

Använd läget Avancerad unikhetsanalys på Case-objektet, och rikta dig mot fältet Description. Du behöver boilerplate-mätvärdena för att utvärdera innehållets originalitet.

Inställning	Värde	Varför
Analysläge	Avancerad unikhetsanalys	Möjliggör boilerplate-identifiering (Boilerplate-grad, Boilerplate-procent, Antal boilerplate-poster)
Skiftlägeskänslig	AV	Mallidentifiering beror inte på skiftläge
Inkludera tomma	AV	Tomma beskrivningar är ett fullständighetsproblem. Exkludera dem för att fokusera på kvaliteten på ifyllt innehåll.

Inkludera tomma AV är rätt val här eftersom du utvärderar det innehåll som finns, inte räknar det som saknas. De 5 % av ärenden med tomma beskrivningar hanteras redan av din fullständighetsanalys.

Exempelresultat

Grundläggande mätvärden:

Mätvärde	Värde
Unikhetsgrad	97 %
Distinkt antal	29 100

Avancerade mätvärden:

Mätvärde	Värde
Entropi	14,8
Boilerplate-grad	42 %
Boilerplate-procent	68 %
Antal boilerplate-poster	20 400

Totalt antal Case-poster utvärderade: 30 000.

Läsa resultaten

Unikhetsgrad (97 %) ser hälsosam ut, men den är vilseledande. Nästan varje ärendebeskrivning är tekniskt annorlunda eftersom varje innehåller unika ärendenummer, kundnamn och datum. Fältet klarar en grundläggande dupliceringskontroll. Men “unikt” betyder inte “originalt.”

Boilerplate-grad (42 %) berättar den verkliga historien. 42 % av textinnehållet över ärendebeskrivningar är repetitivt eller mallbaserat. Handläggare klistrar in standardinledningar (“Tack för att du kontaktar supporten. Ditt ärendenummer är…”), standardavslutningar (“Tveka inte att höra av dig om du har fler frågor.”) och standarddiagnostikchecklistor i varje ärende. De ärendespecifika detaljerna fyller mitten, men nästan hälften av varje beskrivning är kopiera-klistra-innehåll.

Boilerplate-procent (68 %) visar hur utbrett problemet är. 68 % av ärendeposterna innehåller mallbaserad text. Det är 20 400 av 30 000 ärenden. Boilerplate är inte begränsat till ett fåtal handläggare eller ett team. Det är ett systemiskt mönster inbäddat i din supportprocess.

Antal boilerplate-poster (20 400) är ditt omfångstal. Om du behöver uppskatta insatsen för att rensa mallar innan du matar data till AI:n, är det här startpunkten. 20 400 poster innehåller innehåll som AI:n kommer att lära sig som mönster, men dessa mönster är dina mallar, inte dina kundproblem.

AI-beredskapsutlåtandet: AI-sammanfattningsverktyget kommer att bearbeta mallbaserat innehåll på 68 % av ärendena. Det kommer att lära sig att sammanfatta dina mallar, inte dina kundproblem. På de 32 % av ärenden med originalinnehåll kommer AI:n att prestera väl. På de 68 % med boilerplate kommer sammanfattningarna att upprepa de standardfraser som handläggare redan kan utantill.

Entropi (14,8) är hög, vilket bekräftar att texten är mångsidig på teckennivå. Det stämmer överens med 97 % Unikhetsgrad: varje beskrivning är annorlunda. Entropi är inte det relevanta mätvärdet här eftersom dupliceringsproblemet inte är identiska värden. Problemet är upprepade innehållsmönster inom i övrigt unika texter. Det är exakt vad boilerplate-mätvärdena är utformade för att fånga.

Vad du gör härnäst

Presentera Boilerplate-grad (42 %) och Boilerplate-procent (68 %) för dina AI-projektintressenter. Siffrorna gör saken tydlig: AI-projektet behöver en innehållskvalitetsförbättringsfas innan driftsättning. Tre metoder för att minska boilerplate:

Ta bort mallarna. Om handläggare klistrar in standardinledningar och avslutningar, bygg dessa element i Case-layouten eller ett skärmflöde så att de inte förorenar beskrivningsfältet. Beskrivningen fångar sedan bara ärendespecifik information.
Utbilda handläggare i effektiva beskrivningar. Dela exempel på beskrivningar av hög kvalitet (från de 32 % som är originala) och förklara varför mallfria poster ger bättre AI-sammanfattningar.
Rensa bort boilerplate från historiska data. Innan befintliga ärenden matas till AI:n, kör ett textbearbetningsjobb som tar bort kända mallmönster från beskrivningsfältet.

Kör genomsökningen igen efter varje förbättringscykel. Spåra Boilerplate-grad och Boilerplate-procent som dina primära AI-beredskapsmätvärden för det här fältet. Ditt mål: Boilerplate-procent under 30 % och Boilerplate-grad under 20 % innan AI-sammanfattningsverktyget driftsätts.

Välja din konfiguration

Använd den här tabellen för att välja rätt startpunkt för din unikhetsanalys.

Om du behöver…	Börja med	Nyckelinställningar
Revidera duplicerade värden på ett identifieringsfält (e-post, telefon, Account-namn)	Grundläggande unikhet	Skiftlägeskänslig: AV, Inkludera tomma: PÅ för att avslöja tom volym
Storleksbestämma ett dedupliceringsprojekt med ett konkret postantal	Grundläggande unikhet	Använd Distinkt antal för att beräkna gapet mellan totalt antal poster och unika värden
Analysera värdefördelning på ett picklist- eller kategorifält	Avancerad unikhetsanalys	Granska Entropi (normaliserad mot max), Maxfrekvens och Sällsynthet
Identifiera mallbaserat innehåll i textfält inför ett AI-projekt	Avancerad unikhetsanalys	Granska Boilerplate-grad, Boilerplate-procent och Antal boilerplate-poster
Avgöra om en “hälsosam” unikhetspoäng döljer djupare problem	Avancerad unikhetsanalys	Para Unikhetsgrad med Entropi (för fördelningssnedhet) eller Boilerplate-grad (för innehållets originalitet)

För en fullständig referens av alla 8 unikhetsmätvärden, de tre diagnostiska lagren och konfigurationsdetaljer, återvänd till den huvudsakliga artikeln Unikhet.

Redo att mäta din egen datakvalitet? Ta AI-beredskapsbedömningen för att se dina unikhetspoäng och mer.

Vad dessa scenarier täcker

Scenario 1: E-postdeduplicerings­revision på Leads

Problemet

Konfiguration

Exempelresultat

Läsa resultaten

Vad du gör härnäst

Scenario 2: Branschfältsfördelning på Accounts

Problemet

Konfiguration

Exempelresultat

Läsa resultaten

Vad du gör härnäst

Scenario 3: Boilerplate-identifiering i ärendebeskrivningar för AI-beredskap

Problemet

Konfiguration

Exempelresultat

Läsa resultaten

Vad du gör härnäst

Välja din konfiguration

Scenario 1: E-postdedupliceringsrevision på Leads