Skip to main content

Unikhet

Alla 6 unikhetsmätvärden som DQS mäter, det diagnostiska flödet för att hitta dubbletter och upprepat innehåll, och hur man konfigurerar unikhetsanalys.

Vad är unikhet?

Unikhet mäter om dina datavärden är distinkta och inte dubblerade. Ett fält har hög unikhet när varje post innehåller ett annat värde. Unikthet bryts ner när samma värde förekommer i flera poster, eller när textfält innehåller upprepat mallbaserat innehåll som inte tillför något analytiskt värde.

Dubblerade poster kostar din organisation i varje skede. Tre Account-poster för samma företag delar upp din pipeline. Två Contact-poster för samma person får två marknadsföringsutskick. Boilerplate-text inklistrad i tusentals ärendebeskrivningar gör det omöjligt att extrahera insikter. Unikhetsanalys kvantifierar alla dessa problem.

Unikhetsgrad = (Poster med unika värden / Totalt antal poster) x 100

Om 7 800 av 10 000 Contact-poster har ett distinkt e-postvärde är din e-postunikhetsgrad 78 %. De återstående 22 % delar e-postadresser med minst en annan post. Detta enskilda mätvärde berättar om ett fält som förväntar sig unika värden faktiskt har dem.

Varför unikhet är viktigt

Rapportering

Dubblerade poster blåser upp dina siffror. När samma företag visas som tre Accounts är ditt Account-antal överdrivet med två. Pipelinerapporter visar tre affärer där en finns. Kundantal som används i styrelsepresentationer och investerarrapportering är fel.

Automatisering

Salesforce-automatisering behandlar varje post oberoende. En duplicerad Account utlöser dubblettarbetsflöden, skickar dubbla meddelanden och skapar dubblerade tasks. En förnyelseprocess som utlöses på varje Account som matchar ett företagsnamn utlöses tre gånger istället för en.

AI och Agentforce

AI-modeller bearbetar varje post som en separat entitet. Dubblerade poster fragmenterar modellens syn på en kund. Agentforce genererar svar med dina Salesforce-data. När tre Account-poster finns för samma företag ser Agentforce tre kunder, inte en med en fullständig historik. Upprepat boilerplate-innehåll i textfält lär modellen dina mallar, inte dina affärsmönster.

SystemUnikhetspåverkan
RapporterUppblåsta antal, fragmenterade mätvärden
ArbetsflödenDubblettutlösare, redundanta meddelanden
DubblettreglerÖverväldigade av befintliga dubbletter om de inte identifieras
AgentforceFragmenterad kundvy, mallförorenat lärande

Hur DQS mäter unikhet

DQS producerar 6 unikhetsmätvärden organiserade kring en diagnostisk fråga: “Är data distinkta, hur är de fördelade, och är textinnehållet originellt?”

Tänk på dessa mätvärden som ett diagnostiskt flöde. Varje lager bygger på det föregående.

Lager 1: Är värden unika?

Unikhetsgrad är rubriktalet. Det beräknar procentandelen poster där fältvärdet är distinkt (inte duplicerat någon annanstans i datamängden). Det är det tal du lägger på en instrumentpanel.

Du kör en genomsökning på Contact-objektet. Fältet Email visar en unikhetsgrad på 78 %. Det innebär att 22 % av e-postadresserna förekommer på mer än en Contact. Vissa är legitima (delade avdelnings-e-postadresser som [email protected]), men de flesta är sannolikt dubblerade contacts som behöver slås samman. Detta enda tal motiverar ett dedupliceringsinitiv.

Distinkt antal berättar fältets kardinalitet: hur många olika värden som faktiskt finns. Om 10 000 Contact-poster innehåller 8 200 distinkta e-postadresser är Distinkt antal 8 200.

Exempel: Du förväntar dig att picklistan Lead_Source ska ha ungefär 12 värden (dina konfigurerade picklistalternativ). Men Distinkt antal visar 87. Innan picklistan begränsades skrev säljarna fritext. “Web”, “web”, “Website”, “Webinar”, “web form” räknas alla som distinkta. Det här mätvärdet avslöjar att dina Lead Source-data behöver normalisering, även om picklistan nu är låst.

Lager 2: Hur är data fördelade?

Unikhetsgrad berättar hur många värden som är unika. Fördelningsm­ätvärden berättar hur dessa värden sprids över poster. Två fält kan ha samma unikhetsgrad men mycket olika fördelningar.

Entropi mäter hur jämnt värden är fördelade med Shannons entropi. Skalan sträcker sig från 0 (varje post har exakt samma värde) till ett maximum bestämt av antalet distinkta värden. Högre entropi innebär mer diversa, mer jämnt fördelade data.

Entropi ensam betyder ingenting. Jämför det med den maximala möjliga entropin för det fältet. Maximum = log2(Distinkt antal), vilket är den entropi du får om varje distinkt värde förekommer exakt lika många gånger. Kvoten (faktisk / max) ger ett normaliserat poäng från 0 till 1:

Normaliserat (faktisk / max)Tolkning
0,9 eller högreJämn fördelning: värden sprids enhetligt
0,7 till 0,9Måttlig snedhet: vissa värden förekommer mer än andra
Under 0,7Dominerat: ett fåtal värden håller de flesta posterna

Exempel: Ditt Industry-fält för Accounts har en unikhetsgrad på 2 % (förväntat för en picklista) och 24 distinkta värden. Ser bra ut. Men entropin är 1,3 och maximal entropi för 24 värden är 4,6. Det normaliserade poänget är 0,28. Fördelningen är kraftigt sned: 60 % av posterna är “Technology” och “Financial Services.” Ditt industrisbaserade segmenteringssystem är ett tvåhinks­system förklätt som 24 kategorier.

Maximal frekvens ger dig antalet förekomster för det enskilt vanligaste värdet. Om “London” förekommer 8 400 gånger i City-fältet är Maximal frekvens 8 400.

Ett enda dominerande värde signalerar ofta ett standardvärdes­problem, ett migreringsartefakt eller en genuin affärskoncentration som behöver undersökas. Maximal frekvens väcker frågan. En snabb kontroll av det faktiska värdet svarar på den.

Exempel: Fältet Billing_Country har en Maximal frekvens på 34 000 av 40 000 poster. Det är 85 % av posterna med ett land. Antingen är din verksamhet genuint koncentrerad till en marknad, eller så angav någon ett standardvärde under migreringen. Mätvärdet synliggör mönstret; du avgör orsaken.

Lager 3: Är textinnehållet originellt?

De två första lagren mäter om värden är identiska. Lager 3 ställer en annan fråga: är textinnehållet väsentligen liknande? Två ärendebeskrivningar kan vara 100 % unika (olika ärendenummer, datum) men 90 % boilerplate (samma mall, samma fraser).

Boilerplate-grad är rubriktalet för textinnehållets originalitet. Det mäter procentandelen innehåll som är upprepande eller mallbaserat. Ett högre poäng innebär mer originellt innehåll med mindre boilerplate. DQS identifierar vanliga mallar som e-postsignaturer, juridiska friskrivningar och upprepade fraser.

Exempel: Din organisation utvärderar om Description-fältet för Opportunities lämpar sig för AI-driven analys av vinster och förluster. Unikhetsgraden är 99 % (varje beskrivning är tekniskt sett annorlunda). Men Boilerplate-grad avslöjar att 65 % av innehållet följer samma mall: “Kund: [namn]. Behov: [produkt]. Tidslinje: [datum].” AI-modellen skulle lära sig din mallstruktur, inte dina vinstmönster. Boilerplate-grad räddar dig från ett projekt med “garbage in, garbage out”.

Antal boilerplate-poster ger dig rensningsomfånget som ett absolut tal. Om 12 400 poster innehåller boilerplate vet din dataförvaltare storleken på åtgärdsprojektet. Hon kan uppskatta timmar, tilldela resurser och sätta en realistisk tidsplan.

Exempel: Ditt supportteam loggar varje interaktion i Case Comments. Antal boilerplate-poster visar 12 400. Undersökning avslöjar att handläggare klistrar in en standard­inledning (“Tack för att du kontaktade support. Ditt ärendenummer är…”) och avslutning (“Tveka inte att kontakta oss om du har ytterligare frågor…”) i varje ärende. Innan AI används för att analysera supportinteraktioner behöver boilerplate tas bort från dessa 12 400 poster.

Tre analysvinklar

Unikhetsmätvärden täcker tre distinkta problem, vart och ett som betjänar en annan intressent:

ProblemMätvärdenFrågaIntressent
DupliceringUnikhetsgrad, Distinkt antalHar vi upprepade värden?Dataförvaltare (sammanslagningskandidater, deduplikationsregler)
FördelningEntropi, Maximal frekvensHur är data spridda över värden?Analytiker och datavetare (segmentering, modellering)
OriginalitetBoilerplate-grad, Antal boilerplate-posterÄr textinnehållet genuint originellt?AI-team (träningsdatakvalitet, innehållsextraktion)

Mätvärdesreferens

Grundläggande mätvärden

Dessa 2 mätvärden utgör grunden för varje unikhetsanalys. De fungerar över alla 15 stödda fälttyper.

MätvärdeTypVad det mäter
UnikhetsgradProcentandelAndel poster med icke-dubblerade värden
Distinkt antalAntalTotalt antal distinkta värden i fältet

Avancerade mätvärden

Dessa 4 mätvärden går bortom “är värden unika?” för att analysera fördelnings­mönster och textoriginalitet. De kräver analysläget Avancerad unikhetsanalys.

MätvärdeTypVad det mäter
EntropiDecimalHur jämnt värden är fördelade (Shannons entropi)
Maximal frekvensAntalFörekomstantal för det enskilt vanligaste värdet
Boilerplate-gradProcentandelGrad av mallbaserat eller upprepande innehåll
Antal boilerplate-posterAntalAntal poster med boilerplate-innehåll

Fälttypstäckning

Olika mätvärden gäller för olika fälttyper baserat på vad de mäter.

TäckningsgruppFälttyperTillgängliga mätvärden
Alla typer (15)String, TextArea, LongTextArea, Number, Currency, Percent, AutoNumber, Date, DateTime, Picklist, Email, Phone, URL, Lookup, CheckboxUnikhetsgrad, Distinkt antal
Analystyper (9)String, TextArea, Number, Picklist, Multiselect Picklist, Checkbox, Email, Phone, URLEntropi, Maximal frekvens
Textfält (3)String, TextArea, HtmlAntal boilerplate-poster
Långa textfält (3)TextArea, LongTextArea, HtmlBoilerplate-grad

Grundläggande mätvärden fungerar på alla 15 fälttyper eftersom vilket fält som helst kan ha dubbletter. Fördelnings­mätvärden (Entropi, Maximal frekvens) fungerar på 9 fälttyper som producerar räknbara frekvenstabeller. Boilerplate-mätvärden gäller bara textfält eftersom de identifierar upprepade innehålls­mönster i fritext-data.

Två analyslägen

DQS erbjuder två unikhetsanalyslägen:

Grundläggande unikhet svarar på frågan: “Är värden distinkta?” Det producerar de 2 grundläggande mätvärdena och täcker det väsentliga för en snabb dubblettidentifieringskontroll eller baslinjerevision.

Avancerad unikhetsanalys går djupare. Det producerar alla 6 mätvärden, inklusive fördelningsanalys, frekvens­mönster och boilerplate-identifiering. Använd det här läget när du behöver förstå den fullständiga bilden av datafördelning och textoriginalitet, inte bara dubbleringsgraden.

AffärsbehovRekommenderat läge
Snabb dubblettidentifieringsrevisionGrundläggande unikhet
DatamigreringsbedömningAvancerad (Maximal frekvens fångar standardvärden, Entropi avslöjar snedhet)
Picklista-hygienekontrollAvancerad (Entropi + Maximal frekvens avslöjar snedhet och normaliseringsbehov)
Utvärdering av AI-träningsdataAvancerad (Boilerplate-mätvärden bedömer innehållsoriginalitet)
Löpande datastyrningBörja med Grundläggande unikhet, flytta till Avancerad för djupare analys

Konfigurera unikhet

DQS tillhandahåller 2 konfigurationsindata för unikhet. Varje kan ställas in på global nivå (gäller alla fält) och åsidosättas på individuell fältnivå.

InställningVad den styr
SkiftlägeskänsligStyr om värde­jämförelse tar hänsyn till skiftläge. När inaktiverad (standard) räknas “Apple” och “apple” som samma värde. När aktiverad räknas de som två distinkta värden.
Inkludera tommaStyr om null- och blankposter räknas i unikthetberäkningar. När inaktiverad (standard) utesluts tomma poster från utvärderingen. När aktiverad delar alla tomma poster ett enda “tomt” värde, vilket kan sänka unikhetsgraden för fält med många tomma poster.

Tips: Inaktivera Skiftlägeskänslig (standard) för de flesta fält. Aktivera den bara när skiftläge bär på mening, som produktkoder där “ABC-100” och “abc-100” genuint är olika artiklar.

När du ska aktivera Inkludera tomma

Som standard utesluter DQS tomma och null-poster från unikhetsberäkningar. Det är vettigt för valfria fält där tomma värden förväntas.

Aktivera Inkludera tomma när tomma värden i sig är det problem du vill mäta. Om 3 000 Contact-poster inte har något e-postvärde delar dessa 3 000 tomma poster ett “tomt” värde i unikhetsberäkningen. Det sänker Unikhetsgraden och gör det tomma problemet synligt i rubriktalet.

Exempel: Du söker igenom Phone för Contacts med Inkludera tomma inaktiverad. Unikhetsgraden är 91 %. Du aktiverar Inkludera tomma och söker igen. Unikhetsgraden sjunker till 72 %. Skillnaden avslöjar att en stor del av dina Contact-poster delar ett gemensamt drag: inget telefonnummer. Fältet såg friskt ut när tomma poster uteslöts, men den fullständiga bilden berättar en annan historia.

Vanliga unikhetsproblem

Dubblerade poster från massimporter

Datamigrationer och listimporter introducerar dubbletter när matchningslogiken är otillräcklig. En köpt kontaktlista skapar nya poster för personer som redan finns. En export från ett äldre system skapar Accounts som överlappar med befintlig data.

Åtgärd: Granska importer innan laddning. Använd DQS för att fastställa en unikhetsbas­nivå för nyckelidentifieringsfält (E-post, Telefon, Webbplats) före och efter varje import.

Standardvärden som maskerar sig som data

Integrationer och migrationer skriver ofta standardvärden i fält. “Unknown”, “N/A” eller ett företags eget namn förekommer på tusentals poster. Dessa blåser upp dubbletträkningar och snedvrider fördelnings­mätvärden.

Åtgärd: Kör Avancerad unikhetsanalys. Maximal frekvens avslöjar det dominerande värdet. Om ett värde förekommer på 85 % av posterna, undersök om det är verklig data eller ett standardvärde.

Fritext-fält utan styrning

Textfält som saknar picklistabegränsningar ackumulerar variationer med tiden. Fältet Job_Title för Contacts lagrar samma roll på 15 olika sätt. Distinkt antal stiger medan det faktiska affärsbegreppet förblir litet.

Åtgärd: Kör Avancerad unikhetsanalys på textfält du planerar att standardisera. Använd Distinkt antal och Entropi för att uppskatta normaliseringsinsatsen. Konvertera högt värderade fritext-fält till picklistor.

Boilerplate-förorenade textfält

Supporthandläggare klistrar in standardinledningar och avslutningar i varje ärende. Säljare kopierar mallar för opportunity-beskrivningar. Fälten är tekniskt sett “unika” (olika ärendenummer, datum), men innehållet är 90 % identiskt.

Åtgärd: Kör Avancerad unikhetsanalys med boilerplate-identifiering på textfält. Boilerplate-grad avslöjar graden av mallförorening. Åtgärda detta innan dessa fält används för AI-träning eller analys.

Delade identifierare som ser ut som dubbletter

Avdelnings-e-postadresser ([email protected]), delade telefonnummer och företagsövergripande faxnummer skapar legitima dubblika värden. Inte varje låg unikhetsgrad signalerar ett problem.

Åtgärd: Utvärdera unikhet i sammanhang. Ett E-post-fält med 78 % unikhet behöver undersökning. Ett Fax-fält med 40 % unikhet är förväntat. Ange dina övervakningsgränser baserat på vad fältet representerar.

Bästa praxis

Välj rätt rubrikalternativ beroende på fälttyp

Unikhetsgrad är rätt rubrik för identifieringsfält (E-post, Telefon, Account-namn). För textinnehållsfält (Beskrivning, Anteckningar, Kommentarer) kombinera Unikhetsgrad med Boilerplate-grad för att få den fullständiga bilden. Ett fält kan ha 99 % Unikhetsgrad och ändå vara 65 % boilerplate.

Använd fördelnings­mätvärden för segmenteringsfält

För fält du använder i segmentering, filtrering eller rapportering (Bransch, Land, Lead Source) kontrollera Entropi och Maximal frekvens. Låg entropi avslöjar att din “24-kategoris” picklista egentligen är ett 2-hinks­system. Maximal frekvens avslöjar standardvärden som snedvrider dina segment.

Spåra trender över genomsökningar

En enda genomsökning visar nuläget. Kör genomsökningar regelbundet för att identifiera nya dubblettkällor, mäta effekten av dedupliceringsinitiv och identifiera integrationer som introducerar upprepade data. Ett fält som sjunker från 90 % till 75 % unikhet mellan genomsökningar har en ny problemkälla.

Prioritera efter affärspåverkan

Inte varje fält behöver hög unikhet. Ett E-post-fält med dubbletter signalerar ett sammanslagnings­problem. Ett Land-fält med dubbletter är normalt. Fokusera unikhets­övervakning på fält som fungerar som identifierare, driver dedupliceringsr­egler eller matar AI-modeller.

Åtgärda rotorsaker

Låg unikhet signalerar ett processproblem. Undersök om användare skapar poster utan att kontrollera befintliga, importer saknar dedupliceringslogi­k, eller integrationer skriver standardvärden. Åtgärda källan, inte bara symptomet.

Nästa steg

Du förstår nu hur man mäter och diagnosticerar unikhetsproblem. Fortsätt lära dig om nästa dimension: