Unikalność | DQS Resources

Czym jest unikalność?

Unikalność mierzy, czy Twoje wartości danych są odrębne i nie zduplikowane. Pole ma wysoką unikalność, gdy każdy rekord zawiera inną wartość. Unikalność załamuje się, gdy ta sama wartość pojawia się w wielu rekordach lub gdy pola tekstowe zawierają powtarzalną szablonową treść, która nie wnosi wartości analitycznej.

Zduplikowane rekordy kosztują Twoją organizację na każdym etapie. Trzy rekordy Account dla tej samej firmy dzielą Twój pipeline. Dwa rekordy Contact dla tej samej osoby otrzymują dwa e-maile marketingowe. Szablon wklejany w tysiące opisów Case uniemożliwia wyciąganie wniosków. Analiza unikalności kwantyfikuje wszystkie te problemy.

Stopień unikalności = (Rekordy z unikalnymi wartościami / Łączna liczba rekordów) x 100

Jeśli 7800 z 10 000 rekordów Contact ma odrębną wartość Email, Twój stopień unikalności dla Email wynosi 78%. Pozostałe 22% współdzieli adresy e-mail z co najmniej jednym innym rekordem. Ta jedna metryka mówi Ci, czy pole, od którego oczekujesz unikalnych wartości, faktycznie je ma.

Dlaczego unikalność ma znaczenie

Raportowanie

Zduplikowane rekordy zawyżają Twoje liczby. Gdy ta sama firma pojawia się jako trzy Accounts, Twoja liczba Accounts jest zawyżona o dwa. Raporty pipeline pokazują trzy transakcje tam, gdzie jest jedna. Liczby klientów używane do prezentacji zarządu i raportowania dla inwestorów są błędne.

Automatyzacja

Automatyzacja Salesforce traktuje każdy rekord niezależnie. Zduplikowane Account wyzwala zduplikowane flows, wysyła zduplikowane powiadomienia i tworzy zduplikowane Tasks. Proces odnowienia, który uruchamia się dla każdego Account pasującego do nazwy firmy, wyzwala się trzy razy zamiast raz.

AI i Agentforce

Modele AI przetwarzają każdy rekord jako odrębną encję. Zduplikowane rekordy fragmentują widok klienta przez model. Agentforce generuje odpowiedzi używając danych Salesforce. Gdy istnieją trzy rekordy Account dla tej samej firmy, Agentforce widzi trzech klientów, a nie jednego z pełną historią. Powtarzalna szablonowa treść w polach tekstowych uczy model Twoich szablonów, a nie wzorców biznesowych.

System	Wpływ unikalności
Raporty	Zawyżone liczby, fragmentaryczne metryki
Flows	Zduplikowane wyzwalacze, redundantne powiadomienia
Reguły duplikatów	Przytłoczone istniejącymi duplikatami, jeśli nie są wykryte
Agentforce	Fragmentaryczny widok klienta, nauka zanieczyszczona szablonami

Jak DQS mierzy unikalność

DQS produkuje 6 metryk unikalności zorganizowanych wokół pytania diagnostycznego: „Czy dane są odrębne, jak są rozłożone i czy treść tekstowa jest oryginalna?”

Pomyśl o tych metrykach jak o przepływie diagnostycznym. Każda warstwa opiera się na poprzedniej.

Warstwa 1: Czy wartości są unikalne?

Uniqueness Rate to metryka nagłówkowa. Oblicza procent rekordów, w których wartość pola jest odrębna (nie zduplikowana nigdzie indziej w zbiorze danych). To liczba, którą umieszcza się na dashboardzie.

Uruchamiasz skanowanie obiektu Contact. Pole Email pokazuje Uniqueness Rate 78%. Oznacza to, że 22% adresów e-mail pojawia się na więcej niż jednym Contact. Niektóre są legalne (współdzielone e-maile działowe jak [email protected]), ale większość to prawdopodobnie zduplikowane kontakty wymagające scalenia. Ta jedna liczba uzasadnia inicjatywę deduplikacji.

Distinct Count mówi Ci o kardynalności pola: ile różnych wartości rzeczywiście istnieje. Jeśli 10 000 rekordów Contact zawiera 8200 odrębnych adresów e-mail, Distinct Count wynosi 8200.

Przykład: Oczekujesz, że picklist Lead_Source będzie miał około 12 wartości (skonfigurowane opcje picklisty). Ale Distinct Count pokazuje 87. Zanim picklist został ograniczony, przedstawiciele wpisywali wartości tekstu dowolnego. „Web”, „web”, „Website”, „Webinar”, „web form” — wszystkie liczą się jako odrębne. Ta metryka ujawnia, że Twoje dane Lead Source wymagają normalizacji, nawet jeśli picklist jest teraz zablokowana.

Warstwa 2: Jak rozłożone są dane?

Uniqueness Rate mówi, ile wartości jest unikalnych. Metryki rozkładu mówią, jak te wartości są rozłożone w rekordach. Dwa pola mogą mieć ten sam Uniqueness Rate, ale bardzo różne rozkłady.

Entropy mierzy, jak równomiernie wartości są rozłożone, używając entropii Shannona. Skala sięga od 0 (każdy rekord ma dokładnie taką samą wartość) do maksimum określonego przez liczbę odrębnych wartości. Wyższa entropia oznacza bardziej zróżnicowane, bardziej równomiernie rozłożone dane.

Sama entropia nic nie znaczy. Porównaj ją z maksymalną możliwą entropią dla tego pola. Maksimum = log2(Distinct Count), czyli entropia, którą otrzymasz, jeśli każda odrębna wartość pojawia się dokładnie tyle samo razy. Stosunek (rzeczywista / maks) daje Ci znormalizowany wynik od 0 do 1:

Znormalizowany (rzeczywista / maks)	Interpretacja
0,9 lub więcej	Równomierny rozkład: wartości rozłożone jednolicie
0,7 do 0,9	Umiarkowana skośność: niektóre wartości pojawiają się częściej niż inne
Poniżej 0,7	Zdominowane: kilka wartości trzyma większość rekordów

Przykład: Twoje pole Industry na Accounts ma Uniqueness Rate 2% (oczekiwane dla picklisty) i 24 odrębne wartości. Wygląda dobrze. Ale entropia wynosi 1,3, a maksymalna entropia dla 24 wartości to 4,6. Znormalizowany wynik to 0,28. Rozkład jest poważnie skośny: 60% rekordów to „Technology” i „Financial Services”. Twoja segmentacja branżowa to system dwóch kubełków ubrany w 24 kategorie.

Max Frequency podaje Ci liczbę wystąpień pojedynczej najczęstszej wartości. Jeśli „London” pojawia się 8400 razy w polu City, Max Frequency wynosi 8400.

Pojedyncza dominująca wartość często sygnalizuje problem wartości domyślnej, artefakt migracji lub prawdziwą koncentrację biznesową wymagającą zbadania. Max Frequency podnosi pytanie. Szybkie sprawdzenie rzeczywistej wartości na nie odpowiada.

Przykład: Pole Billing_Country ma Max Frequency 34 000 z 40 000 rekordów. To 85% rekordów z jednym krajem. Albo Twój biznes jest rzeczywiście skoncentrowany na jednym rynku, albo ktoś ustawił wartość domyślną podczas migracji. Metryka ujawnia wzorzec; Ty określasz przyczynę.

Warstwa 3: Czy treść tekstowa jest oryginalna?

Pierwsze dwie warstwy mierzą, czy wartości są identyczne. Warstwa 3 zadaje inne pytanie: czy treść tekstowa jest zasadniczo podobna? Dwa opisy Case mogą być w 100% unikalne (różne numery Case, daty), ale w 90% szablonowe (ten sam szablon, te same frazy).

Boilerplate Rate to metryka nagłówkowa dla oryginalności treści tekstowej. Mierzy procent treści, która jest powtarzalna lub szablonowa. Wyższy wynik oznacza bardziej oryginalną treść z mniejszą ilością szablonu. DQS wykrywa popularne szablony jak podpisy e-mail, zastrzeżenia prawne i powtarzane frazy.

Przykład: Twoja organizacja ocenia, czy pole Description na Opportunities nadaje się do analizy wygranych/przegranych zasilanej AI. Uniqueness Rate wynosi 99% (każdy opis jest technicznie inny). Ale Boilerplate Rate ujawnia, że 65% treści podąża za tym samym szablonem: „Customer: [name]. Need: [product]. Timeline: [date].” Model AI nauczyłby się Twojej struktury szablonu, a nie wzorców wygrywania. Boilerplate Rate ratuje Cię przed projektem AI typu „śmieć na wejściu, śmieć na wyjściu”.

Boilerplate Records Count podaje Ci zakres czyszczenia jako wartość bezwzględną. Jeśli 12 400 rekordów zawiera szablon, Twój data steward zna rozmiar projektu naprawy. Może oszacować godziny, przypisać zasoby i ustawić realistyczny harmonogram.

Przykład: Twój zespół wsparcia loguje każdą interakcję w Case Comments. Boilerplate Records Count pokazuje 12 400. Badanie ujawnia, że agenci wklejają standardowe otwarcie („Thank you for contacting support. Your case number is…”) i zamknięcie („Please don’t hesitate to reach out…”) w każdy Case. Przed użyciem AI do analizy interakcji wsparcia, te 12 400 rekordów wymaga usunięcia szablonu.

Trzy kąty analizy

Metryki unikalności pokrywają trzy odrębne zagadnienia, każde obsługujące innego interesariusza:

Zagadnienie	Metryki	Pytanie	Interesariusz
Duplikacja	Uniqueness Rate, Distinct Count	Czy mamy powtarzane wartości?	Data stewardzi (kandydaci do scalenia, reguły dedupacji)
Rozkład	Entropy, Max Frequency	Jak dane są rozłożone na wartości?	Analitycy i data scientists (segmentacja, modelowanie)
Oryginalność	Boilerplate Rate, Boilerplate Records Count	Czy treść tekstowa jest prawdziwie oryginalna?	Zespoły AI (jakość danych treningowych, ekstrakcja treści)

Referencja metryk

Metryki podstawowe

Te 2 metryki tworzą bazę każdej analizy unikalności. Działają na wszystkich 15 obsługiwanych typach pól.

Metryka	Typ	Co mierzy
Uniqueness Rate	Procent	Udział rekordów z niezduplikowanymi wartościami
Distinct Count	Liczba	Łączna liczba odrębnych wartości w polu

Metryki zaawansowane

Te 4 metryki wykraczają poza „czy wartości są unikalne?”, aby analizować wzorce rozkładu i oryginalność tekstu. Wymagają trybu Advanced Uniqueness Analysis.

Metryka	Typ	Co mierzy
Entropy	Liczba dziesiętna	Jak równomiernie wartości są rozłożone (entropia Shannona)
Max Frequency	Liczba	Liczba wystąpień pojedynczej najczęstszej wartości
Boilerplate Rate	Procent	Stopień szablonowej lub powtarzalnej treści
Boilerplate Records Count	Liczba	Liczba rekordów z treścią szablonową

Pokrycie typów pól

Różne metryki mają zastosowanie do różnych typów pól w oparciu o to, co mierzą.

Grupa pokrycia	Typy pól	Dostępne metryki
Wszystkie typy (15)	String, TextArea, LongTextArea, Number, Currency, Percent, AutoNumber, Date, DateTime, Picklist, Email, Phone, URL, Lookup, Checkbox	Uniqueness Rate, Distinct Count
Typy analityczne (9)	String, TextArea, Number, Picklist, Multiselect Picklist, Checkbox, Email, Phone, URL	Entropy, Max Frequency
Pola tekstowe (3)	String, TextArea, Html	Boilerplate Records Count
Długie pola tekstowe (3)	TextArea, LongTextArea, Html	Boilerplate Rate

Metryki bazowe działają na wszystkich 15 typach pól, ponieważ każde pole może mieć duplikaty. Metryki rozkładu (Entropy, Max Frequency) działają na 9 typach pól produkujących policzalne tablice częstości. Metryki szablonowe mają zastosowanie tylko do pól tekstowych, ponieważ wykrywają wzorce powtarzanej treści w danych tekstu dowolnego.

Dwa tryby analizy

DQS oferuje dwa tryby analizy unikalności:

Basic Uniqueness odpowiada na pytanie: „Czy wartości są odrębne?” Produkuje 2 metryki podstawowe i pokrywa podstawy dla szybkiego sprawdzenia wykrywania duplikatów lub audytu bazowego.

Advanced Uniqueness Analysis idzie głębiej. Produkuje wszystkie 6 metryk, w tym analizę rozkładu, wzorce częstości i wykrywanie szablonów. Używaj tego trybu, gdy musisz zrozumieć pełny obraz rozkładu danych i oryginalności tekstu, a nie tylko stopień duplikacji.

Potrzeba biznesowa	Rekomendowany tryb
Szybki audyt wykrywania duplikatów	Basic Uniqueness
Ocena migracji danych	Advanced (Max Frequency wychwytuje wartości domyślne, Entropy ujawnia skośność)
Sprawdzenie higieny picklisty	Advanced (Entropy + Max Frequency ujawniają skośność i potrzeby normalizacji)
Ocena danych treningowych AI	Advanced (metryki szablonowe oceniają oryginalność treści)
Bieżące zarządzanie danymi	Zacznij od Basic Uniqueness, przejdź do Advanced dla głębszej analizy

Konfigurowanie unikalności

DQS udostępnia 2 wejścia konfiguracyjne dla unikalności. Każde można ustawić na poziomie globalnym (dotyczy wszystkich pól) i nadpisać na poziomie pojedynczego pola.

Ustawienie	Co kontroluje
Case Sensitive	Kontroluje, czy porównanie wartości uwzględnia wielkość liter. Gdy wyłączone (domyślnie), „Apple” i „apple” liczą się jako ta sama wartość. Gdy włączone, liczą się jako dwie odrębne wartości.
Include Blanks	Kontroluje, czy rekordy null i puste są uwzględniane w obliczeniach unikalności. Gdy wyłączone (domyślnie), puste są wyłączone z oceny. Gdy włączone, wszystkie puste rekordy współdzielą jedną wartość „blank”, co może obniżyć stopień unikalności na polach z wieloma pustymi rekordami.

Wskazówka: Wyłącz Case Sensitive (domyślnie) dla większości pól. Włącz go tylko wtedy, gdy wielkość liter niesie znaczenie, jak kody produktów, gdzie „ABC-100” i „abc-100” to prawdziwie różne produkty.

Kiedy włączyć Include Blanks

Domyślnie DQS wyklucza puste i null rekordy z obliczeń unikalności. Ma to sens dla pól opcjonalnych, gdzie puste wartości są oczekiwane.

Włącz Include Blanks, gdy puste wartości same w sobie są problemem, który chcesz zmierzyć. Jeśli 3000 rekordów Contact nie ma wartości Email, te 3000 pustych wartości współdzieli jedną wartość „blank” w obliczeniach unikalności. Obniża to Uniqueness Rate i sprawia, że problem pustych wartości staje się widoczny w metryce nagłówkowej.

Przykład: Skanujesz Phone na Contacts z wyłączonym Include Blanks. Uniqueness Rate wynosi 91%. Włączasz Include Blanks i ponownie skanujesz. Uniqueness Rate spada do 72%. Różnica ujawnia, że duża część Twoich rekordów Contact dzieli wspólną cechę: brak numeru telefonu. Pole wyglądało zdrowo, gdy puste były wyłączone, ale pełny obraz opowiada inną historię.

Typowe problemy z unikalnością

Zduplikowane rekordy z masowych importów

Migracje danych i importy list wprowadzają duplikaty, gdy logika dopasowania jest niewystarczająca. Kupiona lista kontaktów tworzy nowe rekordy dla osób już istniejących. Eksport ze starego systemu tworzy Accounts nachodzące na aktualne dane.

Rozwiązanie: Audytuj importy przed załadowaniem. Używaj DQS do ustalenia bazowej unikalności na kluczowych polach identyfikatorów (Email, Phone, Website) przed i po każdym imporcie.

Wartości domyślne udające dane

Integracje i migracje często zapisują wartości domyślne do pól. „Unknown”, „N/A” lub własna nazwa firmy pojawia się na tysiącach rekordów. Zawyżają one liczby duplikatów i zniekształcają metryki rozkładu.

Rozwiązanie: Uruchom Advanced Uniqueness Analysis. Max Frequency ujawnia dominującą wartość. Jeśli jedna wartość pojawia się na 85% rekordów, zbadaj, czy to rzeczywiste dane, czy wartość domyślna.

Pola tekstu dowolnego bez zarządzania

Pola tekstowe bez ograniczeń picklisty akumulują wariacje z czasem. Pole Job_Title na Contacts przechowuje tę samą rolę na 15 różnych sposobów. Distinct Count rośnie, podczas gdy rzeczywisty zestaw pojęć biznesowych pozostaje mały.

Rozwiązanie: Uruchom Advanced Uniqueness Analysis na polach tekstowych, które planujesz ustandaryzować. Użyj Distinct Count i Entropy, aby określić zakres normalizacji. Konwertuj wartościowe pola tekstu dowolnego na picklisty.

Pola tekstowe zanieczyszczone szablonem

Agenci wsparcia wklejają standardowe otwarcia i zamknięcia do każdego Case. Przedstawiciele sprzedaży kopiują szablony opisu Opportunity. Pola są technicznie „unikalne” (różne numery Case, daty), ale treść jest w 90% identyczna.

Rozwiązanie: Uruchom Advanced Uniqueness Analysis z wykrywaniem szablonów na polach tekstowych. Boilerplate Rate ujawnia stopień zanieczyszczenia szablonem. Rozwiąż to przed użyciem tych pól do treningu AI lub analizy.

Współdzielone identyfikatory wyglądające jak duplikaty

E-maile działowe ([email protected]), współdzielone numery telefonów i ogólnofirmowe numery faksu tworzą legalne zduplikowane wartości. Nie każdy niski Uniqueness Rate sygnalizuje problem.

Rozwiązanie: Oceniaj unikalność w kontekście. Pole Email z 78% unikalnością wymaga zbadania. Pole Fax z 40% unikalnością jest oczekiwane. Ustaw progi monitorowania w oparciu o to, co pole reprezentuje.

Najlepsze praktyki

Wybierz odpowiednią metrykę nagłówkową według typu pola

Uniqueness Rate to odpowiedni nagłówek dla pól identyfikatorów (Email, Phone, Account Name). Dla pól treści tekstowej (Description, Notes, Comments) połącz Uniqueness Rate z Boilerplate Rate, aby uzyskać pełny obraz. Pole może osiągnąć 99% Uniqueness Rate i nadal być w 65% szablonowe.

Używaj metryk rozkładu dla pól segmentacji

Dla pól używanych w segmentacji, filtrowaniu lub raportowaniu (Industry, Country, Lead Source) sprawdź Entropy i Max Frequency. Niska entropia ujawnia, że Twoja picklist „24 kategorii” to naprawdę system 2 kubełków. Max Frequency ujawnia wartości domyślne, które zniekształcają Twoje segmenty.

Śledź trendy między skanowaniami

Pojedyncze skanowanie pokazuje aktualny stan. Uruchamiaj skanowania regularnie, aby wykrywać nowe źródła duplikatów, mierzyć wpływ inicjatyw deduplikacji i identyfikować integracje wprowadzające powtarzalne dane. Pole, które spada z 90% do 75% unikalności między skanowaniami, ma nowe źródło problemu.

Ustalaj priorytety według wpływu biznesowego

Nie każde pole potrzebuje wysokiej unikalności. Pole Email z duplikatami sygnalizuje problem scalenia. Pole Country z duplikatami jest normalne. Skoncentruj monitoring unikalności na polach pełniących rolę identyfikatorów, napędzających reguły deduplikacji lub zasilających modele AI.

Rozwiązuj przyczyny źródłowe

Niska unikalność sygnalizuje problem procesowy. Zbadaj, czy użytkownicy tworzą rekordy bez sprawdzania istniejących, czy importy nie mają logiki deduplikacji, czy integracje zapisują wartości domyślne. Naprawiaj źródło, a nie tylko objaw.

Następne kroki

Teraz rozumiesz, jak mierzyć i diagnozować problemy unikalności. Kontynuuj naukę o następnym wymiarze:

Dalej: Aktualność - Mierz świeżość i bieżącość danych
Poprzednio: Poprawność - Zapewnij zgodność danych z oczekiwanymi formatami
Powiązane: Pięć wymiarów - Przegląd wszystkich wymiarów
Działanie: Ocena gotowości na AI - Zobacz swoje aktualne wyniki unikalności