Unikalność: scenariusze konfiguracji

Co obejmują te scenariusze

Ta strona przeprowadza przez trzy rzeczywiste konfiguracje analizy unikalności DQS. Każdy scenariusz dotyczy konkretnego problemu biznesowego, pokazuje dokładne ustawienia i wyjaśnia, jak czytać wyniki.

Te przewodniki bazują na koncepcjach z głównego artykułu Unikalność. Przeczytaj go najpierw, jeśli dopiero poznajesz metryki unikalności, warstwy diagnostyczne lub różnicę między Basic Uniqueness a Advanced Uniqueness Analysis.

Scenariusz 1: audyt deduplikacji e-maili na Lead

Problem

Twój zespół marketingu prowadzi kampanie nurture przez Salesforce. Wskaźniki otwarć spadają, a platforma e-mail raportuje rosnącą liczbę „duplikatów wysyłek”: ta sama osoba otrzymuje ten sam e-mail dwa razy. Twoje reguły zarządzania duplikatami wyłapują dokładne dopasowania, ale częściowe duplikaty prześlizgują się. Dwa rekordy Lead tej samej osoby z tym samym adresem e-mail oba dostają kampanię. Potrzebujesz konkretnej liczby: ile adresów e-mail Lead jest współdzielonych między wieloma rekordami?

Konfiguracja

To prosta kontrola wykrywania duplikatów. Użyj trybu Basic Uniqueness na obiekcie Lead, kierując się na pole Email.

Ustawienie	Wartość	Dlaczego
Analysis Mode	Basic Uniqueness	Potrzebujesz wskaźnika duplikacji i liczby unikalnych, nie rozkładu ani analizy boilerplate
Case Sensitive	OFF	Adresy e-mail są niewrażliwe na wielkość liter. „[email protected]” i „[email protected]” to ten sam adres.
Include Blanks	ON	Pusty e-mail na Lead to problem warty skwantyfikowania. Włączenie pustych oznacza, że wszystkie rekordy z pustym e-mailem dzielą jedną wartość „pusty”, obniżając Uniqueness Rate i uwidaczniając lukę.

Case Sensitive OFF to domyślna i właściwa opcja dla e-maila. Jeśli dwa rekordy przechowują „[email protected]” i „[email protected]”, to ten sam adres. Włączenie rozróżniania wielkości liter liczyłoby je jako odrębne i ukryło duplikat.

Przykładowe wyniki

Metryki podstawowe:

Metryka	Wartość
Uniqueness Rate	74%
Distinct Count	18 500

Łącznie ocenianych rekordów Lead: 25 000.

Jak czytać wyniki

Zacznij od nagłówka: 74% unikalności. Oznacza to, że 26% adresów e-mail pojawia się w więcej niż jednym rekordzie Lead. Z 25 000 Lead istnieje tylko 18 500 odrębnych adresów e-mail. Luka 6 500 rekordów to współdzielone adresy e-mail.

Jak 26% zduplikowanych e-maili wygląda w praktyce. Niektóre są uzasadnione: adresy departamentów jak [email protected] czy [email protected] współdzielone między wieloma kontaktami w tej samej firmie. Większość to zduplikowane Lead utworzone z różnych źródeł. Formularz WWW tworzy jeden Lead. Import listy tworzy drugi. Handlowiec tworzy trzeci z wizytówki. Wszystkie trzy mają ten sam adres e-mail.

Include Blanks ON ujawnia pełny obraz. Z włączonym Include Blanks, Lead bez adresu e-mail współdzielą jedną wartość „pusty”. Jeśli 2 000 z 25 000 Lead nie ma e-maila, te 2 000 rekordów liczy się jako duplikaty siebie nawzajem. Obniża to Uniqueness Rate w porównaniu z wyłączeniem pustych, ale daje uczciwą liczbę. Twoja kampania może dotrzeć do 18 500 odrębnych adresów w najlepszym razie, a nie 25 000.

Dlaczego Basic Uniqueness tu wystarcza. Pytanie brzmi: „ile e-maili jest zduplikowanych?” Uniqueness Rate i Distinct Count odpowiadają na to pytanie. Nie potrzebujesz Entropy ani Rarity, aby zdecydować, czy uruchomić projekt deduplikacji. Jeśli później chcesz zrozumieć wzorzec dystrybucji (ile e-maili pojawia się dokładnie dwa razy vs dziesięć razy), przełącz na Advanced Uniqueness Analysis dla pełnego obrazu.

Co zrobić dalej

Użyj Distinct Count (18 500) jako rzeczywistej adresowalnej grupy odbiorców kampanii e-mailowych. Oszacuj projekt deduplikacji dla rekordów ze współdzielonymi e-mailami. Zacznij od wyeksportowania Lead zgrupowanych według adresu e-mail, a następnie scalaj lub usuwaj duplikaty. Po oczyszczeniu uruchom skan ponownie i monitoruj Uniqueness Rate w czasie. Jeśli spada między skanami, pojawiło się nowe źródło duplikatów: import listy, formularz WWW bez logiki dedup lub integracja tworząca rekordy bez sprawdzania istniejących.

Scenariusz 2: rozkład pola Industry na Account

Problem

Twój zespół danych zbudował model segmentacji Account, który grupuje klientów według Industry. Model używa 24 wartości picklist branż do tworzenia ukierunkowanych segmentów. Ale segmenty są nierówne: dwa segmenty zawierają 70% wszystkich rekordów Account, podczas gdy pozostałe 22 dzielą pozostałe 30%. Zespół data science podejrzewa, że pole Industry ma problem z rozkładem, a nie problem modelu. Musisz potwierdzić, czy rozkład wartości pola jest naprawdę skośny i zidentyfikować dominujące wartości.

Konfiguracja

Użyj trybu Advanced Uniqueness Analysis na obiekcie Account, kierując się na pole Industry. Potrzebujesz metryk rozkładu (Entropy, Max Frequency, Rarity), aby odpowiedzieć na pytania o to, jak wartości są rozłożone.

Ustawienie	Wartość	Dlaczego
Analysis Mode	Advanced Uniqueness Analysis	Potrzebujesz Entropy, Max Frequency i Rarity do analizy rozkładu
Case Sensitive	OFF	Wartości picklist są kontrolowane. Wielkość liter nie jest tu istotna.
Include Blanks	OFF	Puste wartości Industry to problem kompletności, nie unikalności. Wyklucz je, aby skupić się na rozkładzie wypełnionych wartości.

Include Blanks OFF jest właściwym wyborem dla tego scenariusza. Analizujesz, jak istniejące dane są rozłożone między kategoriami. Dodanie pustych do obliczeń zniekształciłoby metryki rozkładu bez odpowiedzi na pytanie o segmentację. Jeśli chcesz wiedzieć, ile rekordów Account nie ma wartości Industry, uruchom analizę kompletności.

Przykładowe wyniki

Metryki podstawowe:

Metryka	Wartość
Uniqueness Rate	0,16%
Distinct Count	24

Metryki zaawansowane:

Metryka	Wartość
Entropy	2,18
Max Frequency	5 200
Rarity	0%

Łącznie ocenianych rekordów Account: 15 000.

Jak czytać wyniki

Uniqueness Rate (0,16%) jest oczekiwany i nieistotny. Industry to picklist z 24 wartościami w 15 000 rekordach. Prawie każda wartość jest współdzielona przez setki rekordów. Niski Uniqueness Rate na polu picklist jest normalny. Ta metryka nie jest sednem analizy.

Distinct Count (24) potwierdza, że twoja picklista jest nienaruszona. Wszystkie 24 skonfigurowane wartości pojawiają się w danych. Żadne nieprzewidziane wpisy swobodnego tekstu nie istnieją. Dane są czyste z perspektywy spójności.

Entropy (2,18) ujawnia skośność. Maksymalna entropia dla 24 odrębnych wartości to log2(24) = 4,58. Twoja rzeczywista entropia to 2,18. Znormalizowany wynik to 2,18 / 4,58 = 0,48. To znacznie poniżej progu 0,7 dla rozkładów „zdominowanych”. Kilka wartości trzyma większość rekordów. Podejrzenie zespołu data science jest potwierdzone: problem segmentacji jest w danych, nie w modelu.

Jak interpretować znormalizowaną entropię:

Znormalizowana (rzeczywista / maks)	Interpretacja
0,9 lub wyżej	Równy rozkład: wartości rozłożone jednolicie
0,7 do 0,9	Umiarkowana skośność: niektóre wartości częstsze niż inne
Poniżej 0,7	Zdominowany: kilka wartości trzyma większość rekordów

Twój wynik 0,48 jest w zakresie „zdominowany”.

Max Frequency (5 200) identyfikuje dominującą wartość. Jedna wartość branży pojawia się w 5 200 z 15 000 rekordów, czyli 34,7% zbioru danych. Szybkie sprawdzenie ujawnia, że to „Technology”. Druga najczęstsza wartość jest prawdopodobnie odpowiedzialna za większość pozostałej koncentracji. Razem dwie wartości odpowiadają za klastrowanie 70%, które zauważył twój zespół.

Rarity (0%) potwierdza, że nie ma długiego ogona. Każda z 24 odrębnych wartości pojawia się więcej niż raz. Brak singletonów. To oczekiwane dla dobrze kontrolowanego pola picklist. W polu swobodnego tekstu chciałbyś widzieć Rarity, aby wyłapać literówki i pojedyncze wpisy, ale w picklistie 0% Rarity jest normalne.

Werdykt segmentacji: twój 24-kategoriowy model jest naprawdę systemem 2-kategoriowym. „Technology” i jedna inna branża dominują w zbiorze danych. Pozostałe 22 kategorie dzielą 30% rekordów, dając każdej kategorii średnio około 200 rekordów. Niektóre segmenty są zbyt małe do sensownej analizy.

Co zrobić dalej

Przedstaw Entropy i Max Frequency zespołowi data science. Liczby potwierdzają problem rozkładu. Dwie opcje: (1) Przeprojektuj model segmentacji, aby używał mniej, szerszych kategorii odzwierciedlających rzeczywisty rozkład. Pogrupuj 22 mniejsze branże w 4-5 makrokategorii. (2) Wzbogać dane Industry. Jeśli koncentracja w „Technology” jest zawyżona, bo handlowcy domyślnie wybierają ją podczas tworzenia rekordu, sprawdź, czy duża część z tych 5 200 rekordów należy do innej branży. Uruchamiaj okresowy skan i monitoruj Entropy w czasie. W miarę poprawy błędnie sklasyfikowanych rekordów Entropy rośnie ku zdrowszemu rozkładowi.

Scenariusz 3: wykrywanie boilerplate w opisach Case dla gotowości na AI

Problem

Twoja firma ocenia podsumowywanie spraw wspomagane AI dla zespołu wsparcia. Narzędzie AI czyta pole Description na Case i generuje podsumowanie dla następnego agenta, który odbiera sprawę. Przed inwestycją musisz ocenić, czy twoje opisy spraw zawierają wystarczająco oryginalnej treści, aby AI mogło wytworzyć użyteczne podsumowania. Pole jest wypełnione w 95% spraw, więc kompletność nie jest problemem. Problemem jest to, że agenci wsparcia kopiują-wklejają standardowe szablony w każdą sprawę.

Konfiguracja

Użyj trybu Advanced Uniqueness Analysis na obiekcie Case, kierując się na pole Description. Potrzebujesz metryk boilerplate do oceny oryginalności treści.

Ustawienie	Wartość	Dlaczego
Analysis Mode	Advanced Uniqueness Analysis	Włącza wykrywanie boilerplate (Boilerplate Rate, Boilerplate Percentage, Boilerplate Records Count)
Case Sensitive	OFF	Wykrywanie szablonów nie zależy od wielkości liter
Include Blanks	OFF	Puste opisy to problem kompletności. Wyklucz, aby skupić się na jakości wypełnionej treści.

Include Blanks OFF ma tu sens, ponieważ oceniasz istniejącą treść, a nie liczysz brakującej. 5% spraw z pustymi opisami jest już obsługiwane przez analizę kompletności.

Przykładowe wyniki

Metryki podstawowe:

Metryka	Wartość
Uniqueness Rate	97%
Distinct Count	29 100

Metryki zaawansowane:

Metryka	Wartość
Entropy	14,8
Boilerplate Rate	42%
Boilerplate Percentage	68%
Boilerplate Records Count	20 400

Łącznie ocenianych rekordów Case: 30 000.

Jak czytać wyniki

Uniqueness Rate (97%) wygląda zdrowo, ale jest mylący. Prawie każdy opis sprawy jest technicznie różny, ponieważ każdy zawiera unikalne numery spraw, imiona klientów i daty. Pole przechodzi podstawową kontrolę duplikacji. Ale „unikalny” nie oznacza „oryginalny”.

Boilerplate Rate (42%) mówi prawdziwą historię. 42% treści tekstowej we wszystkich opisach spraw jest powtarzalna lub szablonowa. Agenci wklejają standardowe początki („Thank you for contacting support. Your case number is…”), standardowe zakończenia („Please do not hesitate to reach out if you have further questions.”) i standardowe listy kontrolne diagnostyczne w każdą sprawę. Specyficzne dla sprawy szczegóły wypełniają środek, ale prawie połowa każdego opisu to treść kopiuj-wklej.

Boilerplate Percentage (68%) pokazuje, jak rozległy jest problem. 68% rekordów spraw zawiera szablonowy tekst. To 20 400 z 30 000 spraw. Boilerplate nie jest ograniczony do kilku agentów ani jednego zespołu. To systemowy wzorzec wpisany w proces wsparcia.

Boilerplate Records Count (20 400) to twoja liczba zakresu. Jeśli potrzebujesz oszacować wysiłek oczyszczania szablonów przed podaniem danych AI, to punkt wyjścia. 20 400 rekordów zawiera treść, którą AI nauczy się jako wzorce, ale te wzorce to twoje szablony, a nie problemy klientów.

Werdykt gotowości na AI: narzędzie podsumowywania AI będzie przetwarzać szablonową treść w 68% spraw. Nauczy się podsumowywać twoje szablony, a nie problemy klientów. W 32% spraw z oryginalną treścią AI będzie działać dobrze. W 68% z boilerplate podsumowania będą echem standardowych fraz, które agenci już znają na pamięć.

Entropy (14,8) jest wysoka, potwierdzając, że tekst jest zróżnicowany na poziomie znaków. Zgadza się to z 97% Uniqueness Rate: każdy opis jest inny. Entropy nie jest tu istotną metryką, ponieważ problem duplikacji nie polega na identycznych wartościach. Problemem są powtarzające się wzorce treści w inaczej unikalnym tekście. To dokładnie to, co metryki boilerplate są zaprojektowane, aby wyłapać.

Co zrobić dalej

Przedstaw Boilerplate Rate (42%) i Boilerplate Percentage (68%) interesariuszom projektu AI. Liczby mówią jasno: projekt AI wymaga fazy poprawy jakości treści przed wdrożeniem. Trzy podejścia, aby zmniejszyć boilerplate:

Usuń szablony. Jeśli agenci wklejają standardowe początki i zakończenia, zbuduj te elementy w układ strony Case lub w screen flow, aby nie zanieczyszczały pola Description. Opis wtedy rejestruje tylko informacje specyficzne dla sprawy.
Szkol agentów w pisaniu skutecznych opisów. Udostępnij przykłady wysokiej jakości opisów (z 32%, które są oryginalne) i wyjaśnij, dlaczego wpisy bez szablonów produkują lepsze podsumowania AI.
Usuń boilerplate z danych historycznych. Przed podaniem istniejących spraw do AI uruchom zadanie przetwarzania tekstu, które usunie znane wzorce szablonów z pola Description.

Uruchom skan ponownie po każdym cyklu ulepszeń. Monitoruj Boilerplate Rate i Boilerplate Percentage jako główne metryki gotowości na AI dla tego pola. Twój cel: Boilerplate Percentage poniżej 30% i Boilerplate Rate poniżej 20% przed wdrożeniem narzędzia podsumowywania AI.

Wybór konfiguracji

Użyj tej tabeli, aby wybrać właściwy punkt wyjścia dla analizy unikalności.

Jeśli potrzebujesz…	Zacznij od	Kluczowe ustawienia
Audytować duplikaty wartości na polu identyfikatora (Email, Phone, Account Name)	Basic Uniqueness	Case Sensitive: OFF, Include Blanks: ON, aby ujawnić wolumen pustych
Oszacować projekt deduplikacji z konkretną liczbą rekordów	Basic Uniqueness	Użyj Distinct Count do obliczenia luki między łączną liczbą a wartościami unikalnymi
Przeanalizować rozkład wartości na polu picklist lub kategorialnym	Advanced Uniqueness Analysis	Przejrzyj Entropy (znormalizowaną), Max Frequency i Rarity
Wykryć szablonową treść w polach tekstowych przed projektem AI	Advanced Uniqueness Analysis	Przejrzyj Boilerplate Rate, Boilerplate Percentage i Boilerplate Records Count
Ustalić, czy „zdrowy” wynik unikalności ukrywa głębsze problemy	Advanced Uniqueness Analysis	Sparuj Uniqueness Rate z Entropy (dla skośności rozkładu) lub Boilerplate Rate (dla oryginalności treści)

Pełna referencja wszystkich 8 metryk unikalności, trzech warstw diagnostycznych i szczegółów konfiguracji — wróć do głównego artykułu Unikalność.

Gotowy, by zmierzyć własną jakość danych? Wykonaj AI Readiness Assessment, aby zobaczyć swoje wyniki unikalności i więcej.