Spójność: scenariusze konfiguracji

Co obejmują te scenariusze

Ta strona przeprowadza przez trzy rzeczywiste konfiguracje spójności — od początkowej konfiguracji do odczytu wyników skanu. Każdy scenariusz używa innego kontekstu biznesowego i trybu analizy.

Te scenariusze bazują na koncepcjach i metrykach omówionych w głównym artykule Spójność. Przeczytaj go najpierw, jeśli terminy takie jak Conformance Rate, Variant Count i Dominant Values są dla ciebie nowe.

Scenariusz 1: standaryzacja pola Country z odkrywaniem wartości

Kontekst biznesowy

Twoja organizacja ma 15 000 rekordów Account z 3 połączonych firm. Pole Country jest tekstem swobodnym. Regionalne dashboardy pokazują fragmentaryczne dane: „United States” pojawia się w jednym wierszu, „USA” w innym, „US” w trzecim. Reguły przypisywania terytoriów pomijają rekordy, ponieważ filtrują według jednej pisowni. Musisz ustandaryzować dane, ale nie wiesz, jakie wartości istnieją w trzech starszych systemach.

Przewodnik konfiguracji

Zacznij od Import from Field, aby odkryć, co faktycznie zawierają twoje dane, zanim zdefiniujesz dozwolone wartości.

Otwórz konfigurację Expected Values dla pola Country.
Kliknij Import from Field. DQS odpyta dane na żywo i zwróci unikalne wartości posortowane według częstości.
Przejrzyj listę kontrolną. Import ujawnia pełny obraz:

Wartość	Rekordy
United States	4 500
USA	2 300
US	1 800
Canada	1 400
U.S.A.	450
United States of America	150
… (41 kolejnych wariantów)	…

Wybierz standard. Kody krajów ISO („US”, „CA”, „UK”) są zwięzłe, standardowe i jednoznaczne. Zaznacz kody ISO z listy importu.
Kliknij Add Selected, aby wypełnić dozwolone wartości.

Ustaw resztę konfiguracji:

Ustawienie	Wartość	Uzasadnienie
Analysis Mode	Advanced Conformance Analysis	Potrzebujesz liczby wariantów i wartości dominujących do oszacowania zakresu pracy
Expected Values	US, CA, UK, DE, FR, AU, JP	Kody ISO dla aktywnych rynków
Case Sensitive	OFF	Wyłap „us”, „Us” i „US” jako tę samą wartość
Top N	10	Zobacz najczęstsze warianty
Min Frequency	5	Odfiltruj pojedyncze literówki

Co produkuje skan

Metryka	Wartość
Conformance Rate	12%
Conformance Count	1 800
Non-Conforming Count	13 200
Variant Count	47
Dominant Values	Top 10 wartości z licznikami (patrz tabela importu powyżej)

Jak czytać wyniki

12% zgodności to oczekiwany wynik. Zdefiniowałeś nowy standard (kody ISO), do którego dane nigdy nie były znormalizowane. Tylko 1 800 rekordów, które już zawierają „US”, pasuje. To nie jest zły wynik. To twój punkt startowy.

47 wariantów ujawnia skalę fragmentacji. Trzy połączone systemy wytworzyły 47 różnych sposobów wyrażania nazw krajów. Bez tej liczby niedoszacowałbyś wysiłku oczyszczania.

Dominant Values pokazuje, na czym się skupić. Trzy najczęstsze warianty („United States”, „USA”, „US”) odpowiadają za 8 600 rekordów. Standaryzacja tylko tych trzech wartości podnosi zgodność z 12% do 69%. Zacznij od nich.

Non-Conforming Count (13 200) to dokładny zakres oczyszczania. Twój data steward ma teraz konkretną wielkość projektu, a nie zgadywankę.

Następna akcja

Zbuduj tabelę mapowania wartości na podstawie wyjścia Dominant Values. Zmapuj „United States” na „US”, „USA” na „US” i tak dalej. Uruchom normalizację danych. Przeskanuj ponownie, aby zweryfikować nowy Conformance Rate.

Scenariusz 2: walidacja oceny Lead

Kontekst biznesowy

Twoje pole Lead Rating (Rating__c) jest polem tekstowym, które akceptuje „Hot”, „Warm” lub „Cold”. Menedżerowie sprzedaży zgłaszają dziwne wartości w raportach pipeline. Filtr Rating = "Hot" zwraca mniej rekordów, niż oczekiwano. Potrzebujesz szybkiego audytu zgodności, aby dowiedzieć się, co jest w polu i ile rekordów wymaga oczyszczania.

Przewodnik konfiguracji

Zacznij od Import from Field, aby zobaczyć rzeczywiste wartości przed skonfigurowaniem skanu.

Otwórz konfigurację Expected Values dla Rating__c.
Kliknij Import from Field. Import zwraca:

Wartość	Rekordy
Hot	284
Warm	198
Cold	156
Very High	23
240 km/h	12
N/A	8

Pierwsze trzy wartości to twoje prawdziwe oceny. „Very High” pochodzi z innej picklisty (ktoś wkleił z niewłaściwego pola). „240 km/h” to dane z zupełnie niewłaściwego pola. „N/A” to placeholder.

Zaznacz „Hot”, „Warm” i „Cold”. Resztę pozostaw niezaznaczoną.
Kliknij Add Selected.

Ustaw resztę konfiguracji:

Ustawienie	Wartość	Uzasadnienie
Analysis Mode	Conformance Check	Potrzebujesz odpowiedzi tak/nie, a nie głębokiej analizy
Expected Values	Hot, Warm, Cold	Trzy prawidłowe oceny
Case Sensitive	OFF	Wyłap „hot”, „HOT” i „Hot” jako pasujące

Co produkuje skan

Metryka	Wartość
Conformance Rate	93,7%
Conformance Count	638

Jak czytać wyniki

93,7% zgodności. Oznacza to, że 43 rekordy mają śmieciowe dane. Do szybkiego audytu tryb Conformance Check daje odpowiedź szybko, bez liczenia zaawansowanych metryk.

Krok Import from Field już powiedział ci, jak wyglądają śmieci. „Very High” (23 rekordy z niewłaściwej picklisty), „240 km/h” (12 rekordów z danymi z niewłaściwego pola) i „N/A” (8 wpisów placeholder). Nie potrzebujesz tu Dominant Values, bo import dał ci rozbicie jeszcze przed uruchomieniem skanu.

43 rekordy to możliwe do ogarnięcia oczyszczanie. To nie jest projekt migracji danych. To 30-minutowa ręczna naprawa lub jedno zadanie aktualizacji danych.

Następna akcja

Napraw 43 niezgodne rekordy. Następnie skonwertuj Rating__c z pola tekstowego na picklist, aby zapobiec przyszłym problemom. Rekordy tworzone przez API omijają walidację picklist, więc uruchamiaj okresowe skany spójności, aby wyłapać nowe warianty z integracji.

Scenariusz 3: zgodność Job Title dla targetowania persona

Kontekst biznesowy

Twój zespół marketingu prowadzi kampanie oparte na personach kierowane do kontaktów „VP i wyżej”. Pole Title jest tekstem swobodnym z tysiącami wariantów. Przed każdą kampanią ktoś ręcznie szuka słów kluczowych w tytułach, przeocza połowę wariantów i buduje niekompletną listę. Zespół potrzebuje odpowiedzi opartej na danych na dwa pytania: „Ilu mamy kontaktów VP+?” i „Jakie tytuły mają pozostałe kontakty?”

Przewodnik konfiguracji

Otwórz konfigurację Expected Values dla pola Title na Contact.
Kliknij Import from Field. Import zwraca setki wartości. Zbyt wiele do sprawdzenia indywidualnie, ale liczniki częstości są przydatne jako kontekst.
Zdefiniuj dozwolone wartości na podstawie mapowania persona. Zaznacz lub wpisz wartości tytułów, które twój zespół uznaje za „VP i wyżej”:

VP, Vice President, SVP, Senior Vice President, EVP,
Executive Vice President, Director, Senior Director,
CEO, CFO, CTO, CIO, CMO, COO, President

Kliknij Add Selected.

Ustaw resztę konfiguracji:

Ustawienie	Wartość	Uzasadnienie
Analysis Mode	Advanced Conformance Analysis	Potrzebujesz pełnego rozkładu wartości, aby zobaczyć, jakie tytuły istnieją
Expected Values	(16 wartości wymienionych powyżej)	Twoja definicja persona VP+
Case Sensitive	OFF	Wyłap „vp of sales”, „VP of Sales”, „VP OF SALES”
Top N	20	Zobacz szeroki przekrój tego, co istnieje
Min Frequency	5	Odfiltruj pojedyncze wpisy jak „Chief Happiness Officer”

Co produkuje skan

Metryka	Wartość
Conformance Rate	34%
Conformance Count	3 400
Non-Conforming Count	6 600
Variant Count	312

Dominant Values (Top 20):

Pozycja	Wartość	Liczba
1	Manager	820
2	Sales Representative	650
3	Account Executive	480
4	Director of Marketing	340
5	VP of Sales	290
6	Senior Manager	275
7	Consultant	240
8	Engineer	210
9	CEO	195
10	Head of Operations	180
…	(10 kolejnych)	…

Jak czytać wyniki

34% zgodności nie jest porażką. To nie jest problem jakości danych. To oznacza, że 34% twoich kontaktów ma tytuły VP+, i to jest docelowa grupa kampanii. Ta liczba odpowiada na pytanie, które twój marketing zgadywał.

Variant Count 312 potwierdza, że swobodny tekst w polu Title jest silnie fragmentaryczny. 312 różnych wartości tytułów w 10 000 kontaktach. To normalne dla pól swobodnego tekstu i wyjaśnia, dlaczego ręczne wyszukiwania pomijają osoby.

Dominant Values pokazuje, jakie tytuły faktycznie mają twoje kontakty. Wiele z najczęstszych wartości znajduje się poniżej poziomu VP (Manager, Sales Rep, Account Executive). To oczekiwane. Te kontakty są prawidłowymi rekordami z prawidłowymi tytułami. Są poza twoją docelową personą.

Non-Conforming Count (6 600) NIE jest zakresem oczyszczania. W przeciwieństwie do scenariusza Country, te rekordy nie są brudne. To kontakty z tytułami poza filtrem VP+. „Manager” to prawdziwy tytuł, a nie błąd danych. Traktuj Non-Conforming Count jako „kontakty poza tą personą”, a nie „rekordy do naprawy”.

Prawdziwy wniosek: masz teraz oparty na danych rozmiar odbiorców. 3 400 kontaktów VP+, zweryfikowanych przez skanowanie rzeczywistych danych. Koniec z ręcznym szukaniem słów kluczowych.

Następna akcja

Użyj Conformance Count (3 400) jako rozmiaru odbiorców kampanii VP+. Przejrzyj listę Dominant Values pod kątem tytułów, które przeoczyłeś. „Senior Manager” (275 rekordów) i „Head of Operations” (180 rekordów) są na pograniczu. Jeśli te role kwalifikują się do kampanii, dodaj je do dozwolonych wartości i przeskanuj ponownie.

Wybór konfiguracji

Jeśli potrzebujesz…	Zacznij od	Kluczowe ustawienia
Audytować kontrolowane pole (picklist, rating, status)	Import from Field, następnie Conformance Check	Expected Values z importu, Case Sensitive OFF
Ustandaryzować fragmentaryczne pole (country, industry)	Import from Field, następnie Advanced Conformance Analysis	Expected Values jako cel, Top N 10+, Min Frequency 5+
Oszacować rozmiar odbiorców lub segmentu z danych swobodnego tekstu	Import from Field, następnie Advanced Conformance Analysis	Expected Values jako definicja segmentu, Top N 20, Min Frequency 5
Uzyskać szybką bazę przed projektem oczyszczania	Import from Field, następnie Conformance Check	Expected Values ze standardu danych

Pełne wyjaśnienie wszystkich 6 metryk spójności, trybów analizy i danych wejściowych konfiguracji — wróć do głównego artykułu Spójność.

Gotowy, by zmierzyć własną jakość danych? Wykonaj AI Readiness Assessment, aby zobaczyć swoje wyniki spójności i więcej.