Skip to main content

Spójność: scenariusze konfiguracji

Trzy praktyczne przewodniki pokazujące, jak skonfigurować analizę spójności DQS dla różnych potrzeb biznesowych.

Co obejmują te scenariusze

Ta strona przeprowadza przez trzy rzeczywiste konfiguracje spójności — od początkowej konfiguracji do odczytu wyników skanu. Każdy scenariusz używa innego kontekstu biznesowego i trybu analizy.

Te scenariusze bazują na koncepcjach i metrykach omówionych w głównym artykule Spójność. Przeczytaj go najpierw, jeśli terminy takie jak Conformance Rate, Variant Count i Dominant Values są dla ciebie nowe.

Scenariusz 1: standaryzacja pola Country z odkrywaniem wartości

Kontekst biznesowy

Twoja organizacja ma 15 000 rekordów Account z 3 połączonych firm. Pole Country jest tekstem swobodnym. Regionalne dashboardy pokazują fragmentaryczne dane: „United States” pojawia się w jednym wierszu, „USA” w innym, „US” w trzecim. Reguły przypisywania terytoriów pomijają rekordy, ponieważ filtrują według jednej pisowni. Musisz ustandaryzować dane, ale nie wiesz, jakie wartości istnieją w trzech starszych systemach.

Przewodnik konfiguracji

Zacznij od Import from Field, aby odkryć, co faktycznie zawierają twoje dane, zanim zdefiniujesz dozwolone wartości.

  1. Otwórz konfigurację Expected Values dla pola Country.
  2. Kliknij Import from Field. DQS odpyta dane na żywo i zwróci unikalne wartości posortowane według częstości.
  3. Przejrzyj listę kontrolną. Import ujawnia pełny obraz:
WartośćRekordy
United States4 500
USA2 300
US1 800
Canada1 400
U.S.A.450
United States of America150
… (41 kolejnych wariantów)
  1. Wybierz standard. Kody krajów ISO („US”, „CA”, „UK”) są zwięzłe, standardowe i jednoznaczne. Zaznacz kody ISO z listy importu.
  2. Kliknij Add Selected, aby wypełnić dozwolone wartości.

Ustaw resztę konfiguracji:

UstawienieWartośćUzasadnienie
Analysis ModeAdvanced Conformance AnalysisPotrzebujesz liczby wariantów i wartości dominujących do oszacowania zakresu pracy
Expected ValuesUS, CA, UK, DE, FR, AU, JPKody ISO dla aktywnych rynków
Case SensitiveOFFWyłap „us”, „Us” i „US” jako tę samą wartość
Top N10Zobacz najczęstsze warianty
Min Frequency5Odfiltruj pojedyncze literówki

Co produkuje skan

MetrykaWartość
Conformance Rate12%
Conformance Count1 800
Non-Conforming Count13 200
Variant Count47
Dominant ValuesTop 10 wartości z licznikami (patrz tabela importu powyżej)

Jak czytać wyniki

12% zgodności to oczekiwany wynik. Zdefiniowałeś nowy standard (kody ISO), do którego dane nigdy nie były znormalizowane. Tylko 1 800 rekordów, które już zawierają „US”, pasuje. To nie jest zły wynik. To twój punkt startowy.

47 wariantów ujawnia skalę fragmentacji. Trzy połączone systemy wytworzyły 47 różnych sposobów wyrażania nazw krajów. Bez tej liczby niedoszacowałbyś wysiłku oczyszczania.

Dominant Values pokazuje, na czym się skupić. Trzy najczęstsze warianty („United States”, „USA”, „US”) odpowiadają za 8 600 rekordów. Standaryzacja tylko tych trzech wartości podnosi zgodność z 12% do 69%. Zacznij od nich.

Non-Conforming Count (13 200) to dokładny zakres oczyszczania. Twój data steward ma teraz konkretną wielkość projektu, a nie zgadywankę.

Następna akcja

Zbuduj tabelę mapowania wartości na podstawie wyjścia Dominant Values. Zmapuj „United States” na „US”, „USA” na „US” i tak dalej. Uruchom normalizację danych. Przeskanuj ponownie, aby zweryfikować nowy Conformance Rate.

Scenariusz 2: walidacja oceny Lead

Kontekst biznesowy

Twoje pole Lead Rating (Rating__c) jest polem tekstowym, które akceptuje „Hot”, „Warm” lub „Cold”. Menedżerowie sprzedaży zgłaszają dziwne wartości w raportach pipeline. Filtr Rating = "Hot" zwraca mniej rekordów, niż oczekiwano. Potrzebujesz szybkiego audytu zgodności, aby dowiedzieć się, co jest w polu i ile rekordów wymaga oczyszczania.

Przewodnik konfiguracji

Zacznij od Import from Field, aby zobaczyć rzeczywiste wartości przed skonfigurowaniem skanu.

  1. Otwórz konfigurację Expected Values dla Rating__c.
  2. Kliknij Import from Field. Import zwraca:
WartośćRekordy
Hot284
Warm198
Cold156
Very High23
240 km/h12
N/A8

Pierwsze trzy wartości to twoje prawdziwe oceny. „Very High” pochodzi z innej picklisty (ktoś wkleił z niewłaściwego pola). „240 km/h” to dane z zupełnie niewłaściwego pola. „N/A” to placeholder.

  1. Zaznacz „Hot”, „Warm” i „Cold”. Resztę pozostaw niezaznaczoną.
  2. Kliknij Add Selected.

Ustaw resztę konfiguracji:

UstawienieWartośćUzasadnienie
Analysis ModeConformance CheckPotrzebujesz odpowiedzi tak/nie, a nie głębokiej analizy
Expected ValuesHot, Warm, ColdTrzy prawidłowe oceny
Case SensitiveOFFWyłap „hot”, „HOT” i „Hot” jako pasujące

Co produkuje skan

MetrykaWartość
Conformance Rate93,7%
Conformance Count638

Jak czytać wyniki

93,7% zgodności. Oznacza to, że 43 rekordy mają śmieciowe dane. Do szybkiego audytu tryb Conformance Check daje odpowiedź szybko, bez liczenia zaawansowanych metryk.

Krok Import from Field już powiedział ci, jak wyglądają śmieci. „Very High” (23 rekordy z niewłaściwej picklisty), „240 km/h” (12 rekordów z danymi z niewłaściwego pola) i „N/A” (8 wpisów placeholder). Nie potrzebujesz tu Dominant Values, bo import dał ci rozbicie jeszcze przed uruchomieniem skanu.

43 rekordy to możliwe do ogarnięcia oczyszczanie. To nie jest projekt migracji danych. To 30-minutowa ręczna naprawa lub jedno zadanie aktualizacji danych.

Następna akcja

Napraw 43 niezgodne rekordy. Następnie skonwertuj Rating__c z pola tekstowego na picklist, aby zapobiec przyszłym problemom. Rekordy tworzone przez API omijają walidację picklist, więc uruchamiaj okresowe skany spójności, aby wyłapać nowe warianty z integracji.

Scenariusz 3: zgodność Job Title dla targetowania persona

Kontekst biznesowy

Twój zespół marketingu prowadzi kampanie oparte na personach kierowane do kontaktów „VP i wyżej”. Pole Title jest tekstem swobodnym z tysiącami wariantów. Przed każdą kampanią ktoś ręcznie szuka słów kluczowych w tytułach, przeocza połowę wariantów i buduje niekompletną listę. Zespół potrzebuje odpowiedzi opartej na danych na dwa pytania: „Ilu mamy kontaktów VP+?” i „Jakie tytuły mają pozostałe kontakty?”

Przewodnik konfiguracji

  1. Otwórz konfigurację Expected Values dla pola Title na Contact.
  2. Kliknij Import from Field. Import zwraca setki wartości. Zbyt wiele do sprawdzenia indywidualnie, ale liczniki częstości są przydatne jako kontekst.
  3. Zdefiniuj dozwolone wartości na podstawie mapowania persona. Zaznacz lub wpisz wartości tytułów, które twój zespół uznaje za „VP i wyżej”:
VP, Vice President, SVP, Senior Vice President, EVP,
Executive Vice President, Director, Senior Director,
CEO, CFO, CTO, CIO, CMO, COO, President
  1. Kliknij Add Selected.

Ustaw resztę konfiguracji:

UstawienieWartośćUzasadnienie
Analysis ModeAdvanced Conformance AnalysisPotrzebujesz pełnego rozkładu wartości, aby zobaczyć, jakie tytuły istnieją
Expected Values(16 wartości wymienionych powyżej)Twoja definicja persona VP+
Case SensitiveOFFWyłap „vp of sales”, „VP of Sales”, „VP OF SALES”
Top N20Zobacz szeroki przekrój tego, co istnieje
Min Frequency5Odfiltruj pojedyncze wpisy jak „Chief Happiness Officer”

Co produkuje skan

MetrykaWartość
Conformance Rate34%
Conformance Count3 400
Non-Conforming Count6 600
Variant Count312

Dominant Values (Top 20):

PozycjaWartośćLiczba
1Manager820
2Sales Representative650
3Account Executive480
4Director of Marketing340
5VP of Sales290
6Senior Manager275
7Consultant240
8Engineer210
9CEO195
10Head of Operations180
(10 kolejnych)

Jak czytać wyniki

34% zgodności nie jest porażką. To nie jest problem jakości danych. To oznacza, że 34% twoich kontaktów ma tytuły VP+, i to jest docelowa grupa kampanii. Ta liczba odpowiada na pytanie, które twój marketing zgadywał.

Variant Count 312 potwierdza, że swobodny tekst w polu Title jest silnie fragmentaryczny. 312 różnych wartości tytułów w 10 000 kontaktach. To normalne dla pól swobodnego tekstu i wyjaśnia, dlaczego ręczne wyszukiwania pomijają osoby.

Dominant Values pokazuje, jakie tytuły faktycznie mają twoje kontakty. Wiele z najczęstszych wartości znajduje się poniżej poziomu VP (Manager, Sales Rep, Account Executive). To oczekiwane. Te kontakty są prawidłowymi rekordami z prawidłowymi tytułami. Są poza twoją docelową personą.

Non-Conforming Count (6 600) NIE jest zakresem oczyszczania. W przeciwieństwie do scenariusza Country, te rekordy nie są brudne. To kontakty z tytułami poza filtrem VP+. „Manager” to prawdziwy tytuł, a nie błąd danych. Traktuj Non-Conforming Count jako „kontakty poza tą personą”, a nie „rekordy do naprawy”.

Prawdziwy wniosek: masz teraz oparty na danych rozmiar odbiorców. 3 400 kontaktów VP+, zweryfikowanych przez skanowanie rzeczywistych danych. Koniec z ręcznym szukaniem słów kluczowych.

Następna akcja

Użyj Conformance Count (3 400) jako rozmiaru odbiorców kampanii VP+. Przejrzyj listę Dominant Values pod kątem tytułów, które przeoczyłeś. „Senior Manager” (275 rekordów) i „Head of Operations” (180 rekordów) są na pograniczu. Jeśli te role kwalifikują się do kampanii, dodaj je do dozwolonych wartości i przeskanuj ponownie.

Wybór konfiguracji

Jeśli potrzebujesz…Zacznij odKluczowe ustawienia
Audytować kontrolowane pole (picklist, rating, status)Import from Field, następnie Conformance CheckExpected Values z importu, Case Sensitive OFF
Ustandaryzować fragmentaryczne pole (country, industry)Import from Field, następnie Advanced Conformance AnalysisExpected Values jako cel, Top N 10+, Min Frequency 5+
Oszacować rozmiar odbiorców lub segmentu z danych swobodnego tekstuImport from Field, następnie Advanced Conformance AnalysisExpected Values jako definicja segmentu, Top N 20, Min Frequency 5
Uzyskać szybką bazę przed projektem oczyszczaniaImport from Field, następnie Conformance CheckExpected Values ze standardu danych

Pełne wyjaśnienie wszystkich 6 metryk spójności, trybów analizy i danych wejściowych konfiguracji — wróć do głównego artykułu Spójność.

Gotowy, by zmierzyć własną jakość danych? Wykonaj AI Readiness Assessment, aby zobaczyć swoje wyniki spójności i więcej.