Skip to main content

Poprawność

Wszystkie 6 metryk poprawności mierzonych przez DQS, przepływ diagnostyczny do znajdowania błędów formatu i szumu oraz sposób konfiguracji walidacji opartej na wzorcach.

Czym jest poprawność?

Poprawność mierzy, czy wartości danych są zgodne z oczekiwanymi formatami i wzorcami. Wartość jest poprawna, gdy pasuje do zdefiniowanej struktury. Wartość jest niepoprawna, gdy łamie reguły formatu.

Adres e-mail jest poprawny, gdy zawiera symbol „@” i domenę. URL jest poprawny, gdy zaczyna się od protokołu i zawiera domenę. Kod produktu jest poprawny, gdy ma dokładną liczbę znaków wymaganą przez Twój system.

DQS waliduje wartości pól przy użyciu wzorców regex (wyrażeń regularnych). Możesz wybrać wbudowane wzorce dla typowych formatów takich jak Email, URL i Fixed Length, lub napisać własny regex dla dowolnego formatu biznesowego.

Stopień poprawności = (Rekordy pasujące do wzorca / Łączna liczba rekordów) x 100

Jeśli 35 500 z 50 000 rekordów Contact ma adres e-mail pasujący do wzorca formatu, Twój stopień poprawności dla Email wynosi 71%. Pozostałe 29% zawiera wartości, które nie przeszły sprawdzenia wzorca.

Poprawność a dokładność

Poprawność i dokładność to różne pojęcia:

SprawdzeniePoprawne?Dokładne?
[email protected]TakNieznane bez weryfikacji
john@companyNieN/D (format jest zły)
[email protected]TakNie (osoba odeszła z firmy)
555-123-4567TakNieznane bez dzwonienia
555-12-456NieN/D (zła liczba cyfr)

DQS mierzy poprawność, ponieważ sprawdzenia formatu można zautomatyzować. Dokładność wymaga weryfikacji zewnętrznej lub ludzkiego potwierdzenia.

Poprawne dane działają w Twoich systemach, nawet jeśli nie odzwierciedlają rzeczywistości. Niepoprawne dane psują Twoje systemy, niezależnie od ich realnej prawdziwości. Skoncentruj się najpierw na poprawności. Zajmij się dokładnością przez procesy weryfikacji.

Dlaczego poprawność ma znaczenie

Niepoprawne dane powodują awarie w całym Twoim stacku. Odbite e-maile szkodzą reputacji nadawcy. Zniekształcone numery telefonów marnują czas dialerów. Uszkodzone URL frustrują użytkowników i blokują narzędzia wzbogacania.

API odrzucają zniekształcone dane. Gdy Twoja integracja wysyła niepoprawny format e-mail do platformy marketingowej, cała paczka może zawieść. Flows w Salesforce, które parsują wartości pól, psują się, gdy format jest nieoczekiwany.

Modele AI przetwarzają tekst dosłownie. Gdy pole telefonu zawiera „Phone: 555-1234” zamiast czystego numeru, model widzi niespójne wzorce. Niepoprawne formaty zmniejszają efektywność AI i produkują nierzetelne wyniki Agentforce.

SystemWpływ poprawności
Kampanie e-mailOdbicia szkodzą reputacji nadawcy
TelefoniaNiepoprawne numery marnują czas dialerów
Linki webUszkodzone URL blokują wzbogacanie i nawigację
APIZniekształcone dane powodują awarie synchronizacji
AI i AgentforceNiespójne formaty zmniejszają dokładność modelu

Jak DQS mierzy poprawność

DQS produkuje 6 metryk poprawności zorganizowanych wokół pytania diagnostycznego: „Czy dane pasują do wzorca i czy w wartościach, które przechodzą, nie ukrywa się śmieć?”

Pomyśl o tych metrykach jak o przepływie diagnostycznym. Każdy krok ujawnia głębszą warstwę problemu.

Krok 1: Czy pasuje do wzorca?

Validity Rate to metryka nagłówkowa. Oblicza procent rekordów, w których wartość pola pasuje do Twojego skonfigurowanego wzorca. To liczba, którą umieszcza się na dashboardzie.

Konfigurujesz wzorzec Email na polu PersonEmail dla Contacts. Validity Rate wraca 71%. Oznacza to, że 29% adresów e-mail nie przechodzi sprawdzenia formatu. Brakuje im symbolu „@”, nie mają domeny lub zawierają spacje. Każda kampania marketingowa wysłana na te adresy odbija się. Każdy zautomatyzowany flow uruchamiany na e-mail cicho zawodzi.

Valid Count podaje liczbę bezwzględną. Z 50 000 Contacts, 35 800 ma poprawne adresy e-mail. To Twoja rzeczywista adresowana publiczność dla kampanii e-mail, a nie 50 000 w systemie. Marketing może ustalać realistyczne projekcje kampanii zamiast pracować z zawyżonymi liczbami.

Krok 2: Jaki jest pełny podział?

Stopnie mówią o dotkliwości. Liczby mówią o nakładzie pracy. Dwie metryki dopełniają obraz:

MetrykaCo Ci mówi
Invalid RateNegatywne ujęcie Twojego wyniku poprawności. „29% naszych adresów e-mail jest strukturalnie niepoprawne” przyciąga więcej uwagi na prezentacji zarządu niż „71% jest poprawne”. Te same dane, ramowane do działania.
Invalid CountObciążenie czyszczenia jako twarda liczba. Twoja firma migruje do nowego systemu telefonii wymagającego formatu E.164. Invalid Count na polu Phone: 23 400. To dokładna liczba rekordów, które trzeba przeformatować przed uruchomieniem migracji.

Krok 3: Czy jest śmieć poza błędami formatu?

Wartość może przejść sprawdzenie formatu i nadal być śmieciem. Twój formularz web-to-lead wymaga pola Company. Validity Rate na Company wynosi 98%, ponieważ prawie wszystko przechodzi podstawowy wzorzec tekstowy. Ale Noise Rate ujawnia, że 14% tych wartości to wpisy takie jak „asdf”, „test”, „xxxxx” lub „na na na”. Poprawne pod względem formatu, ale całkowicie bezużyteczne do routingu sprzedaży, wzbogacania czy segmentacji.

Noisy Records Count daje Ci zakres czyszczenia. Jeśli Noise Rate wynosi 14% na 50 000 rekordach, to 7000 Leads z śmieciowymi nazwami firm. Twój zespół ops może zbudować kolejkę czyszczenia, oszacować godziny i zdecydować, czy automatycznie usunąć, czy oznaczyć do ręcznego przeglądu.

Dwie kategorie awarii

Metryki poprawności rozróżniają dwa fundamentalnie różne problemy:

ProblemMetrykiPrzyczyna źródłowaRozwiązanie
Błędy formatuValidity Rate, Invalid Rate, Valid/Invalid CountLudzkie błędy, bugi integracji, brakujące reguły walidacjiWyczyść dane: reguły walidacji pól, transformacja danych, wzbogacanie
Szum i śmiećNoise Rate, Noisy Records CountBoty, wymuszone przesłania formularzy, masowe importy z śmieciowymi wartościami domyślnymiNapraw źródło: CAPTCHA, przeprojektowanie pól wymaganych, usuwanie rekordów

Rozróżnienie ma znaczenie, ponieważ rozwiązanie jest zupełnie inne. Błędy formatu są naprawiane przez czyszczenie danych. Szum jest naprawiany przez naprawę źródła, które go produkuje.

Referencja metryk

Metryki podstawowe

Te 2 metryki tworzą bazę każdej analizy poprawności. Mówią Ci o stopniu dopasowania i liczbie rekordów, które przechodzą.

MetrykaTypCo mierzy
Validity RateProcentUdział rekordów pasujących do skonfigurowanego wzorca
Valid CountLiczbaLiczba rekordów pasujących do skonfigurowanego wzorca

Metryki zaawansowane

Te 4 metryki wykraczają poza „czy pasuje?”, aby dać pełny podział, w tym wykrywanie szumu. Wymagają trybu analizy Advanced Format Validation.

MetrykaTypCo mierzy
Invalid RateProcentUdział rekordów niepasujących do skonfigurowanego wzorca
Invalid CountLiczbaLiczba rekordów niepasujących do skonfigurowanego wzorca
Noise RateProcentUdział rekordów zawierających wzorce szumu (śmieci)
Noisy Records CountLiczbaLiczba rekordów zawierających wzorce szumu

Dlaczego stopnie i liczby występują w parach

Większość metryk występuje jako stopień (procent) i liczba (wartość bezwzględna). Jest to celowe:

  • Stopnie są dla dashboardów, raportowania dla zarządu i śledzenia trendów. „Poprawność poprawiła się z 71% do 92% w tym kwartale.”
  • Liczby są do planowania projektów, szacowania obciążenia i określania zakresu czyszczenia. „Mamy 23 400 numerów telefonów do przeformatowania.”

Używaj stopni do komunikowania postępu. Używaj liczb do planowania pracy.

Pokrycie typów pól

Wszystkie 6 metryk poprawności ma takie samo bazowe wsparcie typów pól, z metrykami szumu ograniczonymi do pól tekstowych.

MetrykaWszystkie 6 typów pólTylko String i TextArea
Validity RateX
Valid CountX
Invalid RateX
Invalid CountX
Noise RateX
Noisy Records CountX

Metryki oparte na wzorcu (Validity Rate, Valid Count, Invalid Rate, Invalid Count) działają na wszystkich 6 obsługiwanych typach pól: String, TextArea, Email, Phone, URL i Picklist.

Metryki szumu (Noise Rate, Noisy Records Count) mają zastosowanie tylko do pól String i TextArea. Wzorce szumu, takie jak powtarzane znaki i walenie w klawiaturę, to zjawiska tekstu dowolnego. Pole Picklist z poprawną wartością picklisty nie może zawierać szumu. Wykrywanie szumu ma sens tylko na polach, gdzie użytkownicy piszą tekst dowolny.

Dwa tryby analizy

DQS oferuje dwa tryby analizy poprawności:

Format Validation odpowiada na pytanie: „Czy wartości pól pasują do oczekiwanego wzorca?” Produkuje 2 metryki podstawowe i pokrywa podstawy dla sprawdzenia zgodności formatu lub szybkiego audytu.

Advanced Format Validation idzie głębiej. Produkuje wszystkie 6 metryk, w tym pełny podział valid/invalid i wykrywanie szumu. Używaj tego trybu, gdy musisz odróżnić błędy formatu od danych śmieciowych lub gdy potrzebujesz precyzyjnych liczb do planowania projektów czyszczenia.

Potrzeba biznesowaRekomendowany tryb
Szybkie sprawdzenie zgodności formatuFormat Validation
Raportowanie zgodności lub audytAdvanced (pełny podział valid/invalid dla regulatorów)
Ocena jakości LeadsAdvanced (Noise Rate wychwytuje śmieć, który przechodzi sprawdzenia formatu)
Ocena danych przed migracjąAdvanced (pełny podział do określenia zakresu naprawy według kategorii)
Bieżące zarządzanie danymiZacznij od Format Validation, przejdź do Advanced dla wykrywania szumu

Konfigurowanie poprawności

W przeciwieństwie do kompletności (która działa automatycznie na dowolnym polu) poprawność wymaga konfiguracji. Musisz zdefiniować, co oznacza „poprawne” dla każdego pola, zanim DQS będzie mogło to sprawdzić. Skanowanie poprawności bez wzorca jest bezsensowne: poprawne w porównaniu do czego?

DQS udostępnia 5 wejść konfiguracyjnych. Każde można ustawić na poziomie globalnym (dotyczy wszystkich pól) i nadpisać na poziomie pojedynczego pola.

UstawienieCo kontroluje
Pattern TypeFormat do walidacji. Wybierz z Email, URL, Fixed Length lub Custom regex. Wymagane: musisz wybrać typ wzorca przed uruchomieniem skanowania.
Pattern / Fixed LengthKonkretna wartość dla wybranego typu. Dla Fixed Length wprowadź liczbę znaków (1 do 255). Dla Custom wprowadź wzorzec regex. Email i URL używają wbudowanych wzorców.
Custom PatternTwój własny regex, gdy Pattern Type jest ustawione na Custom. DQS waliduje Twój regex przed zapisaniem i blokuje niepoprawne wyrażenia.
Include BlanksGdy włączone, DQS liczy puste wartości jako niepoprawne. Gdy wyłączone (domyślnie), puste wartości są całkowicie wykluczone z oceny.
Case SensitiveGdy włączone, dopasowanie wzorca uwzględnia wielkość liter. Gdy wyłączone (domyślnie), dopasowanie jest niewrażliwe na wielkość liter.

Typy wzorców

TypCo walidujePrzykład poprawnyPrzykład niepoprawny
EmailStandardowy format adresu e-mail: [email protected][email protected]user@domain, invalid-email
URLAdresy web HTTP/HTTPS z poprawną domenąhttps://example.comexample.com, htp://site.com
Fixed LengthDokładna liczba znaków (definiujesz liczbę)AAAAAAAAAA (10 znaków, jeśli długość = 10)SHORT (5 znaków)
CustomDowolny wzorzec regex, który zdefiniujeszZależy od wzorcaZależy od wzorca

Przykład: Twoje kody produktów mają format „DQS-” po którym następuje 6 cyfr. Ustaw Pattern Type na Custom i wprowadź regex ^DQS-\d{6}$. DQS oznaczy każdy kod produktu, który nie pasuje do tej struktury.

Wykrywanie szumu

Wykrywanie szumu wychwytuje dane, które przechodzą sprawdzenia formatu, ale nadal są śmieciem. DQS używa dwóch wbudowanych heurystyk do identyfikacji śmieciowych wartości:

Heurystyka 1: Kolejne identyczne znaki. Trzy lub więcej tych samych znaków z rzędu. Wartości takie jak „aaaa”, „!!!”, „---” czy „xxxxx” wyzwalają to sprawdzenie. Zazwyczaj pochodzą z trzymania klawisza, wypełniacza lub nadużywania wartości zastępczych.

Heurystyka 2: Nadmierne znaki specjalne. Ponad 50% znaków niealfanumerycznych (z wyłączeniem spacji). Wartości takie jak „!@#$%^” lub „***///---” wyzwalają to sprawdzenie. Wskazują na walenie w klawiaturę, wprowadzanie przez bota lub celowe wprowadzanie śmieci.

HeurystykaCo wychwytujePrzykłady wartości śmieciowychPrzykłady wartości czystych
3+ kolejne identyczne znakiWypełniacz, trzymanie klawisza„aaaa”, „!!!”, „---”, „xxxxx”„Premium”, „DOT AB3 2024”
Ponad 50% znaków specjalnychWalenie w klawiaturę, wprowadzanie przez bota, śmieć„!@#$%^”, „***test”, „//—//“[email protected]”, „O’Brien Inc”

Możesz też zdefiniować niestandardowe wzorce szumu używając regex dla śmieci specyficznych dla org, których wbudowane heurystyki nie obejmują.

Wskazówka: Wykrywanie szumu jest najbardziej wartościowe na polach tekstu dowolnego, gdzie użytkownicy mogą pisać cokolwiek: Company, Description, Notes i niestandardowe pola tekstowe. Uruchom je najpierw na polach web-to-lead, gdzie zgłoszenia botów i wymuszone wpisy są najczęstsze.

Typowe problemy z poprawnością

Niepoprawne adresy e-mail

Użytkownicy wprowadzają e-maile bez właściwego formatu. Brakujące symbole „@”, brakujące domeny, podwójne kropki i literówki to najczęstsze problemy.

ProblemPrzykład
Brak @john.company.com
Brak domenyjohn@
Podwójne kropki[email protected]
Literówki[email protected]

Wpływ: Odbite e-maile, uszkodzony wynik nadawcy, utracona komunikacja.

Zniekształcone numery telefonów

Pola telefonu akceptują dowolny tekst w Salesforce, co prowadzi do niespójnych i niepoprawnych formatów.

ProblemPrzykład
Litery wmieszane555-CALL-NOW
Zła liczba cyfr555-12
Numer wewnętrzny w polu555-1234 ext 5
Mylenie kodu kraju1-555-123-4567 vs 555-123-4567

Wpływ: Nieudane połączenia, zmarnowany czas sprzedaży, błędy synchronizacji telefonii.

Niepoprawne URL

Pola adresów web często zawierają częściowe lub zniekształcone wartości.

ProblemPrzykład
Brak protokołuwww.company.com
Brak domenyhttps://
Literówkihtps://company.com
Uchwyty społecznościowe@company (nie jest URL)

Wpływ: Uszkodzone linki, nieudane wzbogacanie, błędy nawigacji.

Najlepsze praktyki

Waliduj przy wprowadzaniu

Najlepsze sprawdzenie poprawności odbywa się przy wprowadzaniu danych. Używaj reguł walidacji Salesforce, aby egzekwować formaty, zanim dane wejdą do Twojego systemu.

// Przykład: reguła walidacji formatu e-mail
NOT(ISBLANK(Email)) && NOT(REGEX(Email, "^[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\\.[A-Za-z]{2,}$"))

Standaryzuj formaty przed skanowaniem

Wybierz jeden format dla każdego pola i egzekwuj go. Dla numerów telefonów E.164 (+15551234567) to najbardziej uniwersalnie akceptowany standard. Dla URL wymagaj protokołu https://. Dokumentuj swoje decyzje formatu, aby zespół znał standard.

Ustawiaj progi według priorytetu pola

Różne pola potrzebują różnych standardów poprawności:

PoleSugerowany prógUzasadnienie
Primary Email95%+Krytyczne dla komunikacji
Phone90%+Ważne, ale oczekiwane są stare dane
Website85%+Często wprowadzane niekompletnie
Niestandardowe kody tekstowe98%+Generowane przez system, oczekiwana wysoka zgodność

Używaj wykrywania szumu na polach tekstu dowolnego

Uruchamiaj wykrywanie szumu na polach, gdzie użytkownicy piszą tekst dowolny: Company, Description, niestandardowe pola tekstowe i dowolne pole wypełniane przez formularze web. Noise Rate ujawnia problemy, których walidacja formatu nie łapie.

Dokumentuj oczekiwane formaty

Stwórz słownik danych, który określa oczekiwany format dla każdego pola, akceptowalne warianty oraz przykłady wartości poprawnych i niepoprawnych. Udostępnij go zespołowi i odwołuj się do niego podczas projektów czyszczenia danych.

Następne kroki

Teraz rozumiesz, jak walidować formaty danych i wykrywać śmieciowe wartości. Kontynuuj naukę o następnym wymiarze: