Skip to main content

Gültigkeit

Alle 6 Gültigkeitsmetriken, die DQS misst, der diagnostische Ablauf zum Auffinden von Formatfehlern und Datenmüll und wie Sie musterbasierte Validierung konfigurieren.

Was ist Gültigkeit?

Gültigkeit misst, ob Datenwerte erwarteten Formaten und Mustern entsprechen. Ein Wert ist gültig, wenn er der definierten Struktur entspricht. Ein Wert ist ungültig, wenn er die Formatregeln verletzt.

Eine E-Mail-Adresse ist gültig, wenn sie ein „@“-Symbol und eine Domäne enthält. Eine URL ist gültig, wenn sie mit einem Protokoll beginnt und eine Domäne enthält. Ein Produktcode ist gültig, wenn er die genaue Zeichenanzahl hat, die Ihr System erfordert.

DQS validiert Feldwerte mithilfe von Regex-Mustern (reguläre Ausdrücke). Sie wählen aus integrierten Mustern für gängige Formate wie E-Mail, URL und Fixed Length oder schreiben Ihr eigenes Regex für jedes geschäftsspezifische Format.

Gültigkeitsrate = (Datensätze mit Musterübereinstimmung / Gesamtdatensätze) x 100

Wenn 35.500 von 50.000 Contact-Datensätzen eine E-Mail-Adresse haben, die dem E-Mail-Formatmuster entspricht, beträgt Ihre E-Mail-Gültigkeitsrate 71 %. Die verbleibenden 29 % enthalten Werte, die die Musterprüfung nicht bestehen.

Gültigkeit vs. Genauigkeit

Gültigkeit und Genauigkeit sind unterschiedliche Konzepte:

PrüfungGültig?Genau?
[email protected]JaOhne Verifizierung unbekannt
john@companyNeinN/A (Format ist falsch)
[email protected]JaNein (Person hat Unternehmen verlassen)
555-123-4567JaOhne Anruf unbekannt
555-12-456NeinN/A (falsche Ziffernanzahl)

DQS misst Gültigkeit, weil Formatprüfungen automatisiert werden können. Genauigkeit erfordert externe Verifizierung oder menschliche Bestätigung.

Gültige Daten funktionieren in Ihren Systemen, auch wenn sie die Realität nicht widerspiegeln. Ungültige Daten brechen Ihre Systeme unabhängig von ihrer realen Wahrheit. Konzentrieren Sie sich zuerst auf Gültigkeit. Behandeln Sie Genauigkeit durch Verifizierungsprozesse.

Warum Gültigkeit wichtig ist

Ungültige Daten verursachen Fehler in Ihrem gesamten Stack. Zurückgesendete E-Mails schädigen den Absender-Ruf. Fehlerhafte Telefonnummern verschwenden Dialer-Zeit. Defekte URLs frustrieren Benutzer und blockieren Anreicherungstools.

APIs lehnen fehlerhafte Daten ab. Wenn Ihre Integration ein ungültiges E-Mail-Format an eine Marketingplattform sendet, kann der gesamte Batch fehlschlagen. Salesforce-Flows, die Feldwerte parsen, brechen, wenn das Format unerwartet ist.

KI-Modelle verarbeiten Text so wie er ist. Wenn ein Telefonfeld „Phone: 555-1234” statt einer sauberen Nummer enthält, sieht das Modell inkonsistente Muster. Ungültige Formate reduzieren die KI-Effektivität und erzeugen unzuverlässige Agentforce-Ausgaben.

SystemAuswirkung der Gültigkeit
E-Mail-KampagnenBounces schädigen den Absender-Ruf
TelefonieUngültige Nummern verschwenden Dialer-Zeit
WeblinksDefekte URLs blockieren Anreicherung und Navigation
APIsFehlerhafte Daten verursachen Synchronisationsfehler
KI und AgentforceInkonsistente Formate reduzieren Modellgenauigkeit

Wie DQS Gültigkeit misst

DQS erzeugt 6 Gültigkeitsmetriken rund um eine diagnostische Frage: „Entsprechen die Daten dem Muster, und versteckt sich Müll in Werten, die die Prüfung bestehen?”

Betrachten Sie diese Metriken als diagnostischen Ablauf. Jeder Schritt offenbart eine tiefere Ebene des Problems.

Schritt 1: Entspricht es dem Muster?

Validity Rate ist die Leitmetrik. Sie berechnet den Prozentsatz der Datensätze, bei denen der Feldwert Ihrem konfigurierten Muster entspricht. Dies ist die Zahl, die Sie auf ein Dashboard setzen.

Sie konfigurieren das E-Mail-Muster auf dem Feld PersonEmail für Contacts. Validity Rate kommt mit 71 % zurück. Das bedeutet, 29 % der E-Mail-Adressen bestehen die Formatprüfung nicht. Ihnen fehlt das „@“-Symbol, sie haben keine Domäne oder enthalten Leerzeichen. Jede an diese Adressen gesendete Marketingkampagne springt zurück. Jeder automatisierte Workflow, der auf E-Mail ausgelöst wird, schlägt stillschweigend fehl.

Valid Count sagt Ihnen die absolute Zahl. Von 50.000 Contacts haben 35.800 gültige E-Mail-Adressen. Das ist Ihre tatsächlich adressierbare Zielgruppe für E-Mail-Kampagnen, nicht die 50.000 im System. Marketing kann realistische Kampagnenprognosen erstellen, statt mit aufgeblähten Zahlen zu arbeiten.

Schritt 2: Wie lautet die vollständige Aufschlüsselung?

Raten sagen Ihnen den Schweregrad. Zählungen sagen Ihnen den Arbeitsaufwand. Zwei Metriken vervollständigen das Bild:

MetrikWas sie Ihnen sagt
Invalid RateDie negative Einrahmung Ihres Gültigkeits-Scores. „29 % unserer E-Mail-Adressen sind strukturell ungültig” erhält in einer Vorstandspräsentation mehr Aufmerksamkeit als „71 % sind gültig”. Gleiche Daten, handlungsorientiert eingerahmt.
Invalid CountDer Bereinigungsaufwand als harte Zahl. Ihr Unternehmen migriert auf ein neues Telefoniesystem, das E.164-Format erfordert. Invalid Count auf dem Phone-Feld: 23.400. Das ist die genaue Anzahl an Datensätzen, die vor der Migration umformatiert werden müssen.

Schritt 3: Gibt es Müll jenseits von Formatfehlern?

Ein Wert kann eine Formatprüfung bestehen und dennoch Müll sein. Ihr Web-to-Lead-Formular erfordert ein Company-Feld. Validity Rate auf Company beträgt 98 %, weil fast alles ein einfaches Textmuster besteht. Aber Noise Rate zeigt, dass 14 % dieser Werte Einträge wie „asdf”, „test”, „xxxxx” oder „na na na” sind. Formatgültig, aber für Vertriebsrouting, Anreicherung oder Segmentierung völlig nutzlos.

Noisy Records Count gibt Ihnen den Bereinigungsumfang. Wenn Noise Rate 14 % auf 50.000 Datensätzen beträgt, sind das 7.000 Leads mit Müll-Firmennamen. Ihr Ops-Team kann eine Bereinigungs-Queue aufbauen, Stunden schätzen und entscheiden, ob automatisch gelöscht oder für manuelle Überprüfung markiert werden soll.

Zwei Kategorien von Fehlern

Gültigkeitsmetriken unterscheiden zwei grundlegend verschiedene Probleme:

ProblemMetrikenUrsacheFix
FormatfehlerValidity Rate, Invalid Rate, Valid/Invalid CountMenschliche Fehler, Integrationsbugs, fehlende ValidierungsregelnDaten bereinigen: Feldvalidierungsregeln, Datentransformation, Anreicherung
Rauschen und MüllNoise Rate, Noisy Records CountBots, erzwungene Formulareinsendungen, Massenimporte mit Müll-DefaultsQuelle beheben: CAPTCHA, Pflichtfeld-Redesign, Datensatzlöschung

Die Unterscheidung ist wichtig, weil der Fix völlig anders ist. Formatfehler werden durch Datenbereinigung behoben. Rauschen wird durch Beheben der erzeugenden Quelle beseitigt.

Metrik-Referenz

Basismetriken

Diese 2 Metriken bilden die Basis jeder Gültigkeitsanalyse. Sie sagen Ihnen die Übereinstimmungsrate und die Anzahl der bestehenden Datensätze.

MetrikTypWas sie misst
Validity RateProzentsatzAnteil der Datensätze, die dem konfigurierten Muster entsprechen
Valid CountAnzahlAnzahl der Datensätze, die dem konfigurierten Muster entsprechen

Erweiterte Metriken

Diese 4 Metriken gehen über „entspricht es?” hinaus, um die vollständige Aufschlüsselung einschließlich Rauscherkennung zu liefern. Sie erfordern den Analysemodus Advanced Format Validation.

MetrikTypWas sie misst
Invalid RateProzentsatzAnteil der Datensätze, die das konfigurierte Muster nicht bestehen
Invalid CountAnzahlAnzahl der Datensätze, die das konfigurierte Muster nicht bestehen
Noise RateProzentsatzAnteil der Datensätze mit Rauschmustern (Müll-Daten)
Noisy Records CountAnzahlAnzahl der Datensätze mit Rauschmustern

Warum Raten und Zählungen paarweise kommen

Die meisten Metriken kommen als Rate (Prozentsatz) und Zählung (absolute Zahl). Dies ist beabsichtigt:

  • Raten sind für Dashboards, Executive Reporting und Trendverfolgung. „Die Gültigkeit verbesserte sich in diesem Quartal von 71 % auf 92 %.”
  • Zählungen sind für Projektplanung, Arbeitsaufwandsschätzung und Bereinigungsplanung. „Wir haben 23.400 Telefonnummern umzuformatieren.”

Verwenden Sie Raten, um Fortschritt zu kommunizieren. Verwenden Sie Zählungen, um Arbeit zu planen.

Feldtyp-Abdeckung

Alle 6 Gültigkeitsmetriken teilen sich dieselbe Basis-Feldtypunterstützung, wobei Rauschmetriken auf Textfelder beschränkt sind.

MetrikAlle 6 FeldtypenNur String und TextArea
Validity RateX
Valid CountX
Invalid RateX
Invalid CountX
Noise RateX
Noisy Records CountX

Musterbasierte Metriken (Validity Rate, Valid Count, Invalid Rate, Invalid Count) funktionieren auf allen 6 unterstützten Feldtypen: String, TextArea, Email, Phone, URL und Picklist.

Rauschmetriken (Noise Rate, Noisy Records Count) gelten nur für String- und TextArea-Felder. Rauschmuster wie wiederholte Zeichen und Keyboard-Smash sind Freitext-Phänomene. Ein Picklist-Feld mit einem gültigen Picklist-Wert kann kein Rauschen enthalten. Rauscherkennung ist nur auf Feldern sinnvoll, auf denen Benutzer Freitext eingeben.

Zwei Analysemodi

DQS bietet zwei Gültigkeitsanalysemodi:

Format Validation beantwortet die Frage: „Entsprechen Feldwerte dem erwarteten Muster?” Es erzeugt die 2 Basismetriken und deckt die Grundlagen für eine Formatkonformitätsprüfung oder ein schnelles Audit ab.

Advanced Format Validation geht tiefer. Es erzeugt alle 6 Metriken, einschließlich der vollständigen Valid/Invalid-Aufschlüsselung und Rauscherkennung. Verwenden Sie diesen Modus, wenn Sie zwischen Formatfehlern und Müll-Daten unterscheiden müssen oder präzise Zahlen für die Bereinigungsprojektplanung benötigen.

GeschäftsanforderungEmpfohlener Modus
Schnelle FormatkonformitätsprüfungFormat Validation
Compliance-Berichterstattung oder AuditAdvanced (vollständige Valid/Invalid-Aufschlüsselung für Regulatoren)
Lead-QualitätsbewertungAdvanced (Noise Rate fängt Müll ab, der Formatprüfungen besteht)
Datenbewertung vor MigrationAdvanced (vollständige Aufschlüsselung zur Abgrenzung der Behebung nach Kategorie)
Laufende Data GovernanceBeginnen Sie mit Format Validation, wechseln Sie für Rauscherkennung zu Advanced

Gültigkeit konfigurieren

Im Gegensatz zur Vollständigkeit (die automatisch auf jedem Feld funktioniert) erfordert Gültigkeit Konfiguration. Sie müssen definieren, was „gültig” für jedes Feld bedeutet, bevor DQS es prüfen kann. Ein Gültigkeits-Scan ohne Muster ist sinnlos: gültig im Vergleich zu was?

DQS bietet 5 Konfigurationseingaben. Jede kann auf globaler Ebene (gilt für alle Felder) festgelegt und auf Feldebene überschrieben werden.

EinstellungWas sie steuert
Pattern TypeDas zu validierende Format. Wählen Sie aus Email, URL, Fixed Length oder Custom Regex. Erforderlich: Sie müssen einen Pattern Type auswählen, bevor Sie einen Scan ausführen.
Pattern / Fixed LengthDer spezifische Wert für Ihren gewählten Typ. Für Fixed Length geben Sie eine Zeichenanzahl ein (1 bis 255). Für Custom geben Sie ein Regex-Muster ein. Email und URL verwenden integrierte Muster.
Custom PatternIhr eigenes Regex, wenn Pattern Type auf Custom eingestellt ist. DQS validiert Ihr Regex vor dem Speichern und blockiert ungültige Ausdrücke.
Include BlanksWenn aktiviert, zählt DQS leere Werte als ungültig. Wenn deaktiviert (Standard), werden leere Werte vollständig von der Auswertung ausgeschlossen.
Case SensitiveWenn aktiviert, berücksichtigt der Musterabgleich Groß-/Kleinschreibung. Wenn deaktiviert (Standard), ist der Abgleich ohne Unterscheidung der Groß-/Kleinschreibung.

Pattern Types

TypWas er validiertBeispiel bestandenBeispiel nicht bestanden
EmailStandard-E-Mail-Adressformat: [email protected][email protected]user@domain, invalid-email
URLHTTP/HTTPS-Webadressen mit gültiger Domänehttps://example.comexample.com, htp://site.com
Fixed LengthGenaue Zeichenanzahl (Sie definieren die Zahl)AAAAAAAAAA (10 Zeichen, wenn length = 10)SHORT (5 Zeichen)
CustomBeliebiges von Ihnen definiertes Regex-MusterAbhängig von Ihrem MusterAbhängig von Ihrem Muster

Beispiel: Ihre Produktcodes folgen dem Format „DQS-” gefolgt von 6 Ziffern. Setzen Sie Pattern Type auf Custom und geben Sie das Regex ^DQS-\d{6}$ ein. DQS markiert jeden Produktcode, der nicht dieser Struktur entspricht.

Rauscherkennung

Rauscherkennung fängt Daten ab, die Formatprüfungen bestehen, aber dennoch Müll sind. DQS verwendet zwei integrierte Heuristiken zur Identifizierung rauschender Werte:

Heuristik 1: Aufeinanderfolgende identische Zeichen. Drei oder mehr desselben Zeichens in Folge. Werte wie „aaaa”, „!!!”, „---” oder „xxxxx” lösen diese Prüfung aus. Diese stammen typischerweise vom Gedrückthalten von Tasten, Padding oder Platzhaltermissbrauch.

Heuristik 2: Übermäßige Sonderzeichen. Mehr als 50 % nicht-alphanumerische Zeichen (ohne Leerzeichen). Werte wie „!@#$%^” oder „***///---” lösen diese Prüfung aus. Diese deuten auf Keyboard-Smash, Bot-Eingabe oder absichtliche Mülleingabe hin.

HeuristikWas sie abfängtBeispiele für rauschende WerteBeispiele für saubere Werte
3+ aufeinanderfolgende identische ZeichenPadding, Füllung, Gedrückthalten von Tasten„aaaa”, „!!!”, „---”, „xxxxx”„Premium”, „DOT AB3 2024”
Mehr als 50 % SonderzeichenKeyboard-Smash, Bot-Eingabe, Müll„!@#$%^”, „***test”, „//—//“[email protected]”, „O’Brien Inc”

Sie können auch benutzerdefinierte Rauschmuster mittels Regex für org-spezifischen Müll definieren, den die integrierten Heuristiken nicht abdecken.

Tipp: Rauscherkennung ist am wertvollsten auf Freitext-Feldern, in denen Benutzer alles eingeben können: Company, Description, Notes und benutzerdefinierte Textfelder. Führen Sie sie zuerst auf Ihren Web-to-Lead-Feldern aus, wo Bot-Einsendungen und erzwungene Eingaben am häufigsten sind.

Häufige Gültigkeitsprobleme

Ungültige E-Mail-Adressen

Benutzer geben E-Mails ohne korrektes Format ein. Fehlende „@“-Symbole, fehlende Domänen, doppelte Punkte und Tippfehler sind die häufigsten Probleme.

ProblemBeispiel
Fehlendes @john.company.com
Fehlende Domänejohn@
Doppelte Punkte[email protected]
Tippfehler[email protected]

Auswirkung: Zurückgesendete E-Mails, geschädigter Absender-Score, verlorene Kommunikation.

Fehlerhafte Telefonnummern

Telefonfelder akzeptieren in Salesforce beliebigen Text, was zu inkonsistenten und ungültigen Formaten führt.

ProblemBeispiel
Buchstaben eingemischt555-CALL-NOW
Falsche Ziffernanzahl555-12
Durchwahl im Feld555-1234 ext 5
Ländercode-Verwirrung1-555-123-4567 vs. 555-123-4567

Auswirkung: Fehlgeschlagene Anrufe, verschwendete Vertriebszeit, Telefonie-Synchronisationsfehler.

Ungültige URLs

Webadressfelder enthalten oft Teil- oder fehlerhafte Werte.

ProblemBeispiel
Fehlendes Protokollwww.company.com
Fehlende Domänehttps://
Tippfehlerhtps://company.com
Social Handles@company (keine URL)

Auswirkung: Defekte Links, fehlgeschlagene Anreicherung, Navigationsfehler.

Best Practices

Bei der Eingabe validieren

Die beste Gültigkeitsprüfung erfolgt bei der Dateneingabe. Verwenden Sie Salesforce-Validierungsregeln, um Formate zu erzwingen, bevor Daten in Ihr System gelangen.

// Beispiel: E-Mail-Format-Validierungsregel
NOT(ISBLANK(Email)) && NOT(REGEX(Email, "^[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\\.[A-Za-z]{2,}$"))

Formate vor dem Scannen standardisieren

Wählen Sie ein Format für jedes Feld und erzwingen Sie es. Für Telefonnummern ist E.164 (+15551234567) der am universellsten akzeptierte Standard. Für URLs erfordern Sie das https://-Protokoll. Dokumentieren Sie Ihre Formatentscheidungen, damit das Team den Standard kennt.

Schwellenwerte nach Feldpriorität festlegen

Unterschiedliche Felder benötigen unterschiedliche Gültigkeitsstandards:

FeldEmpfohlener SchwellenwertBegründung
Primary Email95%+Kritisch für Kommunikation
Phone90%+Wichtig, aber Legacy-Daten erwartet
Website85%+Oft unvollständig eingegeben
Benutzerdefinierte Text-Codes98%+Systemgeneriert, hohe Konformität erwartet

Rauscherkennung auf Freitext-Feldern verwenden

Führen Sie Rauscherkennung auf Feldern aus, in denen Benutzer Freitext eingeben: Company, Description, benutzerdefinierte Textfelder und jedes von Webformularen befüllte Feld. Noise Rate enthüllt Probleme, die die Formatvalidierung übersieht.

Erwartete Formate dokumentieren

Erstellen Sie ein Datenlexikon, das das erwartete Format für jedes Feld, akzeptable Variationen und Beispiele für gültige und ungültige Werte angibt. Teilen Sie dies mit Ihrem Team und verweisen Sie während Datenbereinigungsprojekten darauf.

Nächste Schritte

Sie verstehen jetzt, wie man Datenformate validiert und rauschende Werte erkennt. Lernen Sie weiter über die nächste Dimension: