Eindeutigkeit | DQS Resources

Was ist Eindeutigkeit?

Eindeutigkeit misst, ob Ihre Datenwerte distinkt und nicht dupliziert sind. Ein Feld hat hohe Eindeutigkeit, wenn jeder Datensatz einen anderen Wert enthält. Eindeutigkeit bricht zusammen, wenn derselbe Wert über mehrere Datensätze hinweg erscheint oder wenn Textfelder sich wiederholende vorgefertigte Inhalte enthalten, die keinen analytischen Wert hinzufügen.

Doppelte Datensätze kosten Ihre Organisation in jeder Phase. Drei Account-Datensätze für dasselbe Unternehmen spalten Ihre Pipeline. Zwei Contact-Datensätze für dieselbe Person erhalten zwei Marketing-E-Mails. Standardtexte, die in Tausende von Case-Beschreibungen eingefügt werden, machen es unmöglich, Erkenntnisse zu extrahieren. Eindeutigkeitsanalyse quantifiziert all diese Probleme.

Eindeutigkeitsrate = (Datensätze mit eindeutigen Werten / Gesamtdatensätze) x 100

Wenn 7.800 von 10.000 Contact-Datensätzen einen distinkten E-Mail-Wert haben, beträgt Ihre E-Mail-Eindeutigkeitsrate 78 %. Die verbleibenden 22 % teilen sich E-Mail-Adressen mit mindestens einem anderen Datensatz. Diese einzelne Metrik sagt Ihnen, ob ein Feld, das eindeutige Werte erwartet, diese tatsächlich hat.

Warum Eindeutigkeit wichtig ist

Reporting

Doppelte Datensätze blähen Ihre Zahlen auf. Wenn dasselbe Unternehmen als drei Accounts erscheint, ist Ihre Account-Anzahl um zwei zu hoch. Pipeline-Berichte zeigen drei Deals, wo einer existiert. Kundenzahlen, die für Vorstandspräsentationen und Investoren-Reporting verwendet werden, sind falsch.

Automatisierung

Salesforce-Automatisierung behandelt jeden Datensatz unabhängig. Ein doppelter Account löst doppelte Workflows aus, sendet doppelte Benachrichtigungen und erstellt doppelte Tasks. Ein Renewal-Prozess, der auf jedem Account mit einem übereinstimmenden Firmennamen ausgelöst wird, triggert dreimal statt einmal.

KI und Agentforce

KI-Modelle verarbeiten jeden Datensatz als separate Entität. Doppelte Datensätze fragmentieren die Sicht des Modells auf einen Kunden. Agentforce generiert Antworten mit Ihren Salesforce-Daten. Wenn drei Account-Datensätze für dasselbe Unternehmen existieren, sieht Agentforce drei Kunden, nicht einen mit vollständiger Historie. Sich wiederholende Standardinhalte in Textfeldern lehren dem Modell Ihre Vorlagen, nicht Ihre Geschäftsmuster.

System	Auswirkung der Eindeutigkeit
Berichte	Aufgeblähte Zahlen, fragmentierte Metriken
Workflows	Doppelte Trigger, redundante Benachrichtigungen
Dublettenregeln	Überwältigt von bestehenden Dubletten, wenn nicht erkannt
Agentforce	Fragmentierte Kundenansicht, vorlagen-verunreinigtes Lernen

Wie DQS Eindeutigkeit misst

DQS erzeugt 6 Eindeutigkeitsmetriken rund um eine diagnostische Frage: „Sind die Daten distinkt, wie sind sie verteilt, und ist der Textinhalt originell?”

Betrachten Sie diese Metriken als diagnostischen Ablauf. Jede Schicht baut auf der vorherigen auf.

Schicht 1: Sind Werte eindeutig?

Uniqueness Rate ist die Leitmetrik. Sie berechnet den Prozentsatz der Datensätze, in denen der Feldwert distinkt ist (nirgendwo sonst im Datensatz dupliziert). Dies ist die Zahl, die Sie auf ein Dashboard setzen.

Sie führen einen Scan auf dem Contact-Objekt durch. Das Feld Email zeigt eine Uniqueness Rate von 78 %. Das bedeutet, 22 % der E-Mail-Adressen erscheinen auf mehr als einem Contact. Einige sind legitim (gemeinsame Abteilungs-E-Mails wie [email protected]), aber die meisten sind wahrscheinlich doppelte Contacts, die zusammengeführt werden müssen. Diese einzelne Zahl rechtfertigt eine Deduplizierungsinitiative.

Distinct Count sagt Ihnen die Kardinalität des Feldes: wie viele verschiedene Werte tatsächlich existieren. Wenn 10.000 Contact-Datensätze 8.200 distinkte E-Mail-Adressen enthalten, beträgt der Distinct Count 8.200.

Beispiel: Sie erwarten, dass die Picklist Lead_Source etwa 12 Werte hat (Ihre konfigurierten Picklist-Optionen). Aber Distinct Count zeigt 87. Bevor die Picklist eingeschränkt wurde, gaben Reps Freitext-Werte ein. „Web”, „web”, „Website”, „Webinar”, „web form” zählen alle als distinkt. Diese Metrik zeigt, dass Ihre Lead-Source-Daten Normalisierung benötigen, auch wenn die Picklist jetzt gesperrt ist.

Schicht 2: Wie sind die Daten verteilt?

Uniqueness Rate sagt Ihnen, wie viele Werte eindeutig sind. Verteilungsmetriken sagen Ihnen, wie diese Werte über Datensätze verteilt sind. Zwei Felder können dieselbe Uniqueness Rate haben, aber sehr unterschiedliche Verteilungen.

Entropy misst, wie gleichmäßig Werte verteilt sind, mithilfe der Shannon-Entropie. Die Skala reicht von 0 (jeder Datensatz hat genau denselben Wert) bis zu einem Maximum, das durch die Anzahl distinkter Werte bestimmt wird. Höhere Entropie bedeutet vielfältigere, gleichmäßiger verteilte Daten.

Entropie allein bedeutet nichts. Vergleichen Sie sie mit der maximal möglichen Entropie für dieses Feld. Maximum = log2(Distinct Count), was der Entropie entspricht, die Sie erhalten, wenn jeder distinkte Wert genau gleich oft erscheinen würde. Das Verhältnis (tatsächlich / max) gibt Ihnen einen normalisierten Score von 0 bis 1:

Normalisiert (tatsächlich / max)	Interpretation
0,9 oder höher	Gleichmäßige Verteilung: Werte einheitlich verteilt
0,7 bis 0,9	Moderate Schieflage: einige Werte erscheinen häufiger als andere
Unter 0,7	Dominiert: wenige Werte halten die meisten Datensätze

Beispiel: Ihr Feld Industry auf Accounts hat eine Uniqueness Rate von 2 % (erwartet für eine Picklist) und 24 distinkte Werte. Sieht in Ordnung aus. Aber die Entropie ist 1,3, und die maximale Entropie für 24 Werte beträgt 4,6. Der normalisierte Score beträgt 0,28. Die Verteilung ist stark schief: 60 % der Datensätze sind „Technology” und „Financial Services”. Ihre branchenbasierte Segmentierung ist ein Zwei-Kategorien-System, das als 24 Kategorien auftritt.

Max Frequency gibt Ihnen die Anzahl der Vorkommen für den einzelnen häufigsten Wert. Wenn „London” 8.400 Mal im Feld City erscheint, beträgt Max Frequency 8.400.

Ein einzelner dominanter Wert signalisiert oft ein Standardwert-Problem, ein Migrationsartefakt oder eine echte geschäftliche Konzentration, die untersucht werden muss. Max Frequency wirft die Frage auf. Eine schnelle Überprüfung des tatsächlichen Werts beantwortet sie.

Beispiel: Das Feld Billing_Country hat eine Max Frequency von 34.000 von 40.000 Datensätzen. Das sind 85 % der Datensätze mit einem Land. Entweder ist Ihr Geschäft wirklich auf einen Markt konzentriert, oder jemand hat während der Migration einen Standard gesetzt. Die Metrik bringt das Muster an die Oberfläche; Sie bestimmen die Ursache.

Schicht 3: Ist der Textinhalt originell?

Die ersten beiden Schichten messen, ob Werte identisch sind. Schicht 3 stellt eine andere Frage: Ist Textinhalt wesentlich ähnlich? Zwei Case-Beschreibungen können zu 100 % eindeutig sein (unterschiedliche Case-Nummern, Daten), aber zu 90 % Standardtext (gleiche Vorlage, gleiche Phrasen).

Boilerplate Rate ist die Leitmetrik für die Originalität von Textinhalten. Sie misst den Prozentsatz des Inhalts, der sich wiederholt oder vorlagenbasiert ist. Ein höherer Score bedeutet mehr originellen Inhalt mit weniger Standardtext. DQS erkennt gängige Vorlagen wie E-Mail-Signaturen, rechtliche Hinweise und wiederholte Phrasen.

Beispiel: Ihre Organisation bewertet, ob das Feld Description auf Opportunities für KI-gestützte Win/Loss-Analysen geeignet ist. Uniqueness Rate beträgt 99 % (jede Beschreibung ist technisch unterschiedlich). Aber Boilerplate Rate zeigt, dass 65 % des Inhalts derselben Vorlage folgen: „Customer: [name]. Need: [product]. Timeline: [date].” Das KI-Modell würde Ihre Vorlagenstruktur lernen, nicht Ihre Gewinnmuster. Boilerplate Rate bewahrt Sie vor einem Garbage-in-Garbage-out-KI-Projekt.

Boilerplate Records Count gibt Ihnen den Bereinigungsumfang als absolute Zahl. Wenn 12.400 Datensätze Standardtext enthalten, kennt Ihre Data Stewardin die Größe des Behebungsprojekts. Sie kann Stunden schätzen, Ressourcen zuweisen und einen realistischen Zeitplan festlegen.

Beispiel: Ihr Support-Team loggt jede Interaktion in Case Comments. Boilerplate Records Count zeigt 12.400. Untersuchungen zeigen, dass Agenten eine Standardbegrüßung („Vielen Dank, dass Sie den Support kontaktiert haben. Ihre Case-Nummer lautet…”) und einen Abschluss („Zögern Sie bitte nicht, sich zu melden…”) in jeden Case einfügen. Vor der Verwendung von KI zur Analyse von Support-Interaktionen müssen diese 12.400 Datensätze vom Standardtext befreit werden.

Drei Analyseblickwinkel

Eindeutigkeitsmetriken decken drei distinkte Belange ab, jede dient einem anderen Stakeholder:

Belang	Metriken	Frage	Stakeholder
Duplizierung	Uniqueness Rate, Distinct Count	Haben wir wiederholte Werte?	Data Stewards (Merge-Kandidaten, Dedup-Regeln)
Verteilung	Entropy, Max Frequency	Wie sind Daten über Werte verteilt?	Analysten und Data Scientists (Segmentierung, Modellierung)
Originalität	Boilerplate Rate, Boilerplate Records Count	Ist Textinhalt wirklich originell?	KI-Teams (Trainingsdatenqualität, Inhaltsextraktion)

Metrik-Referenz

Basismetriken

Diese 2 Metriken bilden die Basis jeder Eindeutigkeitsanalyse. Sie funktionieren über alle 15 unterstützten Feldtypen.

Metrik	Typ	Was sie misst
Uniqueness Rate	Prozentsatz	Anteil der Datensätze mit nicht-duplizierten Werten
Distinct Count	Anzahl	Gesamtzahl distinkter Werte im Feld

Erweiterte Metriken

Diese 4 Metriken gehen über „sind Werte eindeutig?” hinaus, um Verteilungsmuster und Textoriginalität zu analysieren. Sie erfordern den Analysemodus Advanced Uniqueness Analysis.

Metrik	Typ	Was sie misst
Entropy	Dezimal	Wie gleichmäßig Werte verteilt sind (Shannon-Entropie)
Max Frequency	Anzahl	Vorkommensanzahl des einzelnen häufigsten Werts
Boilerplate Rate	Prozentsatz	Grad an vorlagenbasiertem oder sich wiederholendem Inhalt
Boilerplate Records Count	Anzahl	Anzahl der Datensätze mit Standardtextinhalt

Feldtyp-Abdeckung

Verschiedene Metriken gelten für verschiedene Feldtypen, basierend auf dem, was sie messen.

Abdeckungsgruppe	Feldtypen	Verfügbare Metriken
Alle Typen (15)	String, TextArea, LongTextArea, Number, Currency, Percent, AutoNumber, Date, DateTime, Picklist, Email, Phone, URL, Lookup, Checkbox	Uniqueness Rate, Distinct Count
Analyse-Typen (9)	String, TextArea, Number, Picklist, Multiselect Picklist, Checkbox, Email, Phone, URL	Entropy, Max Frequency
Textfelder (3)	String, TextArea, Html	Boilerplate Records Count
Long-Text-Felder (3)	TextArea, LongTextArea, Html	Boilerplate Rate

Kernmetriken funktionieren auf allen 15 Feldtypen, weil jedes Feld Dubletten haben kann. Verteilungsmetriken (Entropy, Max Frequency) funktionieren auf 9 Feldtypen, die zählbare Häufigkeitstabellen erzeugen. Boilerplate-Metriken gelten nur für Textfelder, weil sie wiederholte Inhaltsmuster in Freitext-Daten erkennen.

Zwei Analysemodi

DQS bietet zwei Eindeutigkeitsanalysemodi:

Basic Uniqueness beantwortet die Frage: „Sind Werte distinkt?” Es erzeugt die 2 Basismetriken und deckt die Grundlagen für eine schnelle Dublettenerkennungsprüfung oder ein Baseline-Audit ab.

Advanced Uniqueness Analysis geht tiefer. Es erzeugt alle 6 Metriken, einschließlich Verteilungsanalyse, Häufigkeitsmuster und Boilerplate-Erkennung. Verwenden Sie diesen Modus, wenn Sie das volle Bild der Datenverteilung und Textoriginalität verstehen müssen, nicht nur die Duplizierungsrate.

Geschäftsanforderung	Empfohlener Modus
Schnelles Dublettenerkennungs-Audit	Basic Uniqueness
Bewertung einer Datenmigration	Advanced (Max Frequency erkennt Standardwerte, Entropy offenbart Schieflage)
Picklist-Hygieneprüfung	Advanced (Entropy + Max Frequency offenbaren Schieflage und Normalisierungsbedarf)
KI-Trainingsdatenbewertung	Advanced (Boilerplate-Metriken bewerten Inhaltsoriginalität)
Laufende Data Governance	Beginnen Sie mit Basic Uniqueness, wechseln Sie für tiefere Analysen zu Advanced

Eindeutigkeit konfigurieren

DQS bietet 2 Konfigurationseingaben für Eindeutigkeit. Jede kann auf globaler Ebene (gilt für alle Felder) festgelegt und auf Feldebene überschrieben werden.

Einstellung	Was sie steuert
Case Sensitive	Steuert, ob der Wertvergleich Groß-/Kleinschreibung berücksichtigt. Wenn deaktiviert (Standard), zählen „Apple” und „apple” als derselbe Wert. Wenn aktiviert, zählen sie als zwei distinkte Werte.
Include Blanks	Steuert, ob null- und leere Datensätze in Eindeutigkeitsberechnungen einbezogen werden. Wenn deaktiviert (Standard), werden leere Werte von der Auswertung ausgeschlossen. Wenn aktiviert, teilen sich alle leeren Datensätze einen einzigen „leeren” Wert, was die Eindeutigkeitsrate auf Feldern mit vielen leeren Datensätzen senken kann.

Tipp: Deaktivieren Sie Case Sensitive (Standard) für die meisten Felder. Aktivieren Sie es nur, wenn Groß-/Kleinschreibung Bedeutung trägt, wie bei Produktcodes, bei denen „ABC-100” und „abc-100” tatsächlich unterschiedliche Artikel sind.

Wann Include Blanks aktivieren

Standardmäßig schließt DQS leere und null-Datensätze aus Eindeutigkeitsberechnungen aus. Dies ist sinnvoll für optionale Felder, bei denen leere Werte erwartet werden.

Aktivieren Sie Include Blanks, wenn leere Werte selbst das Problem sind, das Sie messen möchten. Wenn 3.000 Contact-Datensätze keinen E-Mail-Wert haben, teilen sich diese 3.000 leeren Werte einen „leeren” Wert in der Eindeutigkeitsberechnung. Dies senkt die Uniqueness Rate und macht das Problem leerer Werte in der Leitmetrik sichtbar.

Beispiel: Sie scannen Phone auf Contacts mit deaktiviertem Include Blanks. Uniqueness Rate beträgt 91 %. Sie aktivieren Include Blanks und scannen erneut. Uniqueness Rate fällt auf 72 %. Die Differenz zeigt, dass ein großer Teil Ihrer Contact-Datensätze ein gemeinsames Merkmal teilt: keine Telefonnummer. Das Feld sah gesund aus, als leere Werte ausgeschlossen wurden, aber das vollständige Bild erzählt eine andere Geschichte.

Häufige Eindeutigkeitsprobleme

Dubletten aus Massenimporten

Datenmigrationen und Listenimporte führen Dubletten ein, wenn die Matching-Logik unzureichend ist. Eine gekaufte Kontaktliste erstellt neue Datensätze für bereits existierende Personen. Ein Legacy-Systemexport erstellt Accounts, die sich mit aktuellen Daten überschneiden.

Fix: Auditieren Sie Importe vor dem Laden. Verwenden Sie DQS, um eine Eindeutigkeits-Baseline auf wichtigen Identifikationsfeldern (Email, Phone, Website) vor und nach jedem Import zu etablieren.

Standardwerte, die sich als Daten ausgeben

Integrationen und Migrationen schreiben oft Standardwerte in Felder. „Unknown”, „N/A” oder der Name eines Unternehmens erscheint auf Tausenden von Datensätzen. Diese blähen Dublettenzählungen auf und verzerren Verteilungsmetriken.

Fix: Führen Sie Advanced Uniqueness Analysis aus. Max Frequency offenbart den dominanten Wert. Wenn ein Wert auf 85 % der Datensätze erscheint, untersuchen Sie, ob es sich um echte Daten oder einen Standard handelt.

Freitextfelder ohne Governance

Textfelder, die keine Picklist-Einschränkungen haben, akkumulieren mit der Zeit Variationen. Das Feld Job_Title auf Contacts speichert dieselbe Rolle 15 verschiedene Weisen. Distinct Count steigt, während die tatsächlichen geschäftlichen Konzepte klein bleiben.

Fix: Führen Sie Advanced Uniqueness Analysis auf Textfeldern aus, die Sie standardisieren möchten. Verwenden Sie Distinct Count und Entropy, um den Normalisierungsaufwand abzugrenzen. Konvertieren Sie wertvolle Freitextfelder in Picklists.

Von Boilerplate verseuchte Textfelder

Support-Agenten fügen Standardbegrüßungen und -abschlüsse in jeden Case ein. Sales-Reps kopieren Opportunity-Beschreibungsvorlagen. Die Felder sind technisch „eindeutig” (unterschiedliche Case-Nummern, Daten), aber der Inhalt ist zu 90 % identisch.

Fix: Führen Sie Advanced Uniqueness Analysis mit Boilerplate-Erkennung auf Textfeldern aus. Boilerplate Rate offenbart den Grad der Vorlagen-Verunreinigung. Adressieren Sie dies, bevor Sie diese Felder für KI-Training oder -Analyse verwenden.

Gemeinsame Identifikatoren, die wie Dubletten aussehen

Abteilungs-E-Mails ([email protected]), gemeinsame Telefonnummern und unternehmensweite Faxnummern erzeugen legitime doppelte Werte. Nicht jede niedrige Uniqueness Rate signalisiert ein Problem.

Fix: Bewerten Sie Eindeutigkeit im Kontext. Ein E-Mail-Feld mit 78 % Eindeutigkeit benötigt Untersuchung. Ein Fax-Feld mit 40 % Eindeutigkeit wird erwartet. Setzen Sie Ihre Überwachungsschwellen basierend darauf, was das Feld darstellt.

Best Practices

Wählen Sie die richtige Leitmetrik nach Feldtyp

Uniqueness Rate ist die richtige Leitmetrik für Identifikationsfelder (Email, Phone, Account Name). Für Textinhaltsfelder (Description, Notes, Comments) kombinieren Sie Uniqueness Rate mit Boilerplate Rate, um das vollständige Bild zu erhalten. Ein Feld kann 99 % Uniqueness Rate erreichen und dennoch zu 65 % Boilerplate sein.

Verteilungsmetriken für Segmentierungsfelder verwenden

Für Felder, die Sie in Segmentierung, Filterung oder Reporting verwenden (Industry, Country, Lead Source), prüfen Sie Entropy und Max Frequency. Niedrige Entropie offenbart, dass Ihre „24-Kategorien”-Picklist eigentlich ein 2-Kategorien-System ist. Max Frequency offenbart Standardwerte, die Ihre Segmente verzerren.

Trends über Scans verfolgen

Ein einzelner Scan zeigt den aktuellen Zustand. Führen Sie regelmäßig Scans aus, um neue Dublettenquellen zu erkennen, die Auswirkungen von Deduplizierungsinitiativen zu messen und Integrationen zu identifizieren, die sich wiederholende Daten einführen. Ein Feld, das zwischen Scans von 90 % auf 75 % Eindeutigkeit fällt, hat eine neue Problemquelle.

Nach geschäftlicher Wirkung priorisieren

Nicht jedes Feld benötigt hohe Eindeutigkeit. Ein E-Mail-Feld mit Dubletten signalisiert ein Merge-Problem. Ein Country-Feld mit Dubletten ist normal. Konzentrieren Sie die Eindeutigkeitsüberwachung auf Felder, die als Identifikatoren dienen, Dublettenregeln antreiben oder KI-Modelle speisen.

Grundursachen angehen

Niedrige Eindeutigkeit signalisiert ein Prozessproblem. Untersuchen Sie, ob Benutzer Datensätze ohne Prüfung auf bestehende erstellen, Importe keine Deduplizierungslogik haben oder Integrationen Standardwerte schreiben. Beheben Sie die Quelle, nicht nur das Symptom.

Nächste Schritte

Sie verstehen jetzt, wie man Eindeutigkeitsprobleme misst und diagnostiziert. Lernen Sie weiter über die nächste Dimension:

In Salesforce: Datenqualität in Salesforce - deduplizieren Sie Accounts, Contacts und Leads
Nächste: Aktualität - Messen Sie Datenfrische und -aktualität
Vorherige: Gültigkeit - Stellen Sie sicher, dass Daten erwarteten Formaten folgen
Verwandt: Die fünf Dimensionen - Überblick über alle Dimensionen
Aktion: AI Readiness Assessment - Sehen Sie Ihre aktuellen Eindeutigkeits-Scores