Was ist Eindeutigkeit?
Eindeutigkeit misst, ob Ihre Datenwerte distinkt und nicht dupliziert sind. Ein Feld hat hohe Eindeutigkeit, wenn jeder Datensatz einen anderen Wert enthält. Eindeutigkeit bricht zusammen, wenn derselbe Wert über mehrere Datensätze hinweg erscheint oder wenn Textfelder sich wiederholende vorgefertigte Inhalte enthalten, die keinen analytischen Wert hinzufügen.
Doppelte Datensätze kosten Ihre Organisation in jeder Phase. Drei Account-Datensätze für dasselbe Unternehmen spalten Ihre Pipeline. Zwei Contact-Datensätze für dieselbe Person erhalten zwei Marketing-E-Mails. Standardtexte, die in Tausende von Case-Beschreibungen eingefügt werden, machen es unmöglich, Erkenntnisse zu extrahieren. Eindeutigkeitsanalyse quantifiziert all diese Probleme.
Eindeutigkeitsrate = (Datensätze mit eindeutigen Werten / Gesamtdatensätze) x 100
Wenn 7.800 von 10.000 Contact-Datensätzen einen distinkten E-Mail-Wert haben, beträgt Ihre E-Mail-Eindeutigkeitsrate 78 %. Die verbleibenden 22 % teilen sich E-Mail-Adressen mit mindestens einem anderen Datensatz. Diese einzelne Metrik sagt Ihnen, ob ein Feld, das eindeutige Werte erwartet, diese tatsächlich hat.
Warum Eindeutigkeit wichtig ist
Reporting
Doppelte Datensätze blähen Ihre Zahlen auf. Wenn dasselbe Unternehmen als drei Accounts erscheint, ist Ihre Account-Anzahl um zwei zu hoch. Pipeline-Berichte zeigen drei Deals, wo einer existiert. Kundenzahlen, die für Vorstandspräsentationen und Investoren-Reporting verwendet werden, sind falsch.
Automatisierung
Salesforce-Automatisierung behandelt jeden Datensatz unabhängig. Ein doppelter Account löst doppelte Workflows aus, sendet doppelte Benachrichtigungen und erstellt doppelte Tasks. Ein Renewal-Prozess, der auf jedem Account mit einem übereinstimmenden Firmennamen ausgelöst wird, triggert dreimal statt einmal.
KI und Agentforce
KI-Modelle verarbeiten jeden Datensatz als separate Entität. Doppelte Datensätze fragmentieren die Sicht des Modells auf einen Kunden. Agentforce generiert Antworten mit Ihren Salesforce-Daten. Wenn drei Account-Datensätze für dasselbe Unternehmen existieren, sieht Agentforce drei Kunden, nicht einen mit vollständiger Historie. Sich wiederholende Standardinhalte in Textfeldern lehren dem Modell Ihre Vorlagen, nicht Ihre Geschäftsmuster.
| System | Auswirkung der Eindeutigkeit |
|---|---|
| Berichte | Aufgeblähte Zahlen, fragmentierte Metriken |
| Workflows | Doppelte Trigger, redundante Benachrichtigungen |
| Dublettenregeln | Überwältigt von bestehenden Dubletten, wenn nicht erkannt |
| Agentforce | Fragmentierte Kundenansicht, vorlagen-verunreinigtes Lernen |
Wie DQS Eindeutigkeit misst
DQS erzeugt 6 Eindeutigkeitsmetriken rund um eine diagnostische Frage: „Sind die Daten distinkt, wie sind sie verteilt, und ist der Textinhalt originell?”
Betrachten Sie diese Metriken als diagnostischen Ablauf. Jede Schicht baut auf der vorherigen auf.
Schicht 1: Sind Werte eindeutig?
Uniqueness Rate ist die Leitmetrik. Sie berechnet den Prozentsatz der Datensätze, in denen der Feldwert distinkt ist (nirgendwo sonst im Datensatz dupliziert). Dies ist die Zahl, die Sie auf ein Dashboard setzen.
Sie fĂĽhren einen Scan auf dem Contact-Objekt durch. Das Feld Email zeigt eine Uniqueness Rate von 78 %. Das bedeutet, 22 % der E-Mail-Adressen erscheinen auf mehr als einem Contact. Einige sind legitim (gemeinsame Abteilungs-E-Mails wie [email protected]), aber die meisten sind wahrscheinlich doppelte Contacts, die zusammengefĂĽhrt werden mĂĽssen. Diese einzelne Zahl rechtfertigt eine Deduplizierungsinitiative.
Distinct Count sagt Ihnen die Kardinalität des Feldes: wie viele verschiedene Werte tatsächlich existieren. Wenn 10.000 Contact-Datensätze 8.200 distinkte E-Mail-Adressen enthalten, beträgt der Distinct Count 8.200.
Beispiel: Sie erwarten, dass die Picklist Lead_Source etwa 12 Werte hat (Ihre konfigurierten Picklist-Optionen). Aber Distinct Count zeigt 87. Bevor die Picklist eingeschränkt wurde, gaben Reps Freitext-Werte ein. „Web”, „web”, „Website”, „Webinar”, „web form” zählen alle als distinkt. Diese Metrik zeigt, dass Ihre Lead-Source-Daten Normalisierung benötigen, auch wenn die Picklist jetzt gesperrt ist.
Schicht 2: Wie sind die Daten verteilt?
Uniqueness Rate sagt Ihnen, wie viele Werte eindeutig sind. Verteilungsmetriken sagen Ihnen, wie diese Werte über Datensätze verteilt sind. Zwei Felder können dieselbe Uniqueness Rate haben, aber sehr unterschiedliche Verteilungen.
Entropy misst, wie gleichmäßig Werte verteilt sind, mithilfe der Shannon-Entropie. Die Skala reicht von 0 (jeder Datensatz hat genau denselben Wert) bis zu einem Maximum, das durch die Anzahl distinkter Werte bestimmt wird. Höhere Entropie bedeutet vielfältigere, gleichmäßiger verteilte Daten.
Entropie allein bedeutet nichts. Vergleichen Sie sie mit der maximal möglichen Entropie für dieses Feld. Maximum = log2(Distinct Count), was der Entropie entspricht, die Sie erhalten, wenn jeder distinkte Wert genau gleich oft erscheinen würde. Das Verhältnis (tatsächlich / max) gibt Ihnen einen normalisierten Score von 0 bis 1:
| Normalisiert (tatsächlich / max) | Interpretation |
|---|---|
| 0,9 oder höher | Gleichmäßige Verteilung: Werte einheitlich verteilt |
| 0,7 bis 0,9 | Moderate Schieflage: einige Werte erscheinen häufiger als andere |
| Unter 0,7 | Dominiert: wenige Werte halten die meisten Datensätze |
Beispiel: Ihr Feld Industry auf Accounts hat eine Uniqueness Rate von 2 % (erwartet für eine Picklist) und 24 distinkte Werte. Sieht in Ordnung aus. Aber die Entropie ist 1,3, und die maximale Entropie für 24 Werte beträgt 4,6. Der normalisierte Score beträgt 0,28. Die Verteilung ist stark schief: 60 % der Datensätze sind „Technology” und „Financial Services”. Ihre branchenbasierte Segmentierung ist ein Zwei-Kategorien-System, das als 24 Kategorien auftritt.
Max Frequency gibt Ihnen die Anzahl der Vorkommen für den einzelnen häufigsten Wert. Wenn „London” 8.400 Mal im Feld City erscheint, beträgt Max Frequency 8.400.
Ein einzelner dominanter Wert signalisiert oft ein Standardwert-Problem, ein Migrationsartefakt oder eine echte geschäftliche Konzentration, die untersucht werden muss. Max Frequency wirft die Frage auf. Eine schnelle Überprüfung des tatsächlichen Werts beantwortet sie.
Beispiel: Das Feld Billing_Country hat eine Max Frequency von 34.000 von 40.000 Datensätzen. Das sind 85 % der Datensätze mit einem Land. Entweder ist Ihr Geschäft wirklich auf einen Markt konzentriert, oder jemand hat während der Migration einen Standard gesetzt. Die Metrik bringt das Muster an die Oberfläche; Sie bestimmen die Ursache.
Schicht 3: Ist der Textinhalt originell?
Die ersten beiden Schichten messen, ob Werte identisch sind. Schicht 3 stellt eine andere Frage: Ist Textinhalt wesentlich ähnlich? Zwei Case-Beschreibungen können zu 100 % eindeutig sein (unterschiedliche Case-Nummern, Daten), aber zu 90 % Standardtext (gleiche Vorlage, gleiche Phrasen).
Boilerplate Rate ist die Leitmetrik für die Originalität von Textinhalten. Sie misst den Prozentsatz des Inhalts, der sich wiederholt oder vorlagenbasiert ist. Ein höherer Score bedeutet mehr originellen Inhalt mit weniger Standardtext. DQS erkennt gängige Vorlagen wie E-Mail-Signaturen, rechtliche Hinweise und wiederholte Phrasen.
Beispiel: Ihre Organisation bewertet, ob das Feld Description auf Opportunities für KI-gestützte Win/Loss-Analysen geeignet ist. Uniqueness Rate beträgt 99 % (jede Beschreibung ist technisch unterschiedlich). Aber Boilerplate Rate zeigt, dass 65 % des Inhalts derselben Vorlage folgen: „Customer: [name]. Need: [product]. Timeline: [date].” Das KI-Modell würde Ihre Vorlagenstruktur lernen, nicht Ihre Gewinnmuster. Boilerplate Rate bewahrt Sie vor einem Garbage-in-Garbage-out-KI-Projekt.
Boilerplate Records Count gibt Ihnen den Bereinigungsumfang als absolute Zahl. Wenn 12.400 Datensätze Standardtext enthalten, kennt Ihre Data Stewardin die Größe des Behebungsprojekts. Sie kann Stunden schätzen, Ressourcen zuweisen und einen realistischen Zeitplan festlegen.
Beispiel: Ihr Support-Team loggt jede Interaktion in Case Comments. Boilerplate Records Count zeigt 12.400. Untersuchungen zeigen, dass Agenten eine Standardbegrüßung („Vielen Dank, dass Sie den Support kontaktiert haben. Ihre Case-Nummer lautet…”) und einen Abschluss („Zögern Sie bitte nicht, sich zu melden…”) in jeden Case einfügen. Vor der Verwendung von KI zur Analyse von Support-Interaktionen müssen diese 12.400 Datensätze vom Standardtext befreit werden.
Drei Analyseblickwinkel
Eindeutigkeitsmetriken decken drei distinkte Belange ab, jede dient einem anderen Stakeholder:
| Belang | Metriken | Frage | Stakeholder |
|---|---|---|---|
| Duplizierung | Uniqueness Rate, Distinct Count | Haben wir wiederholte Werte? | Data Stewards (Merge-Kandidaten, Dedup-Regeln) |
| Verteilung | Entropy, Max Frequency | Wie sind Daten ĂĽber Werte verteilt? | Analysten und Data Scientists (Segmentierung, Modellierung) |
| Originalität | Boilerplate Rate, Boilerplate Records Count | Ist Textinhalt wirklich originell? | KI-Teams (Trainingsdatenqualität, Inhaltsextraktion) |
Metrik-Referenz
Basismetriken
Diese 2 Metriken bilden die Basis jeder Eindeutigkeitsanalyse. Sie funktionieren ĂĽber alle 15 unterstĂĽtzten Feldtypen.
| Metrik | Typ | Was sie misst |
|---|---|---|
| Uniqueness Rate | Prozentsatz | Anteil der Datensätze mit nicht-duplizierten Werten |
| Distinct Count | Anzahl | Gesamtzahl distinkter Werte im Feld |
Erweiterte Metriken
Diese 4 Metriken gehen über „sind Werte eindeutig?” hinaus, um Verteilungsmuster und Textoriginalität zu analysieren. Sie erfordern den Analysemodus Advanced Uniqueness Analysis.
| Metrik | Typ | Was sie misst |
|---|---|---|
| Entropy | Dezimal | Wie gleichmäßig Werte verteilt sind (Shannon-Entropie) |
| Max Frequency | Anzahl | Vorkommensanzahl des einzelnen häufigsten Werts |
| Boilerplate Rate | Prozentsatz | Grad an vorlagenbasiertem oder sich wiederholendem Inhalt |
| Boilerplate Records Count | Anzahl | Anzahl der Datensätze mit Standardtextinhalt |
Feldtyp-Abdeckung
Verschiedene Metriken gelten fĂĽr verschiedene Feldtypen, basierend auf dem, was sie messen.
| Abdeckungsgruppe | Feldtypen | VerfĂĽgbare Metriken |
|---|---|---|
| Alle Typen (15) | String, TextArea, LongTextArea, Number, Currency, Percent, AutoNumber, Date, DateTime, Picklist, Email, Phone, URL, Lookup, Checkbox | Uniqueness Rate, Distinct Count |
| Analyse-Typen (9) | String, TextArea, Number, Picklist, Multiselect Picklist, Checkbox, Email, Phone, URL | Entropy, Max Frequency |
| Textfelder (3) | String, TextArea, Html | Boilerplate Records Count |
| Long-Text-Felder (3) | TextArea, LongTextArea, Html | Boilerplate Rate |
Kernmetriken funktionieren auf allen 15 Feldtypen, weil jedes Feld Dubletten haben kann. Verteilungsmetriken (Entropy, Max Frequency) funktionieren auf 9 Feldtypen, die zählbare Häufigkeitstabellen erzeugen. Boilerplate-Metriken gelten nur für Textfelder, weil sie wiederholte Inhaltsmuster in Freitext-Daten erkennen.
Zwei Analysemodi
DQS bietet zwei Eindeutigkeitsanalysemodi:
Basic Uniqueness beantwortet die Frage: „Sind Werte distinkt?” Es erzeugt die 2 Basismetriken und deckt die Grundlagen für eine schnelle Dublettenerkennungsprüfung oder ein Baseline-Audit ab.
Advanced Uniqueness Analysis geht tiefer. Es erzeugt alle 6 Metriken, einschließlich Verteilungsanalyse, Häufigkeitsmuster und Boilerplate-Erkennung. Verwenden Sie diesen Modus, wenn Sie das volle Bild der Datenverteilung und Textoriginalität verstehen müssen, nicht nur die Duplizierungsrate.
| Geschäftsanforderung | Empfohlener Modus |
|---|---|
| Schnelles Dublettenerkennungs-Audit | Basic Uniqueness |
| Bewertung einer Datenmigration | Advanced (Max Frequency erkennt Standardwerte, Entropy offenbart Schieflage) |
| Picklist-HygieneprĂĽfung | Advanced (Entropy + Max Frequency offenbaren Schieflage und Normalisierungsbedarf) |
| KI-Trainingsdatenbewertung | Advanced (Boilerplate-Metriken bewerten Inhaltsoriginalität) |
| Laufende Data Governance | Beginnen Sie mit Basic Uniqueness, wechseln Sie fĂĽr tiefere Analysen zu Advanced |
Eindeutigkeit konfigurieren
DQS bietet 2 Konfigurationseingaben fĂĽr Eindeutigkeit. Jede kann auf globaler Ebene (gilt fĂĽr alle Felder) festgelegt und auf Feldebene ĂĽberschrieben werden.
| Einstellung | Was sie steuert |
|---|---|
| Case Sensitive | Steuert, ob der Wertvergleich Groß-/Kleinschreibung berücksichtigt. Wenn deaktiviert (Standard), zählen „Apple” und „apple” als derselbe Wert. Wenn aktiviert, zählen sie als zwei distinkte Werte. |
| Include Blanks | Steuert, ob null- und leere Datensätze in Eindeutigkeitsberechnungen einbezogen werden. Wenn deaktiviert (Standard), werden leere Werte von der Auswertung ausgeschlossen. Wenn aktiviert, teilen sich alle leeren Datensätze einen einzigen „leeren” Wert, was die Eindeutigkeitsrate auf Feldern mit vielen leeren Datensätzen senken kann. |
Tipp: Deaktivieren Sie Case Sensitive (Standard) für die meisten Felder. Aktivieren Sie es nur, wenn Groß-/Kleinschreibung Bedeutung trägt, wie bei Produktcodes, bei denen „ABC-100” und „abc-100” tatsächlich unterschiedliche Artikel sind.
Wann Include Blanks aktivieren
Standardmäßig schließt DQS leere und null-Datensätze aus Eindeutigkeitsberechnungen aus. Dies ist sinnvoll für optionale Felder, bei denen leere Werte erwartet werden.
Aktivieren Sie Include Blanks, wenn leere Werte selbst das Problem sind, das Sie messen möchten. Wenn 3.000 Contact-Datensätze keinen E-Mail-Wert haben, teilen sich diese 3.000 leeren Werte einen „leeren” Wert in der Eindeutigkeitsberechnung. Dies senkt die Uniqueness Rate und macht das Problem leerer Werte in der Leitmetrik sichtbar.
Beispiel: Sie scannen Phone auf Contacts mit deaktiviertem Include Blanks. Uniqueness Rate beträgt 91 %. Sie aktivieren Include Blanks und scannen erneut. Uniqueness Rate fällt auf 72 %. Die Differenz zeigt, dass ein großer Teil Ihrer Contact-Datensätze ein gemeinsames Merkmal teilt: keine Telefonnummer. Das Feld sah gesund aus, als leere Werte ausgeschlossen wurden, aber das vollständige Bild erzählt eine andere Geschichte.
Häufige Eindeutigkeitsprobleme
Dubletten aus Massenimporten
Datenmigrationen und Listenimporte führen Dubletten ein, wenn die Matching-Logik unzureichend ist. Eine gekaufte Kontaktliste erstellt neue Datensätze für bereits existierende Personen. Ein Legacy-Systemexport erstellt Accounts, die sich mit aktuellen Daten überschneiden.
Fix: Auditieren Sie Importe vor dem Laden. Verwenden Sie DQS, um eine Eindeutigkeits-Baseline auf wichtigen Identifikationsfeldern (Email, Phone, Website) vor und nach jedem Import zu etablieren.
Standardwerte, die sich als Daten ausgeben
Integrationen und Migrationen schreiben oft Standardwerte in Felder. „Unknown”, „N/A” oder der Name eines Unternehmens erscheint auf Tausenden von Datensätzen. Diese blähen Dublettenzählungen auf und verzerren Verteilungsmetriken.
Fix: Führen Sie Advanced Uniqueness Analysis aus. Max Frequency offenbart den dominanten Wert. Wenn ein Wert auf 85 % der Datensätze erscheint, untersuchen Sie, ob es sich um echte Daten oder einen Standard handelt.
Freitextfelder ohne Governance
Textfelder, die keine Picklist-Einschränkungen haben, akkumulieren mit der Zeit Variationen. Das Feld Job_Title auf Contacts speichert dieselbe Rolle 15 verschiedene Weisen. Distinct Count steigt, während die tatsächlichen geschäftlichen Konzepte klein bleiben.
Fix: Führen Sie Advanced Uniqueness Analysis auf Textfeldern aus, die Sie standardisieren möchten. Verwenden Sie Distinct Count und Entropy, um den Normalisierungsaufwand abzugrenzen. Konvertieren Sie wertvolle Freitextfelder in Picklists.
Von Boilerplate verseuchte Textfelder
Support-Agenten fügen Standardbegrüßungen und -abschlüsse in jeden Case ein. Sales-Reps kopieren Opportunity-Beschreibungsvorlagen. Die Felder sind technisch „eindeutig” (unterschiedliche Case-Nummern, Daten), aber der Inhalt ist zu 90 % identisch.
Fix: FĂĽhren Sie Advanced Uniqueness Analysis mit Boilerplate-Erkennung auf Textfeldern aus. Boilerplate Rate offenbart den Grad der Vorlagen-Verunreinigung. Adressieren Sie dies, bevor Sie diese Felder fĂĽr KI-Training oder -Analyse verwenden.
Gemeinsame Identifikatoren, die wie Dubletten aussehen
Abteilungs-E-Mails ([email protected]), gemeinsame Telefonnummern und unternehmensweite Faxnummern erzeugen legitime doppelte Werte. Nicht jede niedrige Uniqueness Rate signalisiert ein Problem.
Fix: Bewerten Sie Eindeutigkeit im Kontext. Ein E-Mail-Feld mit 78 % Eindeutigkeit benötigt Untersuchung. Ein Fax-Feld mit 40 % Eindeutigkeit wird erwartet. Setzen Sie Ihre Überwachungsschwellen basierend darauf, was das Feld darstellt.
Best Practices
Wählen Sie die richtige Leitmetrik nach Feldtyp
Uniqueness Rate ist die richtige Leitmetrik für Identifikationsfelder (Email, Phone, Account Name). Für Textinhaltsfelder (Description, Notes, Comments) kombinieren Sie Uniqueness Rate mit Boilerplate Rate, um das vollständige Bild zu erhalten. Ein Feld kann 99 % Uniqueness Rate erreichen und dennoch zu 65 % Boilerplate sein.
Verteilungsmetriken fĂĽr Segmentierungsfelder verwenden
Für Felder, die Sie in Segmentierung, Filterung oder Reporting verwenden (Industry, Country, Lead Source), prüfen Sie Entropy und Max Frequency. Niedrige Entropie offenbart, dass Ihre „24-Kategorien”-Picklist eigentlich ein 2-Kategorien-System ist. Max Frequency offenbart Standardwerte, die Ihre Segmente verzerren.
Trends ĂĽber Scans verfolgen
Ein einzelner Scan zeigt den aktuellen Zustand. Führen Sie regelmäßig Scans aus, um neue Dublettenquellen zu erkennen, die Auswirkungen von Deduplizierungsinitiativen zu messen und Integrationen zu identifizieren, die sich wiederholende Daten einführen. Ein Feld, das zwischen Scans von 90 % auf 75 % Eindeutigkeit fällt, hat eine neue Problemquelle.
Nach geschäftlicher Wirkung priorisieren
Nicht jedes Feld benötigt hohe Eindeutigkeit. Ein E-Mail-Feld mit Dubletten signalisiert ein Merge-Problem. Ein Country-Feld mit Dubletten ist normal. Konzentrieren Sie die Eindeutigkeitsüberwachung auf Felder, die als Identifikatoren dienen, Dublettenregeln antreiben oder KI-Modelle speisen.
Grundursachen angehen
Niedrige Eindeutigkeit signalisiert ein Prozessproblem. Untersuchen Sie, ob Benutzer Datensätze ohne Prüfung auf bestehende erstellen, Importe keine Deduplizierungslogik haben oder Integrationen Standardwerte schreiben. Beheben Sie die Quelle, nicht nur das Symptom.
Nächste Schritte
Sie verstehen jetzt, wie man Eindeutigkeitsprobleme misst und diagnostiziert. Lernen Sie weiter über die nächste Dimension:
- In Salesforce: Datenqualität in Salesforce - deduplizieren Sie Accounts, Contacts und Leads
- Nächste: Aktualität - Messen Sie Datenfrische und -aktualität
- Vorherige: GĂĽltigkeit - Stellen Sie sicher, dass Daten erwarteten Formaten folgen
- Verwandt: Die fĂĽnf Dimensionen - Ăśberblick ĂĽber alle Dimensionen
- Aktion: AI Readiness Assessment - Sehen Sie Ihre aktuellen Eindeutigkeits-Scores