Uniqueness | DQS Resources

Uniqueness क्या है?

Uniqueness मापती है कि आपके डेटा मान अलग और गैर-डुप्लिकेट हैं। जब प्रत्येक रिकॉर्ड में एक अलग मान हो तो फ़ील्ड में उच्च Uniqueness होती है। Uniqueness तब टूटती है जब एक ही मान कई रिकॉर्ड में दिखाई देता है, या जब text fields में repetitive templated content होता है जो कोई analytical value नहीं जोड़ता।

Duplicate रिकॉर्ड हर चरण पर आपके संगठन को लागत देते हैं। एक ही कंपनी के तीन Account रिकॉर्ड आपकी pipeline विभाजित करते हैं। एक ही व्यक्ति के दो Contact रिकॉर्ड को दो marketing emails मिलते हैं।

Uniqueness Rate = (Unique मान वाले रिकॉर्ड / कुल रिकॉर्ड) x 100

यदि 10,000 Contact रिकॉर्ड में से 7,800 में एक distinct Email मान है, तो आपकी Email uniqueness rate 78% है। शेष 22% कम से कम एक अन्य रिकॉर्ड के साथ email addresses साझा करते हैं।

Uniqueness क्यों महत्वपूर्ण है

रिपोर्टिंग

Duplicate रिकॉर्ड आपकी संख्याएँ बढ़ाते हैं। जब एक ही कंपनी तीन Account के रूप में दिखाई देती है, तो आपकी Account count दो से अधिक बताई जाती है। Pipeline रिपोर्ट एक के बजाय तीन deals दिखाती हैं।

स्वचालन

Salesforce स्वचालन प्रत्येक रिकॉर्ड को स्वतंत्र रूप से मानता है। एक duplicate Account duplicate workflows trigger करता है, duplicate notifications भेजता है, और duplicate tasks बनाता है।

AI और Agentforce

AI मॉडल प्रत्येक रिकॉर्ड को एक अलग इकाई के रूप में process करते हैं। Duplicate रिकॉर्ड model के ग्राहक दृश्य को खंडित करते हैं। Agentforce आपके Salesforce डेटा का उपयोग करके प्रतिक्रियाएँ उत्पन्न करता है। जब एक ही कंपनी के लिए तीन Account रिकॉर्ड मौजूद हों, तो Agentforce एक पूर्ण इतिहास वाले एक नहीं, बल्कि तीन ग्राहक देखता है।

System	Uniqueness प्रभाव
Reports	Inflated counts, खंडित metrics
Workflows	Duplicate triggers, redundant notifications
Duplicate Rules	मौजूदा duplicates से अभिभूत यदि detect नहीं
Agentforce	खंडित ग्राहक दृश्य, template-polluted learning

DQS Uniqueness कैसे मापता है

DQS एक diagnostic प्रश्न के चारों ओर व्यवस्थित 6 Uniqueness मेट्रिक्स उत्पन्न करता है: “क्या डेटा अलग है, यह कैसे distributed है, और text content original है?”

Layer 1: क्या मान Unique हैं?

Uniqueness Rate मुख्य मेट्रिक है। यह उन रिकॉर्ड का प्रतिशत गणना करता है जहाँ field value अलग (dataset में कहीं और duplicate नहीं) है।

Distinct Count field की cardinality बताता है: कितने अलग-अलग मान वास्तव में मौजूद हैं।

उदाहरण: आप expect करते हैं कि Lead_Source picklist में लगभग 12 मान होंगे। लेकिन Distinct Count 87 दिखाता है। Picklist सीमित होने से पहले, reps ने free-text मान type किए। “Web”, “web”, “Website”, “Webinar”, “web form” सभी distinct गिने जाते हैं। यह मेट्रिक प्रकट करता है कि आपके Lead Source डेटा को normalization की जरूरत है।

Layer 2: डेटा कैसे Distributed है?

Entropy Shannon entropy का उपयोग करके माप करता है कि मान कितनी समान रूप से distributed हैं। Scale 0 (हर रिकॉर्ड में exact same मान) से maximum तक जाता है। उच्च entropy का अर्थ है अधिक diverse, अधिक समान रूप से spread डेटा।

Entropy को normalized score (actual / max) के रूप में interpret करें:

Normalized (actual / max)	Interpretation
0.9 या उससे अधिक	Even distribution: मान uniformly spread
0.7 से 0.9	Moderate skew: कुछ मान दूसरों से अधिक
0.7 से नीचे	Dominated: कुछ मान अधिकांश रिकॉर्ड रखते हैं

Max Frequency single सबसे common मान के occurrence count देता है। एक dominant value अक्सर एक default value समस्या, एक migration artifact, या एक genuine business concentration संकेत करती है।

Layer 3: क्या Text Content Original है?

Boilerplate Rate text content originality के लिए headline metric है। यह repetitive या templated content का प्रतिशत मापता है। एक उच्च score का अर्थ है अधिक original content।

उदाहरण: आपका संगठन Opportunity पर Description field के AI-powered win/loss analysis का मूल्यांकन कर रहा है। Uniqueness Rate 99% है (हर description तकनीकी रूप से अलग है)। लेकिन Boilerplate Rate प्रकट करता है कि 65% content same template का पालन करता है। AI model आपके template structure सीखेगा, आपके win patterns नहीं।

Boilerplate Records Count absolute संख्या के रूप में cleanup scope देता है।

तीन विश्लेषण कोण

चिंता	मेट्रिक्स	प्रश्न	Stakeholder
Duplication	Uniqueness Rate, Distinct Count	क्या हमारे पास repeated values हैं?	Data stewards
Distribution	Entropy, Max Frequency	डेटा values में कैसे spread है?	Analysts और data scientists
Originality	Boilerplate Rate, Boilerplate Records Count	क्या text content genuinely original है?	AI teams

मेट्रिक संदर्भ

Foundation Metrics

मेट्रिक	प्रकार	यह क्या मापता है
Uniqueness Rate	प्रतिशत	non-duplicate values वाले records का हिस्सा
Distinct Count	Count	field में distinct values की कुल संख्या

Advanced Metrics

मेट्रिक	प्रकार	यह क्या मापता है
Entropy	Decimal	values कितनी समान रूप से distributed हैं (Shannon entropy)
Max Frequency	Count	single सबसे common value का occurrence count
Boilerplate Rate	प्रतिशत	templated या repetitive content की degree
Boilerplate Records Count	Count	boilerplate content वाले records की संख्या

Field Type कवरेज

कवरेज समूह	Field Types	उपलब्ध मेट्रिक्स
सभी प्रकार (15)	String, TextArea, LongTextArea, Number, Currency, Percent, AutoNumber, Date, DateTime, Picklist, Email, Phone, URL, Lookup, Checkbox	Uniqueness Rate, Distinct Count
Analysis types (9)	String, TextArea, Number, Picklist, Multiselect Picklist, Checkbox, Email, Phone, URL	Entropy, Max Frequency
Text fields (3)	String, TextArea, Html	Boilerplate Records Count
Long text fields (3)	TextArea, LongTextArea, Html	Boilerplate Rate

दो Analysis Modes

Basic Uniqueness प्रश्न का उत्तर देता है: “क्या values distinct हैं?” यह 2 foundation metrics उत्पन्न करता है।

Advanced Uniqueness Analysis गहरा जाता है। यह सभी 6 metrics उत्पन्न करता है, जिसमें distribution analysis, frequency patterns, और boilerplate detection शामिल हैं।

व्यावसायिक आवश्यकता	अनुशंसित Mode
Quick duplicate detection audit	Basic Uniqueness
Data migration assessment	Advanced (Max Frequency default values पकड़ता है, Entropy skew प्रकट करता है)
Picklist hygiene check	Advanced (Entropy + Max Frequency skew और normalization needs प्रकट करते हैं)
AI training data evaluation	Advanced (Boilerplate metrics content originality का आकलन करते हैं)
Ongoing data governance	Basic Uniqueness से शुरू करें, गहरे विश्लेषण के लिए Advanced में जाएँ

Uniqueness कॉन्फ़िगर करना

DQS Uniqueness के लिए 2 configuration inputs प्रदान करता है।

Setting	यह क्या नियंत्रित करता है
Case Sensitive	नियंत्रित करता है कि value comparison letter casing को consider करती है। अक्षम होने पर (डिफ़ॉल्ट), “Apple” और “apple” same value गिनते हैं।
Include Blanks	नियंत्रित करता है कि null और blank records uniqueness calculations में counted हैं। अक्षम होने पर (डिफ़ॉल्ट), blanks evaluation से exclude होते हैं।

सामान्य Uniqueness समस्याएँ

Bulk Imports से Duplicate Records

Data migrations और list imports तब duplicates introduce करते हैं जब matching logic अपर्याप्त हो।

Fix: Load करने से पहले imports का audit करें। प्रत्येक import से पहले और बाद में key identifier fields (Email, Phone, Website) पर uniqueness baseline establish करने के लिए DQS का उपयोग करें।

Data के रूप में Default Values

Integrations और migrations अक्सर fields में default values लिखते हैं। “Unknown”, “N/A”, या एक कंपनी का अपना नाम हजारों records पर दिखाई देता है।

Fix: Advanced Uniqueness Analysis चलाएँ। Max Frequency dominant value प्रकट करती है।

Governance के बिना Free-Text Fields

Text fields जिनमें picklist constraints की कमी है, समय के साथ variations accumulate करते हैं।

Fix: उन text fields पर Advanced Uniqueness Analysis चलाएँ जिन्हें आप standardize करना चाहते हैं। High-value free-text fields को picklists में convert करें।

Boilerplate-Polluted Text Fields

Support agents हर case में standard openings और closings paste करते हैं।

Fix: text fields पर boilerplate detection के साथ Advanced Uniqueness Analysis चलाएँ।

Best Practices

Field Type द्वारा सही Headline चुनें

Uniqueness Rate identifier fields के लिए सही headline है। Text content fields के लिए, Uniqueness Rate को Boilerplate Rate के साथ combine करें।

Segmentation Fields के लिए Distribution Metrics का उपयोग करें

Segmentation, filtering, या reporting में उपयोग किए जाने वाले fields के लिए Entropy और Max Frequency जाँचें।

समय के साथ रुझान Track करें

एक अकेला scan current state दिखाता है। New duplicate sources detect करने और deduplication initiatives के प्रभाव को मापने के लिए नियमित रूप से scans चलाएँ।

अगले कदम

अगला: Timeliness - डेटा freshness और currency मापें
पिछला: Validity - सुनिश्चित करें कि डेटा अपेक्षित प्रारूपों का पालन करता है
संबंधित: पाँच आयाम - सभी आयामों का अवलोकन
कार्रवाई: AI Readiness Assessment - अपने वर्तमान Uniqueness scores देखें