Skip to main content

डेटा गुणवत्ता के पाँच आयाम

पाँच आयाम सीखें जो DQS मापता है: Completeness, Validity, Uniqueness, Timeliness, और Consistency।

पाँच आयामों को समझना

डेटा गुणवत्ता पाँच प्रमुख आयामों में मापी जाती है। प्रत्येक आयाम आपके डेटा के बारे में एक विशिष्ट प्रश्न का उत्तर देता है, और साथ में वे यह निर्धारित करते हैं कि आपका डेटा उद्देश्य के लिए उपयुक्त है या नहीं।

DQS Salesforce के भीतर सभी पाँच आयामों को नेटिव रूप से मापता है।

आयाममुख्य प्रश्नउदाहरण समस्या
Completenessक्या डेटा मौजूद है?ईमेल पते गायब हैं
Validityक्या प्रारूप सही है?विकृत फोन नंबर
Uniquenessक्या प्रत्येक रिकॉर्ड अलग है?डुप्लिकेट Contact
Timelinessक्या डेटा वर्तमान है?पुरानी Opportunity तारीखें
Consistencyक्या डेटा एकसमान है?”USA” बनाम “United States”

1. Completeness

Completeness मापती है कि आवश्यक डेटा मान मौजूद हैं और गायब नहीं हैं।

DQS क्या मापता है

  • Fill Rate: गैर-खाली मान वाले रिकॉर्ड का प्रतिशत
  • Blank Detection: खाली स्ट्रिंग और केवल व्हाइटस्पेस मान
  • Placeholder Detection: “N/A”, “TBD”, या “Unknown” जैसे मान

Completeness क्यों महत्वपूर्ण है

अपूर्ण डेटा स्वचालन को तोड़ता है। जब किसी Workflow को ऐसे ईमेल पते की आवश्यकता होती है जो मौजूद नहीं है, तो Workflow विफल हो जाती है। जब कोई रिपोर्ट Industry पर फ़िल्टर करती है लेकिन आधे रिकॉर्ड में Industry मान नहीं हैं, तो आपका विश्लेषण केवल एक हिस्से की तस्वीर दिखाता है।

सामान्य Completeness समस्याएँ

समस्याउदाहरणप्रभाव
खाली फ़ील्डखाली Contact Phoneसंभावित ग्राहकों को कॉल नहीं कर सकते
Placeholder मानCompany Name में “TBD”रिपोर्टिंग के लिए अमान्य
केवल व्हाइटस्पेसDescription में ” “भरा हुआ दिखता है लेकिन है नहीं

सुझाव: अपने सबसे महत्वपूर्ण फ़ील्ड से शुरुआत करें। आपको हर फ़ील्ड पर 100% Completeness की जरूरत नहीं है, केवल उन पर जो आपके उपयोग के मामले के लिए महत्वपूर्ण हैं।

2. Validity

Validity मापती है कि डेटा मान अपेक्षित प्रारूपों और पैटर्न के अनुरूप हैं या नहीं।

DQS क्या मापता है

  • Format Validation: Email, phone, URL पैटर्न
  • Pattern Matching: कस्टम regex पैटर्न
  • Domain Validation: अनुमत मानों की सूचियाँ

Validity बनाम सटीकता

Validity और सटीकता अलग हैं। एक ईमेल पता वैध (सही प्रारूप) हो सकता है लेकिन अशुद्ध (गलत व्यक्ति)। DQS Validity मापता है क्योंकि प्रारूप सत्यापन को स्वचालित किया जा सकता है। सटीकता के लिए बाहरी सत्यापन की आवश्यकता होती है।

जाँचवैध?सटीक?
[email protected]हाँसत्यापन के बिना अज्ञात
john@companyनहींN/A (प्रारूप गलत है)
[email protected]हाँनहीं (व्यक्ति ने कंपनी छोड़ दी)

Salesforce में सामान्य Validity समस्याएँ

  • ”@” या डोमेन के बिना ईमेल पते
  • गलत अंक संख्या वाले फोन नंबर
  • प्रोटोकॉल (http/https) के बिना URL
  • जहाँ Picklist मान अपेक्षित हों वहाँ फ्री-टेक्स्ट

3. Uniqueness

Uniqueness मापती है कि डेटा मान अलग और गैर-डुप्लिकेट हैं।

DQS क्या मापता है

  • Duplicate Detection: रिकॉर्ड में सटीक मिलान
  • Distinct Count: प्रति फ़ील्ड कुल अनन्य मान
  • Entropy Analysis: मान विविधता और वितरण

डुप्लिकेट की लागत

डुप्लिकेट रिकॉर्ड स्टोरेज बर्बाद करते हैं, उपयोगकर्ताओं को भ्रमित करते हैं, और अतिरंजित मेट्रिक्स उत्पन्न करते हैं। जब Sales के पास एक ही कंपनी के लिए दो रिकॉर्ड हों, तो वे संदर्भ खो देते हैं और शर्मनाक डुप्लिकेट आउटरीच का जोखिम होता है।

शोध दिखाता है:

  • B2B डेटाबेस में औसतन 10-30% डुप्लिकेट रिकॉर्ड होते हैं
  • प्रत्येक डुप्लिकेट संगठनों को बर्बाद ईमेल भेजों, भ्रमित रिपोर्टिंग और खंडित ग्राहक इतिहास में लागत देता है

डुप्लिकेट रोकथाम बनाम डिटेक्शन

DQS डिटेक्शन पर ध्यान केंद्रित करता है, जो मौजूद डुप्लिकेट पहचानने में मदद करता है। रोकथाम (निर्माण पर डुप्लिकेट रोकना) Salesforce सेटअप में Validation Rule और Matching Rule की आवश्यकता होती है।

4. Timeliness

Timeliness मापती है कि डेटा अपने इच्छित उपयोग के लिए पर्याप्त वर्तमान है।

DQS क्या मापता है

  • Freshness Rate: स्वीकार्य आयु के भीतर रिकॉर्ड का प्रतिशत
  • Staleness Detection: आपकी सीमा से अधिक रिकॉर्ड
  • Average Age: दिनांक फ़ील्ड मानों की औसत आयु
  • Future Date Detection: भविष्य में अमान्य तारीखें

ताजगी सीमाएँ निर्धारित करना

विभिन्न डेटा प्रकारों की अलग-अलग ताजगी आवश्यकताएँ होती हैं:

डेटा प्रकारसामान्य सीमाक्यों
Lead Last Activity30 दिनठंडे लीड मूल्य खो देते हैं
Contact Info90 दिनलोग नौकरी बदलते हैं
Opportunity Close Dateवर्तमान तिमाहीपूर्वानुमान सटीकता
Account Annual Revenue1 वर्षवार्षिक अपडेट अपेक्षित

AI के लिए Timeliness क्यों महत्वपूर्ण है

AI और machine learning मॉडल आपके डेटा से सीखते हैं। जब आपका डेटा पुराना होता है, तो AI पुराने पैटर्न सीखता है। Agentforce, उदाहरण के लिए, प्रतिक्रियाओं को सूचित करने के लिए आपके Salesforce डेटा का उपयोग करता है। पुरानी संपर्क जानकारी गलत अनुशंसाओं की ओर ले जाती है।

5. Consistency

Consistency मापती है कि डेटा मान एकसमान और मानकीकृत हैं।

DQS क्या मापता है

  • Conformance Rate: अपेक्षित पैटर्न से मेल खाने वाला प्रतिशत
  • Variant Detection: एक ही मान के विभिन्न प्रतिनिधित्व
  • Dominant Value Analysis: प्रति फ़ील्ड सबसे सामान्य मान

असंगतता के प्रकार

प्रकारउदाहरणसमस्या
प्रारूप भिन्नता”USA” बनाम “United States” बनाम “US”फ़िल्टरिंग और समूहीकरण टूटता है
वर्तनी भिन्नता”Acme Corp” बनाम “ACME Corporation”गलत डुप्लिकेट बनाता है
केस भिन्नता”new york” बनाम “New York”रिपोर्ट में अव्यावसायिक दिखता है

AI के लिए Consistency क्यों महत्वपूर्ण है

AI मॉडल “USA” और “United States” को अलग-अलग मानों के रूप में मानते हैं। यदि आपके रिकॉर्ड दोनों का उपयोग करते हैं, तो AI उन्हें सही ढंग से समूहीकृत नहीं कर सकता। असंगत डेटा AI की समझ को खंडित करता है और अविश्वसनीय आउटपुट उत्पन्न करता है।

Consistency प्राप्त करना

  • जहाँ संभव हो Picklist का उपयोग करें, फ्री टेक्स्ट के बजाय
  • प्रत्येक फ़ील्ड के लिए एक एकल प्रारूप पर मानकीकरण करें
  • DQS Consistency जाँच कॉन्फ़िगर करते समय Picklist मानों से आयात करें

आयामों को संतुलित करना

हर उपयोग के मामले के लिए हर आयाम समान रूप से महत्वपूर्ण नहीं होता। विचार करें कि आपको क्या चाहिए:

उपयोग का मामलाप्राथमिकता आयाम
Marketing अभियानCompleteness, Validity (डिलीवरेबिलिटी के लिए)
Sales पूर्वानुमानTimeliness, Completeness
Customer serviceUniqueness (सत्य का एकल स्रोत)
AI/Agentforceसभी पाँच, साथ ही AI Readiness जाँच

DQS आयाम कवरेज

DQS व्यापक क्षमताओं के साथ सभी पाँच आयाम मापता है:

आयामDQS क्या मापता है
CompletenessFill rate, null detection, blank detection, placeholder detection, contextual logic
ValidityFormat validation, custom regex patterns, invalid record identification
UniquenessDuplicate detection, entropy analysis, frequency distribution
TimelinessFreshness rate, staleness detection, average age, future date detection
ConsistencyConformance checking, variant discovery, dominant value analysis

अगले कदम

अब जब आप पाँच आयाम समझते हैं:

  1. अपने वर्तमान स्कोर देखने के लिए AI Readiness Assessment लें
  2. बुनियादी डेटा गुणवत्ता से परे अतिरिक्त जाँचों के लिए Agentforce Preparation के बारे में पढ़ें
  3. जानें कि अपना पहला स्कैन कॉन्फ़िगर करने के लिए Definition Builder का उपयोग कैसे करें