ما هو الاتساق؟
يقيس الاتساق ما إذا كانت قيم بياناتك تتوافق مع معيار متّفق عليه. يكون الحقل متّسقًا عندما يستخدم كل سجل المصطلح نفسه للمفهوم نفسه. ويكون غير متّسق عندما توجد اختلافات تعني الشيء نفسه لكنها مُعبَّرة بطرق مختلفة.
«USA» و«United States» و«US» كلها تشير إلى نفس الدولة. بالنسبة إلى Salesforce، هي ثلاث قيم متميّزة. تقرير مجمَّع حسب Country يُنتج ثلاثة صفوف بدلًا من صفّ واحد. أتمتة تُصفّي «USA» تفوّت 230 سجلًا يحتوي على «United States».
Conformance Rate = (السجلات المطابقة / إجمالي السجلات) × 100
إذا كان 850 من أصل 1000 سجل Account لديهم قيمة Country تطابق قائمة القيم المسموح بها، فإن معدّل مطابقة Country لديك هو 85%. تحتوي الـ 15% المتبقية على اختلافات تحتاج إلى توحيد.
لماذا يهمّ الاتساق
التقارير
البيانات غير المتّسقة تجزّئ تقاريرك. عندما يحتوي حقل Country على خمسة تهجئات مختلفة لنفس الدولة، يُظهر تقرير مجمَّع حسب Country خمسة صفوف بدلًا من واحد. المجموع صحيح، لكن التجميع خاطئ. لوحات المعلومات التنفيذية المبنية على هذه التقارير تروي قصة مُضلّلة.
الأتمتة
تعتمد أتمتة Salesforce على تطابقات القيم الدقيقة. سير عمل يُصفّي Country = "USA" يفوّت السجلات التي تحتوي على «United States» و«US». تعمل الأتمتة بشكل صحيح على السجلات المطابقة لكنها تتخطّى كل ما سواها بصمت.
الذكاء الاصطناعي و Agentforce
تعامل نماذج الذكاء الاصطناعي كل اختلاف كمفهوم منفصل. تصبح «USA» و«United States» دولتين مختلفتين في رؤية النموذج. يُولّد Agentforce الردود باستخدام قيم حقولك. القيم غير المتّسقة تُنتج مخرجات ذكاء اصطناعي غير متّسقة.
| النظام | تأثير الاتساق |
|---|---|
| التقارير | تجميعات مجزّأة، مجاميع مُضلّلة |
| سير العمل | المُرشّحات تفوّت الاختلافات غير المطابقة |
| قواعد المكررات | الاختلافات تمنع المطابقة الصحيحة |
| Agentforce | قيم الحقول غير المتّسقة تُنتج ردود ذكاء اصطناعي غير موثوقة |
كيف يقيس DQS الاتساق
ينتج DQS 6 مقاييس للاتساق منظّمة حول سؤال تشخيصي: «هل قيم حقولك تتوافق مع معيار، وإذا لم تكن كذلك، فماذا تفعل بدلًا من ذلك؟»
فكّر في هذه المقاييس كتدفّق تشخيصي. كل خطوة تكشف عن طبقة مختلفة من المشكلة.
الخطوة 1: ما مدى اتساقه؟
Conformance Rate هو المقياس الرئيسي. يحسب نسبة السجلات التي تطابق فيها قيمة الحقل إحدى القيم المسموح بها التي عرّفتها. هذا هو الرقم الذي تضعه في لوحة المعلومات.
تشغّل فحصًا على كائن Account. يُظهر حقل Country معدّل مطابقة بنسبة 72%. هذا يعني أن 28% من Accounts لديك تحتوي على قيم دولة خارج قائمتك المسموح بها. قواعد تعيين المناطق، ولوحات المعلومات الإقليمية، ومنطق الترجمة كلها تعمل على بيانات غير كاملة.
كل مقياس اتساق آخر موجود ليشرح كيف تبدو الـ 28% غير المطابقة.
الخطوة 2: ما هو النطاق؟
المعدلات تخبرك بالحدّة. الأعداد تخبرك بحجم العمل. مقياسان يجيبان عن سؤال النطاق:
| المقياس | ما يخبرك به |
|---|---|
| Conformance Count | عدد السجلات التي تطابق قيمك المسموح بها. استخدمه لتقارير التغطية. |
| Non-Conforming Count | عدد السجلات التي تقع خارج قيمك المسموح بها. استخدمه لتحديد نطاق مشاريع التنظيف. |
يجمع هذان الرقمان دائمًا إلى إجمالي السجلات. إذا كان Conformance Count هو 720 و Non-Conforming Count هو 280، فلديك 1000 سجل مُقيَّم بالضبط.
مثال: يحتاج data steward لديك إلى تنظيف حقل Industry. Non-Conforming Count هو 3400. يعرف الآن نطاق المشروع، ويمكنه تخصيص الموارد، ووضع جدول زمني واقعي للتوحيد.
الخطوة 3: ما مدى تجزّؤ البيانات؟
Variant Count يقيس عدد القيم المتميّزة الموجودة في حقل عبر جميع السجلات. يجيب عن: «كم عدد الطرق المختلفة التي يعبّر بها الناس عن هذه البيانات؟».
يعمل هذا المقياس كمؤشّر لصحة المخطّط. حقل Country به 5 قيم متميّزة من المرجّح أن يكون مُتحكَّمًا فيه جيدًا. حقل Country به 47 قيمة متميّزة يشير إلى تجزّؤ خطير، حتى قبل التحقّق من المطابقة.
| الحقل | إجمالي السجلات | Variant Count | التقييم |
|---|---|---|---|
| Country | 1000 | 5 | مُتحكَّم جيدًا، متّسق على الأرجح |
| Country | 1000 | 47 | مجزّأ بشدّة، يحتاج إلى توحيد |
| Industry | 500 | 12 | معقول، مقيّد بـ picklist على الأرجح |
| Industry | 500 | 89 | فوضى نص حرّ، تحتاج إلى انتباه فوري |
مثال: أثناء تدقيق مؤسسي، تفحص Lead_Source__c في Leads. Variant Count يعود بـ 34. عرّف فريق التسويق لديك 8 مصادر Leads. الـ 26 اختلافًا المتبقّية هي أخطاء إملائية واختصارات وإدخالات مؤقّتة من التكاملات. picklist مفروض تقنيًا في واجهة المستخدم، لكن السجلات المنشأة عبر API تتجاوزه.
الخطوة 4: ما هي القيم الفعلية؟
Dominant Values يُرجع أعلى N قيمة ترددًا في الحقل، مع عدّ تردد كل قيمة. هذا يخبرك بما تبدو عليه بياناتك فعلًا، لا بما تتوقّع أن تبدو عليه.
| الرتبة | القيمة | العدد | النسبة |
|---|---|---|---|
| 1 | United States | 450 | 45% |
| 2 | USA | 230 | 23% |
| 3 | US | 180 | 18% |
| 4 | U.S.A. | 45 | 4,5% |
| 5 | United States of America | 15 | 1,5% |
يكشف هذا الجدول عن ثلاثة أشياء. أولًا، المعيار الفعلي: «United States» بنسبة 45% هو ما يُدخله معظم المستخدمين. ثانيًا، الاختلافات الشائعة: «USA» و«US» تمثّلان 41% إضافية. ثالثًا، long tail: «U.S.A.» و«United States of America» نادرة لكنها موجودة.
مثال: يناقش فريقك ما إذا كان سيوحّد قيم Country إلى رموز ISO («US») أم أسماء كاملة («United States»). Dominant Values يُظهر أن 45% من السجلات تستخدم بالفعل «United States». التوحيد إلى تلك القيمة يتطلّب تغيير 55% من السجلات. التوحيد إلى «US» يتطلّب تغيير 82%. البيانات تخبرك بالطريق الأرخص.
لماذا تأتي المعدلات والأعداد في أزواج
تأتي مقاييس المطابقة كمعدّل (Conformance Rate) ومعكوسه (Non-Conformance Rate)، بالإضافة إلى أعداد مطلقة لكلا الجانبين. هذا متعمّد:
- المعدلات للوحات المعلومات والتقارير التنفيذية وتتبّع الاتجاهات. «تحسّنت المطابقة من 72% إلى 94% هذا الربع».
- الأعداد لتخطيط المشاريع وتقدير أعباء العمل وتحديد نطاق التنظيف. «لدينا 3400 سجل غير مطابق لإصلاحها».
استخدم المعدلات لإيصال التقدّم. واستخدم الأعداد لتخطيط العمل.
مرجع المقاييس
المقاييس الأساسية
يشكّل هذان المقياسان أساس كل تحليل للاتساق. يخبرانك بمعدّل المطابقة وعدد السجلات التي تتطابق.
| المقياس | النوع | ما يقيسه |
|---|---|---|
| Conformance Rate | نسبة | حصة السجلات المطابقة لقيمك المسموح بها |
| Conformance Count | عدد | عدد السجلات المطابقة لقيمك المسموح بها |
المقاييس المتقدّمة
تتجاوز هذه المقاييس الأربعة سؤال «هل تطابق؟» لتسأل «كيف تبدو البيانات غير المطابقة؟». وتتطلّب وضع Advanced Conformance Analysis.
| المقياس | النوع | ما يقيسه |
|---|---|---|
| Non-Conforming Count | عدد | السجلات ذات القيم خارج قائمتك المسموح بها |
| Non-Conformance Rate | نسبة | حصة السجلات خارج قائمتك المسموح بها |
| Variant Count | عدد | إجمالي القيم المتميّزة الموجودة في الحقل |
| Dominant Values | قائمة | أعلى N قيمة ترددًا مع عدّ التردد |
تغطية أنواع الحقول
يدعم DQS فحوصات الاتساق على أنواع حقول Salesforce التالية:
| نوع الحقل | تركيز الاتساق |
|---|---|
| String (Text) | الاختصارات، الإملاء، حالة الأحرف |
| TextArea | توحيد النص الحرّ |
| Picklist | التحقّق من القيم الفعلية مقابل الخيارات المتوقّعة |
| توحيد النطاق، اتساق التنسيق | |
| Phone | توحيد التنسيق (رموز المنطقة، الفواصل) |
| URL | اتساق البروتوكول والمسار |
وضعَا التحليل
يقدّم DQS وضعَين لتحليل الاتساق:
Conformance Check يجيب عن السؤال: «هل تطابق قيم الحقل قائمتي المسموح بها؟». ينتج المقياسين الأساسيَين ويغطّي الضروريات لتدقيق مطابقة سريع.
Advanced Conformance Analysis يذهب أعمق. ينتج جميع المقاييس الستة، بما في ذلك أعداد غير المطابقة وكشف الاختلافات وتوزيع القيم المهيمنة. استخدم هذا الوضع عندما تحتاج إلى فهم المشهد الكامل لتفتّت القيم، لا مجرّد درجة المطابقة.
| الحاجة التجارية | الوضع الموصى به |
|---|---|
| تدقيق مطابقة سريع أو فحص خطّ أساس | Conformance Check |
| تنظيف هجرة البيانات | Advanced (variant count يكشف الفوضى المستوردة) |
| تقييم الجاهزية للذكاء الاصطناعي | Advanced (القيم المهيمنة تُظهر ما سيتعلّم منه الذكاء الاصطناعي) |
| حوكمة البيانات المستمرة | ابدأ بـ Conformance Check، وانتقل إلى Advanced عند الاستعداد لتحليل أعمق |
إعداد الاتساق
يقدّم DQS أربع مدخلات إعداد للاتساق. يمكن ضبط كل واحدة على المستوى العالمي (تنطبق على جميع الحقول) وتجاوزها على مستوى الحقل الفردي.
| الإعداد | ما يتحكّم فيه |
|---|---|
| Expected Values | قائمة القيم التي يعاملها DQS كـ «مطابقة». أي قيمة حقل ليست في هذه القائمة تُعلَّم كغير مطابقة. مطلوب: يجب تعريف قيمة واحدة على الأقل قبل تشغيل الفحص. |
| Case Sensitive | يتحكّم في ما إذا كانت مطابقة القيم تأخذ حالة الأحرف في الاعتبار. عند التعطيل (الافتراضي)، «Premium» و«PREMIUM» و«premium» كلها تطابق القيمة المسموح بها «Premium». عند التفعيل، فقط مطابقة حالة الأحرف الدقيقة تُحسب. |
| Top N | كم عدد القيم المهيمنة التي يجب إرجاعها (من 1 إلى 100). يتحكّم في حجم مخرجات Dominant Values. الافتراضي: 5. |
| Min Frequency | الحد الأدنى لعدد مرات ظهور القيمة لتُدرج في مخرجات Dominant Values (من 1 إلى 1000). يُرشّح القيم النادرة جدًا التي تُضيف ضوضاء. الافتراضي: 1. |
نصيحة: ابدأ باستخدام Import from Field لمشاهدة القيم الموجودة فعلًا في بياناتك قبل تعريف قائمة قيمك المسموح بها.
Import from Field: الإعداد القائم على الاكتشاف أولًا
تحدٍّ شائع في الاتساق هو معرفة القيم المتوقّعة. لا يمكنك تعريف القيم المسموح بها إذا كنت لا تعرف ما تحتويه بياناتك.
Import from Field يحلّ هذا. يستعلم عن بيانات الحقل الفعلية، ويجمّع القيم حسب التردد، ويعرض النتائج كقائمة تحقّق.
كيف يعمل:
- افتح إعداد Expected Values.
- انقر Import from Field. يستعلم DQS عن البيانات الحية ويُعيد القيم المتميّزة مرتّبة حسب التردد.
- راجع قائمة التحقّق. تُظهر كل قيمة عدد السجلات التي تحتوي عليها.
- حدّد القيم التي تعتبرها صحيحة. اترك القيم غير الصحيحة أو المشوّهة أو النائبة غير محدّدة.
- انقر Add Selected. تملأ القيم المحدَّدة قائمة قيمك المسموح بها.
مثال: تُعدّ الاتساق لحقل Rating__c. يُرجع Import from Field:
| القيمة | السجلات |
|---|---|
| Hot | 284 |
| Warm | 198 |
| Cold | 156 |
| Very High | 23 |
| 240 km/h | 12 |
| N/A | 8 |
القيم الثلاث الأولى هي تقييماتك الحقيقية. تحدّدها. «Very High» خطأ إدخال بيانات. «240 km/h» هي بيانات في الحقل الخاطئ بوضوح. «N/A» قيمة نائبة. تترك تلك غير محدّدة. عند تشغيل الفحص، تظهر هذه الـ 43 سجلًا كغير مطابقة، وتُبنى قائمة قيمك المسموح بها من ما تحتويه بياناتك فعلًا.
يعكس هذا سير العمل النهج التقليدي «خمّن أولًا، أصلح لاحقًا». تكتشف أولًا، ثم تعرّف معيارك.
مشكلات الاتساق الشائعة
اختلافات Country و State
أكثر حالات عدم الاتساق شيوعًا في بيانات Salesforce. بدون توحيد، يظهر مفهوم واحد مثل «United States» كـ 5 قيم متميّزة أو أكثر. التقارير تتجزّأ. المُرشّحات تفوّت السجلات. قواعد المناطق تفشل.
الحل: فعّل Salesforce State and Country Picklists لجميع حقول العنوان. استخدم DQS للعثور على القيم غير المطابقة الموجودة وتنظيفها.
حقول النص الحرّ بدون حوكمة
الحقول النصية التي تفتقر إلى قيود picklist تتراكم فيها الاختلافات بمرور الوقت. Industry و Job Title و Lead Source و Department هي مخالفات متكرّرة عندما تُنفَّذ كنص حرّ.
الحل: حوّل حقول النص الحرّ عالية القيمة إلى picklists. استخدم Import from Field لمشاهدة توزيع قيمك الحالية قبل تعريف خيارات picklist.
اختلافات أنشأتها التكاملات
تكتب الأنظمة الخارجية وAPIs سجلات تتجاوز التحقّق في واجهة مستخدم Salesforce. منصة أتمتة تسويق تكتب «Info Technology» بينما معيارك هو «Information Technology». تتراكم هذه الاختلافات بصمت.
الحل: طبّق قواعد تعيين القيم في طبقة التكامل لديك. شغّل فحوصات اتساق دورية لالتقاط اختلافات جديدة من مصادر البيانات التي لا تتحكّم فيها.
عدم اتساق حالة الأحرف
يُدخل المستخدمون «Active» و«active» و«ACTIVE» عبر سجلات مختلفة. مع تعطيل مطابقة حالة الأحرف، يحسب DQS الثلاث كمطابقة. لكن الحقل لا يزال يحتوي على ثلاث تهجئات مختلفة في البيانات الأولية.
الحل: قرّر ما إذا كانت حالة الأحرف تهمّ لحالة الاستخدام لديك. للحقول المعروضة، وحّد حالة الأحرف من خلال تنظيف البيانات. لأغراض المطابقة، عطّل حساسية حالة الأحرف في إعداد DQS لديك.
أفضل الممارسات
عرّف المعايير قبل الفحص
وثّق القيمة المتوقّعة لكل حقل مقيّد قبل تشغيل أول فحص لك. بدون معيار واضح، ليس لديك خطّ أساس للقياس عليه.
| الحقل | المعيار | المنطق |
|---|---|---|
| Country | رموز ISO 3166-1 alpha-2 (US, CA, DE) | معيار صناعي، مضغوط |
| Industry | تصنيف مخصّص من 15 قيمة | يطابق فئات التقارير |
| Lead Source | 8 مصادر مُعرَّفة من التسويق | يتماشى مع تتبّع الحملات |
استخدم سير عمل الاكتشاف للحقول غير المعروفة
للحقول التي لا يوجد لديك فيها معيار محدّد مسبقًا، استخدم Import from Field أولًا. دع البيانات تخبرك ما هو المعيار الفعلي. القيمة ذات التردد الأعلى غالبًا ما تكون الخيار الصحيح كقيمتك المرجعية.
تتبّع المطابقة عبر الزمن
درجة مطابقة واحدة هي لقطة. تتبّع الدرجات عبر فحوصات متعدّدة لاكتشاف التدهور مبكرًا، وقياس تقدّم التنظيف، وتحديد مصادر البيانات التي تُدخل اختلافات جديدة.
استخدم Variant Count كإنذار مبكر
راقِب Variant Count عبر الفحوصات. حقل يقفز من 12 إلى 28 قيمة متميّزة بين فحصين لديه مصدر جديد للتباين. حقّق قبل أن تتوسّع المشكلة.
رتّب حسب التأثير التجاري
ليس كل حقل بحاجة إلى مطابقة 100%. ركّز على الحقول التي تدفع التقارير (Country, Industry)، وتغذّي الأتمتة (Status, Stage)، أو تُزوّد الذكاء الاصطناعي و Agentforce بالبيانات.
الخطوات التالية
لقد أكملت الآن جميع أبعاد جودة البيانات الخمسة. واصل تعلّمك:
- التالي: التحضير لـ Agentforce — تعرّف على متطلبات البيانات الخاصة بالذكاء الاصطناعي
- السابق: الحداثة — قِس حداثة البيانات وحاليتها
- نظرة عامة: الأبعاد الخمسة — راجع جميع الأبعاد معًا
- إجراء: تقييم الجاهزية للذكاء الاصطناعي — اطّلع على درجات اتساقك والمزيد