ما هي الصحة؟
تقيس الصحة ما إذا كانت قيم البيانات تتوافق مع التنسيقات والأنماط المتوقّعة. تكون القيمة صحيحة عندما تطابق البنية المحدّدة. وتكون غير صحيحة عندما تكسر قواعد التنسيق.
عنوان البريد الإلكتروني صحيح عندما يحتوي على رمز «@» ونطاق. يكون URL صحيحًا عندما يبدأ ببروتوكول ويحتوي على نطاق. رمز المنتج صحيح عندما يحتوي على عدد الأحرف الذي يتطلّبه نظامك.
يتحقّق DQS من قيم الحقول باستخدام أنماط regex (التعابير النمطية). تختار من أنماط مدمجة للتنسيقات الشائعة مثل Email وURL وFixed Length، أو تكتب regex خاصًا بك لأي تنسيق خاص بالعمل.
Validity Rate = (السجلات المطابقة للنمط / إجمالي السجلات) × 100
إذا كان 35500 من أصل 50000 سجل Contact تحتوي على عنوان بريد إلكتروني يطابق نمط البريد الإلكتروني، فإن معدّل صحة Email لديك هو 71%. تحتوي الـ 29% المتبقية على قيم تفشل في فحص النمط.
الصحة مقابل الدقة
الصحة والدقة مفهومان مختلفان:
| الفحص | صحيح؟ | دقيق؟ |
|---|---|---|
| [email protected] | نعم | غير معروف دون تحقّق |
| john@company | لا | غير منطبق (التنسيق خاطئ) |
| [email protected] | نعم | لا (الشخص غادر الشركة) |
| 555-123-4567 | نعم | غير معروف دون اتصال |
| 555-12-456 | لا | غير منطبق (عدد أرقام خاطئ) |
يقيس DQS الصحة لأنه يمكن أتمتة فحوصات التنسيق. الدقة تتطلّب تحقّقًا خارجيًا أو تأكيدًا بشريًا.
البيانات الصحيحة تعمل في أنظمتك حتى لو لم تعكس الواقع. البيانات غير الصحيحة تكسر أنظمتك بغضّ النظر عن حقيقتها في العالم الحقيقي. ركّز على الصحة أولًا. عالِج الدقة من خلال عمليات التحقّق.
لماذا تهمّ الصحة
البيانات غير الصحيحة تسبّب فشلًا عبر كامل مكدّس التقنية لديك. الرسائل المرتدّة تضرّ بسمعة المُرسِل. أرقام الهاتف المشوّهة تُهدر وقت نظام الاتصال. URLs المكسورة تُحبط المستخدمين وتحجب أدوات الإثراء.
ترفض APIs البيانات المشوّهة. عندما يُرسل تكاملك تنسيق بريد إلكتروني غير صحيح إلى منصة تسويق، قد تفشل الدفعة بأكملها. تتكسّر Salesforce flows التي تحلّل قيم الحقول عندما يكون التنسيق غير متوقّع.
تعالج نماذج الذكاء الاصطناعي النص كما هو. عندما يحتوي حقل هاتف على «Phone: 555-1234» بدلًا من رقم نظيف، يرى النموذج أنماطًا غير متّسقة. التنسيقات غير الصحيحة تقلّل من فعالية الذكاء الاصطناعي وتنتج مخرجات Agentforce غير موثوقة.
| النظام | تأثير الصحة |
|---|---|
| حملات البريد الإلكتروني | الارتدادات تضرّ بسمعة المُرسِل |
| الاتصالات الهاتفية | الأرقام غير الصحيحة تُهدر وقت نظام الاتصال |
| روابط الويب | URLs المكسورة تحجب الإثراء والتنقّل |
| APIs | البيانات المشوّهة تسبّب فشل المزامنة |
| الذكاء الاصطناعي و Agentforce | التنسيقات غير المتّسقة تقلّل من دقة النموذج |
كيف يقيس DQS الصحة
ينتج DQS 6 مقاييس للصحة منظّمة حول سؤال تشخيصي: «هل تطابق البيانات النمط، وهل هناك نفايات مخفية في القيم التي تمرّ؟»
فكّر في هذه المقاييس كتدفّق تشخيصي. كل خطوة تكشف طبقة أعمق من المشكلة.
الخطوة 1: هل تطابق النمط؟
Validity Rate هو المقياس الرئيسي. يحسب نسبة السجلات التي تطابق فيها قيمة الحقل النمط الذي أعددته. هذا هو الرقم الذي تضعه في لوحة المعلومات.
تُعدّ نمط Email على حقل PersonEmail لـ Contacts. يأتي Validity Rate بنسبة 71%. هذا يعني أن 29% من عناوين البريد الإلكتروني تفشل في فحص التنسيق. إما ينقصها رمز «@» أو لا تحتوي على نطاق أو تحتوي على مسافات. كل حملة تسويقية تُرسل إلى تلك العناوين ترتدّ. وكل سير عمل آلي يُفعّل على البريد الإلكتروني يفشل بصمت.
Valid Count يخبرك بالعدد المطلق. من بين 50000 Contact، 35800 لديهم عناوين بريد إلكتروني صحيحة. هذا هو جمهورك القابل للوصول الفعلي لحملات البريد الإلكتروني، وليس 50000 الموجودين في النظام. يمكن للتسويق وضع توقّعات حملات واقعية بدلًا من العمل بأرقام منتفخة.
الخطوة 2: ما هو التفصيل الكامل؟
المعدلات تخبرك بالحدّة. والأعداد تخبرك بحجم العمل. مقياسان يكملان الصورة:
| المقياس | ما يخبرك به |
|---|---|
| Invalid Rate | التأطير السلبي لدرجة الصحة لديك. عبارة «29% من عناوين بريدنا الإلكتروني غير صحيحة بنيويًا» تستحوذ على الانتباه في عرض لمجلس الإدارة أكثر من «71% صحيحة». البيانات نفسها، مُؤطّرة للعمل. |
| Invalid Count | حجم عمل التنظيف كرقم ثابت. شركتك تُهاجر إلى نظام اتصالات جديد يتطلّب تنسيق E.164. Invalid Count على حقل Phone: 23400. هذا هو العدد الدقيق للسجلات التي تحتاج إلى إعادة تنسيق قبل أن يصبح الترحيل مباشرًا. |
الخطوة 3: هل هناك نفايات تتجاوز أخطاء التنسيق؟
يمكن للقيمة أن تمرّ من فحص التنسيق ومع ذلك تكون قمامة. يتطلّب نموذج web-to-lead حقل Company. معدّل Validity على Company هو 98%، لأن كل شيء تقريبًا يمرّ من نمط نصي أساسي. لكن Noise Rate يكشف أن 14% من تلك القيم إدخالات مثل «asdf» أو «test» أو «xxxxx» أو «na na na». صحيحة في التنسيق لكن عديمة الجدوى تمامًا لتوجيه المبيعات أو الإثراء أو التقسيم.
Noisy Records Count يمنحك نطاق التنظيف. إذا كان Noise Rate بنسبة 14% على 50000 سجل، فهذا يعني 7000 Leads بأسماء شركات قمامة. يمكن لفريق العمليات بناء قائمة انتظار للتنظيف، وتقدير الساعات، وتقرير ما إذا كان سيحذف تلقائيًا أم يُعلِم للمراجعة اليدوية.
فئتان من الفشل
تميّز مقاييس الصحة مشكلتين مختلفتين جوهريًا:
| المشكلة | المقاييس | السبب الجذري | الحل |
|---|---|---|---|
| أخطاء التنسيق | Validity Rate, Invalid Rate, Valid/Invalid Count | أخطاء بشرية، أخطاء تكامل، غياب قواعد تحقّق | نظّف البيانات: قواعد تحقّق للحقول، تحويل البيانات، الإثراء |
| الضوضاء والنفايات | Noise Rate, Noisy Records Count | الروبوتات، إرسالات النماذج القسرية، استيراد جماعي بقيم افتراضية قمامة | أصلح المصدر: CAPTCHA، إعادة تصميم الحقول المطلوبة، حذف السجلات |
التمييز يهمّ لأن الإصلاح مختلف تمامًا. تُعالَج أخطاء التنسيق بتنظيف البيانات. تُعالَج الضوضاء بإصلاح المصدر الذي يُنتجها.
مرجع المقاييس
المقاييس الأساسية
يشكّل هذان المقياسان أساس كل تحليل للصحة. ويخبرانك بمعدّل المطابقة وعدد السجلات التي تمرّ.
| المقياس | النوع | ما يقيسه |
|---|---|---|
| Validity Rate | نسبة | حصة السجلات المطابقة للنمط المُعدّ |
| Valid Count | عدد | عدد السجلات المطابقة للنمط المُعدّ |
المقاييس المتقدّمة
تتجاوز هذه المقاييس الأربعة سؤال «هل تطابق؟» لإعطاء التفصيل الكامل، بما في ذلك كشف الضوضاء. وتتطلّب وضع Advanced Format Validation للتحليل.
| المقياس | النوع | ما يقيسه |
|---|---|---|
| Invalid Rate | نسبة | حصة السجلات التي تفشل في النمط المُعدّ |
| Invalid Count | عدد | عدد السجلات التي تفشل في النمط المُعدّ |
| Noise Rate | نسبة | حصة السجلات التي تحتوي على أنماط ضوضاء (بيانات قمامة) |
| Noisy Records Count | عدد | عدد السجلات التي تحتوي على أنماط ضوضاء |
لماذا تأتي المعدلات والأعداد في أزواج
معظم المقاييس تأتي كمعدّل (نسبة مئوية) وعدّ (رقم مطلق). هذا متعمّد:
- المعدلات للوحات المعلومات والتقارير التنفيذية وتتبّع الاتجاهات. «تحسّنت الصحة من 71% إلى 92% هذا الربع».
- الأعداد لتخطيط المشاريع وتقدير أعباء العمل وتحديد نطاق التنظيف. «لدينا 23400 رقم هاتف لإعادة تنسيقها».
استخدم المعدلات لإيصال التقدّم. واستخدم الأعداد لتخطيط العمل.
تغطية أنواع الحقول
جميع المقاييس الستة للصحة تتشارك في نفس الدعم الأساسي لأنواع الحقول، مع اقتصار مقاييس الضوضاء على الحقول النصية.
| المقياس | جميع أنواع الحقول الستة | String و TextArea فقط |
|---|---|---|
| Validity Rate | X | |
| Valid Count | X | |
| Invalid Rate | X | |
| Invalid Count | X | |
| Noise Rate | X | |
| Noisy Records Count | X |
المقاييس القائمة على الأنماط (Validity Rate, Valid Count, Invalid Rate, Invalid Count) تعمل على جميع أنواع الحقول الستة المدعومة: String, TextArea, Email, Phone, URL, Picklist.
تنطبق مقاييس الضوضاء (Noise Rate, Noisy Records Count) فقط على حقول String و TextArea. أنماط الضوضاء مثل الأحرف المتكررة وضرب لوحة المفاتيح هي ظاهرة نص حرّ. حقل Picklist بقيمة picklist صحيحة لا يمكن أن يحتوي على ضوضاء. كشف الضوضاء منطقي فقط على الحقول التي يكتب فيها المستخدمون نصًا حرًّا.
وضعَا التحليل
يقدّم DQS وضعَين لتحليل الصحة:
Format Validation يجيب عن السؤال: «هل تطابق قيم الحقول النمط المتوقّع؟». ينتج المقياسين الأساسيَين ويغطّي الضروريات لفحص الامتثال للتنسيق أو تدقيق سريع.
Advanced Format Validation يذهب أعمق. ينتج جميع المقاييس الستة، بما في ذلك التفصيل الكامل للصحيح/غير الصحيح وكشف الضوضاء. استخدم هذا الوضع عندما تحتاج إلى التمييز بين أخطاء التنسيق والبيانات القمامة، أو عندما تحتاج إلى أعداد دقيقة لتخطيط مشروع التنظيف.
| الحاجة التجارية | الوضع الموصى به |
|---|---|
| فحص سريع لامتثال التنسيق | Format Validation |
| تقارير الامتثال أو التدقيق | Advanced (تفصيل كامل للصحيح/غير الصحيح للجهات التنظيمية) |
| تقييم جودة Leads | Advanced (Noise Rate يلتقط النفايات التي تمرّ من فحوصات التنسيق) |
| تقييم البيانات قبل الترحيل | Advanced (تفصيل كامل لتحديد نطاق المعالجة حسب الفئة) |
| حوكمة البيانات المستمرة | ابدأ بـ Format Validation، وانتقل إلى Advanced لكشف الضوضاء |
إعداد الصحة
على عكس الاكتمال (الذي يعمل تلقائيًا على أي حقل)، تتطلّب الصحة إعدادًا. يجب أن تعرّف ما الذي يعنيه «الصحيح» لكل حقل قبل أن يتمكّن DQS من فحصه. فحص صحة بدون نمط لا معنى له: صحيح مقارنةً بماذا؟
يقدّم DQS 5 مدخلات إعداد. يمكن ضبط كل واحدة على المستوى العالمي (تنطبق على جميع الحقول) وتجاوزها على مستوى الحقل الفردي.
| الإعداد | ما يتحكّم فيه |
|---|---|
| Pattern Type | التنسيق الذي يتم التحقّق منه. اختر من Email, URL, Fixed Length, أو Custom regex. مطلوب: يجب اختيار نوع النمط قبل تشغيل الفحص. |
| Pattern / Fixed Length | القيمة المحدّدة لنوعك المختار. بالنسبة إلى Fixed Length، أدخل عدد الأحرف (من 1 إلى 255). بالنسبة إلى Custom، أدخل نمط regex. Email و URL يستخدمان أنماطًا مدمجة. |
| Custom Pattern | regex الخاص بك عندما يكون Pattern Type مضبوطًا على Custom. يتحقّق DQS من صحة regex قبل الحفظ ويحجب التعابير غير الصالحة. |
| Include Blanks | عند التفعيل، يحسب DQS القيم الفارغة كغير صحيحة. عند التعطيل (الافتراضي)، تُستبعد الفراغات من التقييم تمامًا. |
| Case Sensitive | عند التفعيل، تأخذ مطابقة النمط حالة الأحرف في الاعتبار. عند التعطيل (الافتراضي)، تكون المطابقة غير حسّاسة لحالة الأحرف. |
أنواع الأنماط
| النوع | ما يتحقّق منه | مثال ناجح | مثال فاشل |
|---|---|---|---|
| تنسيق عنوان البريد الإلكتروني القياسي: [email protected] | [email protected] | user@domain, invalid-email | |
| URL | عناوين ويب HTTP/HTTPS بنطاق صحيح | https://example.com | example.com, htp://site.com |
| Fixed Length | عدد أحرف محدّد (تعرّفه) | AAAAAAAAAA (10 أحرف، إذا كان الطول = 10) | SHORT (5 أحرف) |
| Custom | أي نمط regex تعرّفه | يعتمد على النمط الخاص بك | يعتمد على النمط الخاص بك |
مثال: تتبع رموز منتجاتك تنسيق «DQS-» متبوعًا بـ 6 أرقام. اضبط Pattern Type على Custom وأدخل regex التالي ^DQS-\d{6}$. يضع DQS علامة على أي رمز منتج لا يطابق هذه البنية.
كشف الضوضاء
يلتقط كشف الضوضاء البيانات التي تمرّ من فحوصات التنسيق ومع ذلك تظلّ قمامة. يستخدم DQS اثنين من الاستدلالات المدمجة لتحديد القيم المشحونة بالضوضاء:
الاستدلال 1: أحرف متطابقة متتالية. ثلاثة أحرف أو أكثر من نفس الحرف على التوالي. قيم مثل «aaaa» أو «!!!» أو «---» أو «xxxxx» تُفعّل هذا الفحص. تأتي عادةً من الضغط المستمرّ على لوحة المفاتيح أو الحشو أو إساءة استخدام placeholder.
الاستدلال 2: أحرف خاصة مفرطة. أكثر من 50% من الأحرف غير الأبجدية الرقمية (باستثناء المسافات). قيم مثل «!@#$%^» أو «***///---» تُفعّل هذا الفحص. تشير إلى ضرب لوحة المفاتيح أو إدخال الروبوتات أو إدخال قمامة متعمّد.
| الاستدلال | ما يلتقطه | أمثلة قيم مشحونة بالضوضاء | أمثلة قيم نظيفة |
|---|---|---|---|
| 3+ أحرف متطابقة متتالية | الحشو، التعبئة، الضغط المستمرّ | «aaaa»، «!!!»، «---»، «xxxxx» | «Premium»، «DOT AB3 2024» |
| أكثر من 50% أحرف خاصة | ضرب لوحة المفاتيح، إدخال روبوتات، نفايات | «!@#$%^»، «***test»، «//—//» | «[email protected]»، «O’Brien Inc» |
يمكنك أيضًا تعريف أنماط ضوضاء مخصصة باستخدام regex لنفايات خاصة بالمؤسسة لا تغطّيها الاستدلالات المدمجة.
نصيحة: كشف الضوضاء أكثر قيمة على حقول النص الحرّ حيث يمكن للمستخدمين كتابة أي شيء: Company وDescription وNotes والحقول النصية المخصّصة. شغّله على حقول web-to-lead أولًا، حيث إرسالات الروبوتات والإدخالات القسرية أكثر شيوعًا.
مشكلات الصحة الشائعة
عناوين بريد إلكتروني غير صحيحة
يُدخل المستخدمون عناوين بريد إلكتروني بدون التنسيق الصحيح. رموز «@» المفقودة، والنطاقات المفقودة، والنقاط المزدوجة، والأخطاء الإملائية هي المشكلات الأكثر شيوعًا.
| المشكلة | مثال |
|---|---|
| @ مفقود | john.company.com |
| نطاق مفقود | john@ |
| نقاط مزدوجة | [email protected] |
| أخطاء إملائية | [email protected] |
التأثير: رسائل مرتدّة، سمعة مرسل متضرّرة، تواصل ضائع.
أرقام هاتف مشوّهة
تقبل حقول الهاتف أي نص في Salesforce، مما يؤدّي إلى تنسيقات غير متّسقة وغير صحيحة.
| المشكلة | مثال |
|---|---|
| أحرف مدمجة | 555-CALL-NOW |
| عدد أرقام خاطئ | 555-12 |
| تمديد في الحقل | 555-1234 ext 5 |
| ارتباك رمز الدولة | 1-555-123-4567 مقابل 555-123-4567 |
التأثير: مكالمات فاشلة، وقت مبيعات مهدر، أخطاء مزامنة الاتصالات.
URLs غير صحيحة
غالبًا ما تحتوي حقول عناوين الويب على قيم جزئية أو مشوّهة.
| المشكلة | مثال |
|---|---|
| بروتوكول مفقود | www.company.com |
| نطاق مفقود | https:// |
| أخطاء إملائية | htps://company.com |
| معرّفات اجتماعية | @company (ليس URL) |
التأثير: روابط مكسورة، إثراء فاشل، أخطاء تنقّل.
أفضل الممارسات
تحقّق عند الإدخال
أفضل فحص صحة يحدث عند إدخال البيانات. استخدم Salesforce validation rules لفرض التنسيقات قبل دخول البيانات إلى نظامك.
// مثال: قاعدة تحقّق لتنسيق البريد الإلكتروني
NOT(ISBLANK(Email)) && NOT(REGEX(Email, "^[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\\.[A-Za-z]{2,}$"))
وحّد التنسيقات قبل الفحص
اختر تنسيقًا واحدًا لكل حقل وأفرِضه. بالنسبة لأرقام الهاتف، E.164 (+15551234567) هو المعيار الأكثر قبولًا عالميًا. بالنسبة إلى URLs، اطلب بروتوكول https://. وثّق قرارات التنسيق حتى يعرف الفريق المعيار.
اضبط العتبات حسب أولوية الحقل
تحتاج الحقول المختلفة إلى معايير صحة مختلفة:
| الحقل | العتبة المقترحة | المنطق |
|---|---|---|
| Primary Email | 95%+ | حرج للتواصل |
| Phone | 90%+ | مهم لكن تُتوقّع بيانات قديمة |
| Website | 85%+ | غالبًا ما يُدخل بشكل غير كامل |
| رموز نصية مخصّصة | 98%+ | مُولَّدة من النظام، يُتوقّع امتثال عالٍ |
استخدم كشف الضوضاء على حقول النص الحرّ
شغّل كشف الضوضاء على الحقول التي يكتب فيها المستخدمون نصًا حرًّا: Company وDescription والحقول النصية المخصّصة وأي حقل تملأه نماذج الويب. Noise Rate يكشف المشكلات التي يفوّتها التحقّق من التنسيق.
وثّق التنسيقات المتوقّعة
أنشئ قاموس بيانات يحدّد التنسيق المتوقّع لكل حقل، والتباينات المقبولة، وأمثلة على القيم الصحيحة وغير الصحيحة. شاركه مع فريقك وارجع إليه أثناء مشاريع تنظيف البيانات.
الخطوات التالية
أنت تفهم الآن كيفية التحقّق من تنسيقات البيانات واكتشاف القيم المشحونة بالضوضاء. واصل التعلّم عن البُعد التالي:
- التالي: التفرّد — اكتشف السجلات المكررة وامنعها
- السابق: الاكتمال — تأكّد من وجود البيانات المطلوبة
- ذو صلة: الأبعاد الخمسة — نظرة عامة على جميع الأبعاد
- إجراء: تقييم الجاهزية للذكاء الاصطناعي — اطّلع على درجات صحتك الحالية