ما هو PII Detection؟
PII Detection يفحص الحقول النصية بحثًا عن معلومات التعريف الشخصية باستخدام أنماط regex قابلة للإعداد. يجيب عن ثلاثة أسئلة حول بيانات Salesforce لديك:
- هل تحتوي بياناتي على PII تحتاج إلى حماية؟
- ما مدى انكشاف مجموعة بياناتي؟
- أي الحقول تحمل معلومات حساسة؟
يُنشئ DQS ملفًّا لنوع وكثافة انكشاف PII عبر كل حقل نصي. يستخدم الكشف القائم على الأنماط: تتطابق أنماط regex مع قيم الحقول لوضع علامات على SSNs وبطاقات الائتمان وعناوين البريد الإلكتروني وأرقام الهواتف والمعرّفات الأخرى.
ثلاث خصائص تعرّف كيف يعمل الكشف:
- حتمي. نفس المدخل ينتج نفس النتيجة في كل مرة.
- شفّاف. ترى كل نمط يطبّقه DQS. لا توجد درجات box أسود.
- على المنصة. يعمل الكشف بالكامل داخل Salesforce. لا تغادر البيانات مؤسستك.
لماذا يهمّ
الامتثال. GDPR و CCPA و HIPAA و PCI DSS كلها تُلزم بتحديد وحماية PII. لا يمكنك حماية ما لم تعثر عليه. الكشف الآلي يعطيك جردًا للانكشاف عبر كل حقل نصي في النطاق.
الجاهزية للذكاء الاصطناعي. قبل تغذية البيانات لـ Agentforce أو أي نظام ذكاء اصطناعي، تحتاج إلى معرفة الحقول التي تحتوي على PII. PII غير المُكتشَف في بيانات التدريب أو فهارس الاسترجاع يخلق انكشافًا لا يستطيع أي مُرشّح لاحق منعه بالكامل.
حوكمة البيانات. تتراكم PII في الحقول النصية بمرور الوقت. يُلصق العملاء سلاسل البريد الإلكتروني في تعليقات Case. يُقدّم العملاء SSNs للتحقّق. تكتب التكاملات تفاصيل الاتصال في حقول الوصف. بدون كشف، تجلس هذه PII بلا حماية.
كيف يكتشف DQS PII
يُشغّل DQS كشف PII كتشخيص تدريجي. كل خطوة تبني على التي قبلها.
الخطوة 1: هل هناك مشكلة PII؟
Records with PII يُعطي العدد المطلق للسجلات التي تطابق فيها نمط واحد على الأقل. هذا هو رقم تحديد النطاق.
على سبيل المثال: تفحص تعليقات Case باستخدام Standard preset. Records with PII يعود بـ 847. هذا يعني أن 847 سجل case يحتاج إلى مراجعة قبل أن تتمكّن من استخدام البيانات بأمان لتدريب الذكاء الاصطناعي أو مشاركتها مع تحليلات جهات خارجية.
الخطوة 2: كم هو سيء؟
PII Exposure Rate يُعطي نسبة السجلات المفحوصة التي تحتوي على تطابقات أنماط. المعدّل يضع العدّ في السياق.
847 سجلًا من أصل 1000 هو انكشاف بنسبة 84,7%، مشكلة منهجية تتطلّب تغييرًا في العملية. 847 من أصل 500000 هو 0,17%، حوادث معزولة يمكنك معالجتها بتنظيف موجّه.
الخطوة 3: أي نوع من PII؟
إعداد النمط نفسه يخبرك بأنواع ما تم فحصه. كل نمط له فئة: Financial أو Contact أو Technical أو Identity. بمراجعة الأنماط التي فعّلت التطابقات، تعرف ما إذا كنت تتعامل مع تسرّبات بطاقات ائتمان أو انكشاف عناوين بريد إلكتروني أو تلوّث SSN.
أنماط الكشف الثمانية
يأتي DQS بـ 8 أنماط regex محدّدة مسبقًا منظّمة في 4 فئات.
Financial
| النمط | ما يطابقه | خطر الإيجابيات الكاذبة |
|---|---|---|
| Social Security Number | SSN الأمريكي بتنسيق NNN-NN-NNNN | منخفض. التنسيق ذو الشرطات مميّز. |
| Credit Card Number | تسلسلات مكوّنة من 13–16 رقمًا مع مسافات/شرطات اختيارية | متوسّط. التسلسلات الرقمية الطويلة (أرقام الطلبات، معرّفات التتبّع) يمكن أن تُطابق زورًا. |
| IBAN | أرقام حسابات مصرفية دولية (تنسيق ISO 13616) | منخفض. بادئة رمز الدولة + رقم التحقّق مميّزة. |
Contact
| النمط | ما يطابقه | خطر الإيجابيات الكاذبة |
|---|---|---|
| Email Address | تنسيق [email protected] القياسي | منخفض. بنية رمز @ مميّزة. |
| US Phone Number | تنسيقات US/كندا: (NNN) NNN-NNNN, NNN-NNN-NNNN, +1 variants | متوسّط. الأرقام من 10 أرقام مع فواصل يمكن أن تتطابق مع بيانات غير هاتفية. |
| International Phone | أرقام بأسلوب E.164 تبدأ بـ + رمز الدولة | منخفض. بادئة + إشارة قوية. |
Technical
| النمط | ما يطابقه | خطر الإيجابيات الكاذبة |
|---|---|---|
| IP Address | IPv4 بالعلامة العشرية النقطية (NNN.NNN.NNN.NNN) | منخفض–متوسّط. أرقام إصدارات البرامج هي المصدر الرئيسي للإيجابيات الكاذبة. |
Identity
| النمط | ما يطابقه | خطر الإيجابيات الكاذبة |
|---|---|---|
| Date of Birth | تنسيق التاريخ الأمريكي MM/DD/YYYY أو MM-DD-YYYY | عالٍ. يطابق أي تاريخ بتنسيق أمريكي. يُستخدم بشكل أفضل مع استهداف على مستوى الحقل. |
يستخدم DQS مطابقة الأنماط بـ regex فقط. الكشف قائم على التنسيق، لا على السياق. لا يوجد تحقّق checksum (Luhn لبطاقات الائتمان، modulo-97 لـ IBAN)، ولا تعزيز قرب الكلمات المفتاحية، ولا درجات ثقة قائمة على ML. كل تطابق ثنائي: إما أن النمط تطابق أو لم يتطابق. هذا يجعل الكشف قابلًا للتدقيق وحتميًا بالكامل، لكنك تحتاج إلى مراجعة التطابقات على الحقول ذات خطر الإيجابيات الكاذبة العالي.
التغطية التنظيمية
جميع الأنماط الثمانية مُرتكزة على أطر خصوصية وأمن رئيسية.
| النمط | NIST 800-122 | GDPR | CCPA | PCI DSS | HIPAA | ISO 27701 |
|---|---|---|---|---|---|---|
| SSN | X | X | X | X | X | |
| Credit Card | X | X | X | X | X | |
| X | X | X | X | X | ||
| US Phone | X | X | X | X | ||
| Intl Phone | X | X | X | X | ||
| IP Address | X | X | X | X | ||
| IBAN | X | X | ||||
| Date of Birth | X | X | X | X | X |
هذه هي أنواع المعرّفات نفسها التي تُكتشف كأنماط مدمجة في Google Cloud DLP و AWS Macie و Microsoft Purview. الفرق: تستخدم أدوات DLP السحابية كشفًا متعدّد الطبقات (regex + checksum + قرب الكلمات المفتاحية + ML). يستخدم DQS مطابقة regex فقط، وهي أبسط وشفّافة تمامًا لكنها لا توفّر درجات ثقة.
ثلاث إعدادات مسبقة للكشف
تُعدّ Presets الأنماط النشطة بنقرة واحدة.
| Preset | الأنماط | العدد | متى تُستخدم |
|---|---|---|---|
| Standard | SSN, Credit Card, Email, US Phone | 4 | تدقيق PII عام. يغطّي الأنواع الأربعة الأكثر شيوعًا بمعدلات إيجابيات كاذبة قابلة للإدارة. هذا هو الافتراضي. |
| Critical | SSN, Credit Card | 2 | فحص امتثال مالي. الحد الأدنى من الفحص لسرقة الهوية وانكشاف بطاقات الدفع. استخدم عندما تحتاج إلى نتائج سريعة بإيجابيات كاذبة قريبة من الصفر. |
| Extended | جميع الأنماط الثمانية | 8 | فحص كامل. يشمل IBAN و IP Address و Date of Birth و International Phone. معدّل إيجابيات كاذبة أعلى مقابل أقصى تغطية. الأفضل لتدقيقات المرة الأولى وتقييمات الامتثال. |
يمكنك أيضًا إضافة أنماط regex مخصّصة تتجاوز الـ 8 المحدّدة مسبقًا. يتم التحقّق من الأنماط المخصّصة من جانب الخادم قبل أن يتمكّن حفظها. أي regex صحيح يعمل.
مرجع المقاييس
المقاييس الأساسية
| المقياس | النوع | ما يُرجعه |
|---|---|---|
| Records with PII | عدد (integer) | عدد السجلات التي تطابق فيها نمط واحد على الأقل. يُحسب السجل مرة واحدة بغضّ النظر عن عدد الأنماط التي تطابقت أو عدد التطابقات داخله. |
المقاييس المتقدّمة
| المقياس | النوع | ما يُرجعه |
|---|---|---|
| PII Exposure Rate | نسبة | نسبة السجلات المفحوصة التي تحتوي على تطابقات PII. هذا هو رقم الانكشاف الرئيسي للتقارير ولوحات المعلومات. |
تغطية أنواع الحقول
| المقياس | String | TextArea | Phone | EncryptedString | LongTextArea | Html | |
|---|---|---|---|---|---|---|---|
| Records with PII | X | X | X | X | X | ||
| PII Exposure Rate | X | X | X |
Records with PII يلقي شبكة واسعة عبر جميع أنواع الحقول النصية. PII Exposure Rate يركّز على الحقول النصية الأطول حيث تكون كثافة PII ذات معنى. حقل String بـ 255 حرفًا يطابق regex بريد إلكتروني هو نقطة بيانات واحدة. حقل LongTextArea بـ 32000 حرف مع 15 تطابق SSN يروي قصة مختلفة.
وضعَا التحليل
يُشغّل DQS كشف PII في وضعَين.
PII Scan يعالج جميع الحقول المختارة باستخدام الأنماط المُعدّة ويُرجع Records with PII. يجيب هذا الوضع: «هل لديّ مشكلة PII؟». استخدمه لتدقيقات سريعة قبل هجرات البيانات أو مشاريع الذكاء الاصطناعي.
PII Detection Analysis يُضيف PII Exposure Rate فوق Records with PII. يعطي معدّل الانكشاف سياقًا للعدّ الخام، محوّلًا «847 سجلًا يحتوي على PII» إلى «12,3% من مجموعة بياناتك منكشفة». استخدم هذا الوضع لتقارير الامتثال والحوكمة المستمرة.
إعداد PII Detection
| الإدخال | ما يتحكّم فيه |
|---|---|
| Detection Patterns | أي من الأنماط الثمانية المحدّدة مسبقًا نشطة. اختر preset أو بدّل الأنماط الفردية. |
| Custom Patterns | أي نمط regex صحيح، مُتحقَّق منه من جانب الخادم. يُضاف بجانب الأنماط المحدّدة مسبقًا. |
| Per-Field Overrides | مجموعات أنماط مختلفة لحقول مختلفة. تجاوز الإعداد العالمي حقلًا بحقل. |
اختيار الأنماط حسب نوع الحقل
تحتاج الحقول المختلفة إلى مجموعات أنماط مختلفة. حقل Email يحتوي بالفعل على عناوين بريد إلكتروني بحكم التصميم. فحصه بأنماط البريد الإلكتروني ينتج تطابقات 100%، وهو أمر متوقّع، لا مشكلة. حقل Case Description هو نص حرّ يمكن أن يظهر فيه أي نوع من PII. أعدّ الأنماط بناءً على ما تتوقّع أن تجده مقابل ما يشير إلى مشكلة.
أمثلة إعدادات:
- حقول Email: افحص SSN و Credit Card فقط (تطابقات البريد الإلكتروني متوقّعة)
- حقول Description و Notes: استخدم Standard أو Extended preset (النص الحرّ يمكن أن يحتوي على أي شيء)
- الحقول النصية القصيرة (Subject, Title): استخدم Critical preset فقط (تحمّل منخفض للإيجابيات الكاذبة)
المشكلات الشائعة
| المشكلة | السبب | الحل |
|---|---|---|
| معدّل تطابق PII 100% على حقل Email | نمط Email يطابق محتوى الحقل المقصود | أزل نمط البريد الإلكتروني من تجاوز ذلك الحقل، أو استبعد الحقل من فحص PII |
| إيجابيات كاذبة عالية على Date of Birth | نمط DOB يطابق أي تاريخ بتنسيق أمريكي (تواريخ اجتماعات، مواعيد نهائية) | استخدم تجاوزات مستوى الحقل لتطبيق نمط DOB فقط على الحقول التي تكون فيها تواريخ الميلاد خطرًا معروفًا |
| لم يتم العثور على تطابقات رغم وجود PII معروفة | regex SSN يطابق فقط التنسيق ذا الشرطات (NNN-NN-NNNN)، لا 9 أرقام متتالية | أضف نمطًا مخصّصًا للتنسيق المحدّد في بياناتك. مثال: \b\d{9}\b لـ SSNs غير المُنسَّقة (خطر إيجابيات كاذبة عالٍ) |
أفضل الممارسات
-
ابدأ بـ Standard preset على حقول النص الحرّ. شغّل فحصًا أوّليًا لفهم خطّ الأساس قبل التوسّع إلى Extended.
-
استخدم تجاوزات مستوى الحقل لضبط الكشف لكل حقل. الأنماط العالمية تلقي شبكة واسعة. تجاوزات الحقل تقضي على الضوضاء.
-
افحص الحقول النصية غير المهيكلة أولًا. حقول Description و Comments و Notes هي حيث تتراكم PII عبر النسخ واللصق و email-to-case. تحتوي الحقول المهيكلة (Email, Phone) على PII بحكم التصميم.
-
راجع التطابقات على الأنماط ذات الإيجابيات الكاذبة العالية (DOB/تاريخ الميلاد) قبل معاملتها كـ PII مؤكّدة. تنتج هذه الأنماط إيجابيات كاذبة أكثر من SSN أو Email.
-
ادمج Records with PII (عدد مطلق) مع PII Exposure Rate (نسبة) للحصول على صورة كاملة. العدّ يحدّد نطاق جهد التنظيف. المعدّل يخبرك ما إذا كانت مشكلة منهجية أم حوادث معزولة.
الخطوات التالية
- التحضير لـ Agentforce: قائمة تحقّق نشر كاملة
- التحضير لـ Agentforce: دليل جاهزية نشر كامل