Skip to main content

PII Detection

أنماط كشف PII الثمانية التي يستخدمها DQS، ثلاث إعدادات مسبقة لسيناريوهات الفحص الشائعة، وكيفية إعداد الكشف القائم على الأنماط.

ما هو PII Detection؟

PII Detection يفحص الحقول النصية بحثًا عن معلومات التعريف الشخصية باستخدام أنماط regex قابلة للإعداد. يجيب عن ثلاثة أسئلة حول بيانات Salesforce لديك:

  • هل تحتوي بياناتي على PII تحتاج إلى حماية؟
  • ما مدى انكشاف مجموعة بياناتي؟
  • أي الحقول تحمل معلومات حساسة؟

يُنشئ DQS ملفًّا لنوع وكثافة انكشاف PII عبر كل حقل نصي. يستخدم الكشف القائم على الأنماط: تتطابق أنماط regex مع قيم الحقول لوضع علامات على SSNs وبطاقات الائتمان وعناوين البريد الإلكتروني وأرقام الهواتف والمعرّفات الأخرى.

ثلاث خصائص تعرّف كيف يعمل الكشف:

  1. حتمي. نفس المدخل ينتج نفس النتيجة في كل مرة.
  2. شفّاف. ترى كل نمط يطبّقه DQS. لا توجد درجات box أسود.
  3. على المنصة. يعمل الكشف بالكامل داخل Salesforce. لا تغادر البيانات مؤسستك.

لماذا يهمّ

الامتثال. GDPR و CCPA و HIPAA و PCI DSS كلها تُلزم بتحديد وحماية PII. لا يمكنك حماية ما لم تعثر عليه. الكشف الآلي يعطيك جردًا للانكشاف عبر كل حقل نصي في النطاق.

الجاهزية للذكاء الاصطناعي. قبل تغذية البيانات لـ Agentforce أو أي نظام ذكاء اصطناعي، تحتاج إلى معرفة الحقول التي تحتوي على PII. PII غير المُكتشَف في بيانات التدريب أو فهارس الاسترجاع يخلق انكشافًا لا يستطيع أي مُرشّح لاحق منعه بالكامل.

حوكمة البيانات. تتراكم PII في الحقول النصية بمرور الوقت. يُلصق العملاء سلاسل البريد الإلكتروني في تعليقات Case. يُقدّم العملاء SSNs للتحقّق. تكتب التكاملات تفاصيل الاتصال في حقول الوصف. بدون كشف، تجلس هذه PII بلا حماية.

كيف يكتشف DQS PII

يُشغّل DQS كشف PII كتشخيص تدريجي. كل خطوة تبني على التي قبلها.

الخطوة 1: هل هناك مشكلة PII؟

Records with PII يُعطي العدد المطلق للسجلات التي تطابق فيها نمط واحد على الأقل. هذا هو رقم تحديد النطاق.

على سبيل المثال: تفحص تعليقات Case باستخدام Standard preset. Records with PII يعود بـ 847. هذا يعني أن 847 سجل case يحتاج إلى مراجعة قبل أن تتمكّن من استخدام البيانات بأمان لتدريب الذكاء الاصطناعي أو مشاركتها مع تحليلات جهات خارجية.

الخطوة 2: كم هو سيء؟

PII Exposure Rate يُعطي نسبة السجلات المفحوصة التي تحتوي على تطابقات أنماط. المعدّل يضع العدّ في السياق.

847 سجلًا من أصل 1000 هو انكشاف بنسبة 84,7%، مشكلة منهجية تتطلّب تغييرًا في العملية. 847 من أصل 500000 هو 0,17%، حوادث معزولة يمكنك معالجتها بتنظيف موجّه.

الخطوة 3: أي نوع من PII؟

إعداد النمط نفسه يخبرك بأنواع ما تم فحصه. كل نمط له فئة: Financial أو Contact أو Technical أو Identity. بمراجعة الأنماط التي فعّلت التطابقات، تعرف ما إذا كنت تتعامل مع تسرّبات بطاقات ائتمان أو انكشاف عناوين بريد إلكتروني أو تلوّث SSN.

أنماط الكشف الثمانية

يأتي DQS بـ 8 أنماط regex محدّدة مسبقًا منظّمة في 4 فئات.

Financial

النمطما يطابقهخطر الإيجابيات الكاذبة
Social Security NumberSSN الأمريكي بتنسيق NNN-NN-NNNNمنخفض. التنسيق ذو الشرطات مميّز.
Credit Card Numberتسلسلات مكوّنة من 13–16 رقمًا مع مسافات/شرطات اختياريةمتوسّط. التسلسلات الرقمية الطويلة (أرقام الطلبات، معرّفات التتبّع) يمكن أن تُطابق زورًا.
IBANأرقام حسابات مصرفية دولية (تنسيق ISO 13616)منخفض. بادئة رمز الدولة + رقم التحقّق مميّزة.

Contact

النمطما يطابقهخطر الإيجابيات الكاذبة
Email Addressتنسيق [email protected] القياسيمنخفض. بنية رمز @ مميّزة.
US Phone Numberتنسيقات US/كندا: (NNN) NNN-NNNN, NNN-NNN-NNNN, +1 variantsمتوسّط. الأرقام من 10 أرقام مع فواصل يمكن أن تتطابق مع بيانات غير هاتفية.
International Phoneأرقام بأسلوب E.164 تبدأ بـ + رمز الدولةمنخفض. بادئة + إشارة قوية.

Technical

النمطما يطابقهخطر الإيجابيات الكاذبة
IP AddressIPv4 بالعلامة العشرية النقطية (NNN.NNN.NNN.NNN)منخفض–متوسّط. أرقام إصدارات البرامج هي المصدر الرئيسي للإيجابيات الكاذبة.

Identity

النمطما يطابقهخطر الإيجابيات الكاذبة
Date of Birthتنسيق التاريخ الأمريكي MM/DD/YYYY أو MM-DD-YYYYعالٍ. يطابق أي تاريخ بتنسيق أمريكي. يُستخدم بشكل أفضل مع استهداف على مستوى الحقل.

يستخدم DQS مطابقة الأنماط بـ regex فقط. الكشف قائم على التنسيق، لا على السياق. لا يوجد تحقّق checksum (Luhn لبطاقات الائتمان، modulo-97 لـ IBAN)، ولا تعزيز قرب الكلمات المفتاحية، ولا درجات ثقة قائمة على ML. كل تطابق ثنائي: إما أن النمط تطابق أو لم يتطابق. هذا يجعل الكشف قابلًا للتدقيق وحتميًا بالكامل، لكنك تحتاج إلى مراجعة التطابقات على الحقول ذات خطر الإيجابيات الكاذبة العالي.

التغطية التنظيمية

جميع الأنماط الثمانية مُرتكزة على أطر خصوصية وأمن رئيسية.

النمطNIST 800-122GDPRCCPAPCI DSSHIPAAISO 27701
SSNXXXXX
Credit CardXXXXX
EmailXXXXX
US PhoneXXXX
Intl PhoneXXXX
IP AddressXXXX
IBANXX
Date of BirthXXXXX

هذه هي أنواع المعرّفات نفسها التي تُكتشف كأنماط مدمجة في Google Cloud DLP و AWS Macie و Microsoft Purview. الفرق: تستخدم أدوات DLP السحابية كشفًا متعدّد الطبقات (regex + checksum + قرب الكلمات المفتاحية + ML). يستخدم DQS مطابقة regex فقط، وهي أبسط وشفّافة تمامًا لكنها لا توفّر درجات ثقة.

ثلاث إعدادات مسبقة للكشف

تُعدّ Presets الأنماط النشطة بنقرة واحدة.

Presetالأنماطالعددمتى تُستخدم
StandardSSN, Credit Card, Email, US Phone4تدقيق PII عام. يغطّي الأنواع الأربعة الأكثر شيوعًا بمعدلات إيجابيات كاذبة قابلة للإدارة. هذا هو الافتراضي.
CriticalSSN, Credit Card2فحص امتثال مالي. الحد الأدنى من الفحص لسرقة الهوية وانكشاف بطاقات الدفع. استخدم عندما تحتاج إلى نتائج سريعة بإيجابيات كاذبة قريبة من الصفر.
Extendedجميع الأنماط الثمانية8فحص كامل. يشمل IBAN و IP Address و Date of Birth و International Phone. معدّل إيجابيات كاذبة أعلى مقابل أقصى تغطية. الأفضل لتدقيقات المرة الأولى وتقييمات الامتثال.

يمكنك أيضًا إضافة أنماط regex مخصّصة تتجاوز الـ 8 المحدّدة مسبقًا. يتم التحقّق من الأنماط المخصّصة من جانب الخادم قبل أن يتمكّن حفظها. أي regex صحيح يعمل.

مرجع المقاييس

المقاييس الأساسية

المقياسالنوعما يُرجعه
Records with PIIعدد (integer)عدد السجلات التي تطابق فيها نمط واحد على الأقل. يُحسب السجل مرة واحدة بغضّ النظر عن عدد الأنماط التي تطابقت أو عدد التطابقات داخله.

المقاييس المتقدّمة

المقياسالنوعما يُرجعه
PII Exposure Rateنسبةنسبة السجلات المفحوصة التي تحتوي على تطابقات PII. هذا هو رقم الانكشاف الرئيسي للتقارير ولوحات المعلومات.

تغطية أنواع الحقول

المقياسStringTextAreaEmailPhoneEncryptedStringLongTextAreaHtml
Records with PIIXXXXX
PII Exposure RateXXX

Records with PII يلقي شبكة واسعة عبر جميع أنواع الحقول النصية. PII Exposure Rate يركّز على الحقول النصية الأطول حيث تكون كثافة PII ذات معنى. حقل String بـ 255 حرفًا يطابق regex بريد إلكتروني هو نقطة بيانات واحدة. حقل LongTextArea بـ 32000 حرف مع 15 تطابق SSN يروي قصة مختلفة.

وضعَا التحليل

يُشغّل DQS كشف PII في وضعَين.

PII Scan يعالج جميع الحقول المختارة باستخدام الأنماط المُعدّة ويُرجع Records with PII. يجيب هذا الوضع: «هل لديّ مشكلة PII؟». استخدمه لتدقيقات سريعة قبل هجرات البيانات أو مشاريع الذكاء الاصطناعي.

PII Detection Analysis يُضيف PII Exposure Rate فوق Records with PII. يعطي معدّل الانكشاف سياقًا للعدّ الخام، محوّلًا «847 سجلًا يحتوي على PII» إلى «12,3% من مجموعة بياناتك منكشفة». استخدم هذا الوضع لتقارير الامتثال والحوكمة المستمرة.

إعداد PII Detection

الإدخالما يتحكّم فيه
Detection Patternsأي من الأنماط الثمانية المحدّدة مسبقًا نشطة. اختر preset أو بدّل الأنماط الفردية.
Custom Patternsأي نمط regex صحيح، مُتحقَّق منه من جانب الخادم. يُضاف بجانب الأنماط المحدّدة مسبقًا.
Per-Field Overridesمجموعات أنماط مختلفة لحقول مختلفة. تجاوز الإعداد العالمي حقلًا بحقل.

اختيار الأنماط حسب نوع الحقل

تحتاج الحقول المختلفة إلى مجموعات أنماط مختلفة. حقل Email يحتوي بالفعل على عناوين بريد إلكتروني بحكم التصميم. فحصه بأنماط البريد الإلكتروني ينتج تطابقات 100%، وهو أمر متوقّع، لا مشكلة. حقل Case Description هو نص حرّ يمكن أن يظهر فيه أي نوع من PII. أعدّ الأنماط بناءً على ما تتوقّع أن تجده مقابل ما يشير إلى مشكلة.

أمثلة إعدادات:

  • حقول Email: افحص SSN و Credit Card فقط (تطابقات البريد الإلكتروني متوقّعة)
  • حقول Description و Notes: استخدم Standard أو Extended preset (النص الحرّ يمكن أن يحتوي على أي شيء)
  • الحقول النصية القصيرة (Subject, Title): استخدم Critical preset فقط (تحمّل منخفض للإيجابيات الكاذبة)

المشكلات الشائعة

المشكلةالسببالحل
معدّل تطابق PII 100% على حقل Emailنمط Email يطابق محتوى الحقل المقصودأزل نمط البريد الإلكتروني من تجاوز ذلك الحقل، أو استبعد الحقل من فحص PII
إيجابيات كاذبة عالية على Date of Birthنمط DOB يطابق أي تاريخ بتنسيق أمريكي (تواريخ اجتماعات، مواعيد نهائية)استخدم تجاوزات مستوى الحقل لتطبيق نمط DOB فقط على الحقول التي تكون فيها تواريخ الميلاد خطرًا معروفًا
لم يتم العثور على تطابقات رغم وجود PII معروفةregex SSN يطابق فقط التنسيق ذا الشرطات (NNN-NN-NNNN)، لا 9 أرقام متتاليةأضف نمطًا مخصّصًا للتنسيق المحدّد في بياناتك. مثال: \b\d{9}\b لـ SSNs غير المُنسَّقة (خطر إيجابيات كاذبة عالٍ)

أفضل الممارسات

  1. ابدأ بـ Standard preset على حقول النص الحرّ. شغّل فحصًا أوّليًا لفهم خطّ الأساس قبل التوسّع إلى Extended.

  2. استخدم تجاوزات مستوى الحقل لضبط الكشف لكل حقل. الأنماط العالمية تلقي شبكة واسعة. تجاوزات الحقل تقضي على الضوضاء.

  3. افحص الحقول النصية غير المهيكلة أولًا. حقول Description و Comments و Notes هي حيث تتراكم PII عبر النسخ واللصق و email-to-case. تحتوي الحقول المهيكلة (Email, Phone) على PII بحكم التصميم.

  4. راجع التطابقات على الأنماط ذات الإيجابيات الكاذبة العالية (DOB/تاريخ الميلاد) قبل معاملتها كـ PII مؤكّدة. تنتج هذه الأنماط إيجابيات كاذبة أكثر من SSN أو Email.

  5. ادمج Records with PII (عدد مطلق) مع PII Exposure Rate (نسبة) للحصول على صورة كاملة. العدّ يحدّد نطاق جهد التنظيف. المعدّل يخبرك ما إذا كانت مشكلة منهجية أم حوادث معزولة.

الخطوات التالية