PII Detection क्या है?
PII Detection configurable regex patterns का उपयोग करके personally identifiable information के लिए text fields को scan करता है। यह आपके Salesforce data के बारे में तीन प्रश्नों का उत्तर देता है:
- क्या मेरे डेटा में PII है जिसे protection की जरूरत है?
- मेरा dataset कितना exposed है?
- कौन से fields sensitive information रखते हैं?
DQS प्रत्येक text field में PII exposure के type और density को profile करता है। यह pattern-based detection उपयोग करता है: regex patterns field values के विरुद्ध match होते हैं SSNs, credit cards, emails, phone numbers, और अन्य identifiers flag करने के लिए।
तीन properties define करती हैं कि detection कैसे काम करता है:
- Deterministic. Same input हर बार same result produce करता है।
- Transparent. आप हर pattern देखते हैं जो DQS apply करता है। कोई black-box scoring नहीं।
- On-platform. Detection पूरी तरह Salesforce के भीतर चलता है। आपके org से कोई डेटा नहीं जाता।
यह क्यों महत्वपूर्ण है
Compliance. GDPR, CCPA, HIPAA, और PCI DSS सभी PII identify और protect करना mandate करते हैं। आप जो नहीं पाया है उसे protect नहीं कर सकते। Automated detection scope में हर text field में exposure की inventory देता है।
AI readiness. Agentforce या किसी AI system को डेटा feed करने से पहले, आपको जानना होगा कि कौन से fields PII contain करते हैं। Training data या retrieval indexes में undetected PII ऐसा exposure बनाती है जिसे कोई downstream filter पूरी तरह prevent नहीं कर सकता।
Data governance. Text fields समय के साथ PII accumulate करते हैं। Agents email threads को case comments में paste करते हैं। Customers verification के लिए SSNs provide करते हैं। Integrations description fields में contact details लिखते हैं। Detection के बिना, यह PII unprotected रहती है।
DQS PII कैसे Detect करता है
DQS PII detection को एक progressive diagnostic के रूप में चलाता है।
चरण 1: क्या PII की समस्या है?
Records with PII उन records की absolute count देता है जहाँ कम से कम एक pattern match हुआ। यह scoping number है।
उदाहरण के लिए: आप Standard preset का उपयोग करके Case comments scan करते हैं। Records with PII 847 आता है। इसका मतलब है 847 case records को review करने की जरूरत है AI training या third-party analytics के साथ safely share करने से पहले।
चरण 2: यह कितना बुरा है?
PII Exposure Rate scanned records का वह प्रतिशत देता है जिनमें pattern matches हैं। Rate count को context देती है।
1,000 में से 847 records 84.7% exposure है — एक systemic problem जिसके लिए process change की जरूरत है। 500,000 में से 847 0.17% है — isolated incidents जिन्हें targeted cleanup से address किया जा सकता है।
चरण 3: किस प्रकार की PII?
Pattern configuration खुद बताता है कि कौन से types scan किए गए। प्रत्येक pattern की एक category है: Financial, Contact, Technical, या Identity। यह review करके कि कौन से patterns ने matches trigger किए, आप जानते हैं कि आप credit card leaks, email address exposure, या SSN contamination से deal कर रहे हैं।
8 Detection Patterns
DQS 4 categories में organized 8 predefined regex patterns के साथ ship होता है।
Financial
| Pattern | यह क्या Match करता है | False Positive Risk |
|---|---|---|
| Social Security Number | US SSN NNN-NN-NNNN format में | कम। Hyphenated format distinctive है। |
| Credit Card Number | Optional spaces/hyphens के साथ 13-16 digit sequences | Medium। लंबे numeric sequences (order numbers, tracking IDs) false-match कर सकते हैं। |
| IBAN | International bank account numbers (ISO 13616 format) | कम। Country code + check digit prefix distinctive है। |
Contact
| Pattern | यह क्या Match करता है | False Positive Risk |
|---|---|---|
| Email Address | Standard [email protected] format | कम। @ symbol structure distinctive है। |
| US Phone Number | US/Canadian formats: (NNN) NNN-NNNN, NNN-NNN-NNNN, +1 variants | Medium। Separators के साथ 10-digit numbers non-phone data match कर सकते हैं। |
| International Phone | + country code से शुरू E.164-style numbers | कम। + prefix एक strong signal है। |
Technical
| Pattern | यह क्या Match करता है | False Positive Risk |
|---|---|---|
| IP Address | IPv4 dotted decimal (NNN.NNN.NNN.NNN) | Low-Medium। Software version numbers मुख्य false-positive source हैं। |
Identity
| Pattern | यह क्या Match करता है | False Positive Risk |
|---|---|---|
| Date of Birth | US date format MM/DD/YYYY या MM-DD-YYYY | उच्च। कोई भी US-formatted date match करती है। |
DQS केवल regex-only pattern matching उपयोग करता है। Detection format-based है, contextual नहीं। इसका अर्थ है detection fully auditable और deterministic है, लेकिन आपको high false-positive risk वाले fields पर matches review करने की जरूरत है।
Regulatory Coverage
सभी 8 patterns major privacy और security frameworks में grounded हैं।
| Pattern | NIST 800-122 | GDPR | CCPA | PCI DSS | HIPAA | ISO 27701 |
|---|---|---|---|---|---|---|
| SSN | X | X | X | X | X | |
| Credit Card | X | X | X | X | X | |
| X | X | X | X | X | ||
| US Phone | X | X | X | X | ||
| Intl Phone | X | X | X | X | ||
| IP Address | X | X | X | X | ||
| IBAN | X | X | ||||
| Date of Birth | X | X | X | X | X |
तीन Detection Presets
Presets एक single click में configure करती हैं कि कौन से patterns active हैं।
| Preset | Patterns | Count | कब उपयोग करें |
|---|---|---|---|
| Standard | SSN, Credit Card, Email, US Phone | 4 | General PII audit। सबसे common चार types को manageable false-positive rates के साथ cover करता है। यह default है। |
| Critical | SSN, Credit Card | 2 | Financial compliance check। Identity theft और payment card exposure के लिए minimum scan। |
| Extended | सभी 8 patterns | 8 | Full scan। Higher false-positive rate exchange में maximum coverage। First-time audits और compliance assessments के लिए best। |
आप 8 predefined के परे custom regex patterns भी add कर सकते हैं। Custom patterns server-side validate होते हैं save होने से पहले।
Metric Reference
Foundation Metrics
| Metric | Type | यह क्या Return करता है |
|---|---|---|
| Records with PII | Count (integer) | उन records की संख्या जहाँ कम से कम एक pattern match हुआ। एक record एक बार count होता है चाहे कितने भी patterns match हुए हों। |
Advanced Metrics
| Metric | Type | यह क्या Return करता है |
|---|---|---|
| PII Exposure Rate | प्रतिशत | PII matches वाले scanned records का प्रतिशत। Reports और dashboards के लिए headline exposure number। |
Field Type Coverage
| Metric | String | TextArea | Phone | EncryptedString | LongTextArea | Html | |
|---|---|---|---|---|---|---|---|
| Records with PII | X | X | X | X | X | ||
| PII Exposure Rate | X | X | X |
Records with PII सभी text field types में wide net cast करता है। PII Exposure Rate उन longer text fields पर focus करता है जहाँ PII density meaningful है।
दो Analysis Modes
PII Scan configured patterns का उपयोग करके selected fields process करता है और Records with PII return करता है। यह mode उत्तर देता है: “क्या मेरे पास PII की समस्या है?”
PII Detection Analysis Records with PII के ऊपर PII Exposure Rate add करता है। Exposure rate raw count को context देती है। Compliance reporting और ongoing governance के लिए इस mode का उपयोग करें।
PII Detection Configure करना
| Input | यह क्या नियंत्रित करता है |
|---|---|
| Detection Patterns | 8 predefined patterns में से कौन से active हैं। एक preset pick करें या individual patterns toggle करें। |
| Custom Patterns | कोई भी valid regex pattern, server-side validated। Predefined patterns के साथ add होते हैं। |
| Per-Field Overrides | Different fields के लिए different pattern sets। Field-by-field basis पर global configuration override करें। |
Field Type द्वारा Patterns चुनना
Different fields को different pattern sets की जरूरत है। Email field पहले से design द्वारा email addresses contain करती है। उसे email patterns के लिए scan करने पर 100% matches मिलती हैं, जो expected है, समस्या नहीं।
उदाहरण configurations:
- Email fields: केवल SSN और Credit Card scan करें (email matches expected हैं)
- Description और Notes fields: Standard या Extended preset उपयोग करें (free text में कुछ भी हो सकता है)
- Short text fields (Subject, Title): केवल Critical preset (false positives के लिए low tolerance)
सामान्य समस्याएँ
| समस्या | कारण | Fix |
|---|---|---|
| Email field पर 100% PII match rate | Email pattern field के intended content से match करता है | उस field के override से email pattern remove करें, या field को PII scanning से exclude करें |
| Date of Birth पर high false positives | DOB pattern किसी भी US-formatted date से match करता है | Field-level overrides का उपयोग करें DOB pattern केवल उन fields पर apply करने के लिए जहाँ birth dates एक known risk हैं |
| Known PII होने के बावजूद कोई match नहीं | SSN regex केवल hyphenated format (NNN-NN-NNNN) match करता है, 9 consecutive digits नहीं | अपने data में specific format के लिए custom pattern add करें |
Best Practices
-
Free-text fields पर Standard preset से शुरू करें। Extended में expand करने से पहले अपना baseline समझने के लिए initial scan चलाएँ।
-
Field-level overrides का उपयोग करें प्रति field detection tune करने के लिए। Global patterns wide net cast करते हैं। Per-field overrides noise eliminate करते हैं।
-
पहले unstructured text fields scan करें। Description, Comments, और Notes fields वे हैं जहाँ copy-paste और email-to-case के माध्यम से PII accumulate होती है।
-
High-FP patterns (DOB) पर matches review करें confirmed PII मानने से पहले। ये patterns SSN या Email से अधिक false positives produce करते हैं।
-
Complete picture के लिए Records with PII (absolute count) को PII Exposure Rate (percentage) के साथ pair करें। Count आपके cleanup effort को scope करता है। Rate बताती है कि यह systemic problem है या isolated incidents।
अगले कदम
- Agentforce Preparation: Complete deployment readiness guide