Vad är PII-identifiering?
PII-identifiering söker igenom textfält efter personuppgifter med hjälp av konfigurerbara regex-mönster. Det svarar på tre frågor om dina Salesforce-data:
- Innehåller mina data PII som behöver skydd?
- Hur exponerad är min datamängd?
- Vilka fält innehåller känslig information?
DQS kartlägger typen och tätheten av PII-exponering för varje textfält. Det använder mönsterbaserad identifiering: regex-mönster matchas mot fältvärden för att flagga personnummer, kreditkort, e-postadresser, telefonnummer och andra identifierare.
Tre egenskaper definierar hur identifiering fungerar:
- Deterministisk. Samma indata ger samma resultat varje gång.
- Transparent. Du ser varje mönster DQS tillämpar. Ingen svart-låda-poängsättning.
- På plattformen. Identifiering körs helt inom Salesforce. Inga data lämnar din organisation.
Varför det är viktigt
Efterlevnad. GDPR, CCPA, HIPAA och PCI DSS kräver alla identifiering och skydd av PII. Du kan inte skydda det du inte har hittat. Automatiserad identifiering ger dig en inventering av exponering för varje textfält i omfång.
AI-beredskap. Innan du matar data till Agentforce eller något AI-system behöver du veta vilka fält som innehåller PII. Oupptäckt PII i träningsdata eller hämtningsindex skapar exponering som inget nedströms filter fullt ut kan förhindra.
Datastyrning. Textfält ackumulerar PII med tiden. Handläggare klistrar in e-posttrådar i ärendekommentarer. Kunder anger personnummer för verifiering. Integrationer skriver kontaktuppgifter i beskrivningsfält. Utan identifiering sitter detta PII oskyddat.
Hur DQS identifierar PII
DQS kör PII-identifiering som en progressiv diagnostik. Varje steg bygger på det föregående.
Steg 1: Finns det ett PII-problem?
Poster med PII ger det absoluta antalet poster där minst ett mönster matchade. Det här är planeringstalet.
Till exempel: du söker igenom Case-kommentarer med standardförvalet. Poster med PII returnerar 847. Det innebär att 847 ärendeposter behöver granskning innan du säkert kan använda data för AI-träning eller dela dem med analyser från tredje part.
Steg 2: Hur allvarligt är det?
PII Exposure Rate ger procentandelen genomsökta poster som innehåller mönstermatchningar. Graden sätter antalet i sammanhang.
847 poster av 1 000 är 84,7 % exponering, ett systemiskt problem som kräver en processändring. 847 av 500 000 är 0,17 %, isolerade incidenter som du kan åtgärda med riktad rensning.
Steg 3: Vilken typ av PII?
Mönsterkonfigurationen i sig berättar vilka typer som genomsöktes. Varje mönster har en kategori: Finansiell, Kontakt, Teknisk eller Identitet. Genom att granska vilka mönster som utlöste träffar vet du om du hanterar kreditkortsläckor, e-postadressexponering eller personnummerförorening.
De 8 identifieringsmönstren
DQS levereras med 8 fördefinierade regex-mönster organiserade i 4 kategorier.
Finansiella
| Mönster | Vad det matchar | Risk för falskt positivt |
|---|---|---|
| Personnummer | US SSN i NNN-NN-NNNN-format | Låg. Det bindestreckade formatet är distinkt. |
| Kreditkortsnummer | 13–16 siffrors sekvenser med valfria blanksteg/bindestreck | Medium. Långa nummersekvenser (ordernummer, spårnings-ID) kan ge falskt positivt. |
| IBAN | Internationella bankkontonummer (ISO 13616-format) | Låg. Landskods- + kontrollsiffresprefixet är distinkt. |
Kontakt
| Mönster | Vad det matchar | Risk för falskt positivt |
|---|---|---|
| E-postadress | Standardformat [email protected] | Låg. @-symbolstrukturen är distinkt. |
| US-telefonnummer | US/kanadensiska format: (NNN) NNN-NNNN, NNN-NNN-NNNN, +1-varianter | Medium. 10-siffernummer med separatorer kan matcha icke-telefon-data. |
| Internationellt telefonnummer | E.164-format nummer som börjar med + landsnummer | Låg. +-prefixet är en stark signal. |
Tekniska
| Mönster | Vad det matchar | Risk för falskt positivt |
|---|---|---|
| IP-adress | IPv4 punktdecimal (NNN.NNN.NNN.NNN) | Låg-Medium. Programversionsnummer är den viktigaste källan till falskt positivt. |
Identitet
| Mönster | Vad det matchar | Risk för falskt positivt |
|---|---|---|
| Födelsedatum | US-datumformat MM/DD/ÅÅÅÅ eller MM-DD-ÅÅÅÅ | Hög. Matchar valfritt US-formaterat datum. Bäst kombinerat med fältnivåriktning. |
DQS använder bara regex-baserad mönstermatchning. Identifiering är formatbaserad, inte kontextuell. Det finns ingen kontrollsummavalidering (Luhn för kreditkort, modulo-97 för IBAN), ingen nyckelordsproximitetsboosting och ingen ML-baserad konfidenspoängsättning. Varje matchning är binär: mönstret matchade eller matchade inte. Det gör identifiering fullständigt granskningsbar och deterministisk, men du behöver granska träffar för fält med hög risk för falskt positivt.
Regulatorisk täckning
Alla 8 mönster är grundade i stora integritets- och säkerhetsramverk.
| Mönster | NIST 800-122 | GDPR | CCPA | PCI DSS | HIPAA | ISO 27701 |
|---|---|---|---|---|---|---|
| SSN | X | X | X | X | X | |
| Kreditkort | X | X | X | X | X | |
| E-post | X | X | X | X | X | |
| US-telefon | X | X | X | X | ||
| Intl. telefon | X | X | X | X | ||
| IP-adress | X | X | X | X | ||
| IBAN | X | X | ||||
| Födelsedatum | X | X | X | X | X |
Det är samma typer av identifierare som identifieras som inbyggda mönster av Google Cloud DLP, AWS Macie och Microsoft Purview. Skillnaden: DLP-molnverktyg använder flerlageridentifiering (regex + kontrollsumma + nyckelordsproximitet + ML). DQS använder regex-baserad matchning, vilket är enklare och fullt transparent men ger inte konfidenspoängsättning.
Tre identifieringsförvalsinställningar
Förvalsinställningar konfigurerar vilka mönster som är aktiva med ett enda klick.
| Förval | Mönster | Antal | När man ska använda |
|---|---|---|---|
| Standard | SSN, Kreditkort, E-post, US-telefon | 4 | Allmän PII-revision. Täcker de fyra vanligaste typerna med hanterbara falskt positivt-grader. Det här är standard. |
| Kritisk | SSN, Kreditkort | 2 | Finansiell efterlevnadskontroll. Minsta genomsökning för identitetsstöld och betalkortsexponering. Använd när du behöver snabba resultat med nästan noll falskt positivt. |
| Utökad | Alla 8 mönster | 8 | Fullständig genomsökning. Inkluderar IBAN, IP-adress, Födelsedatum och Internationellt telefon. Högre falskt positivt-grad i utbyte mot maximal täckning. Bäst för första revidioner och efterlevnadsbedömningar. |
Du kan också lägga till anpassade regex-mönster utöver de 8 fördefinierade. Anpassade mönster valideras serversidan innan de kan sparas. Valfritt giltigt regex fungerar.
Mätvärdesreferens
Grundläggande mätvärden
| Mätvärde | Typ | Vad det returnerar |
|---|---|---|
| Poster med PII | Antal (heltal) | Antal poster där minst ett mönster matchade. En post räknas en gång oavsett hur många mönster matchade eller hur många träffar som finns inom den. |
Avancerade mätvärden
| Mätvärde | Typ | Vad det returnerar |
|---|---|---|
| PII Exposure Rate | Procentandel | Procentandelen genomsökta poster som innehåller PII-träffar. Det här är det centrala exponeringstalet för rapporter och instrumentpaneler. |
Fälttypstäckning
| Mätvärde | String | TextArea | Phone | EncryptedString | LongTextArea | Html | |
|---|---|---|---|---|---|---|---|
| Poster med PII | X | X | X | X | X | ||
| PII Exposure Rate | X | X | X |
Poster med PII kastar ett brett nät över alla textfälttyper. PII Exposure Rate fokuserar på längre textfält där PII-täthet är meningsfull. Ett 255-tecken String-fält som matchar ett e-postregex är en enskild datapunkt. En 32 000-tecken LongTextArea med 15 SSN-träffar berättar en annan historia.
Två analyslägen
DQS kör PII-identifiering i två lägen.
PII-genomsökning bearbetar alla valda fält med de konfigurerade mönstren och returnerar Poster med PII. Det här läget svarar på: “Har jag ett PII-problem?” Använd det för snabba revisioner innan datamigrationer eller AI-projekt.
PII-identifieringsanalys lägger till PII Exposure Rate ovanpå Poster med PII. Exponeringsgraden sätter råantalet i sammanhang och förvandlar “847 poster innehåller PII” till “12,3 % av din datamängd är exponerad.” Använd det här läget för efterlevnadsrapportering och löpande styrning.
Konfigurera PII-identifiering
| Indata | Vad den styr |
|---|---|
| Identifieringsmönster | Vilka av de 8 fördefinierade mönstren som är aktiva. Välj ett förval eller växla enskilda mönster. |
| Anpassade mönster | Valfritt giltigt regex-mönster, validerat serversidan. Läggs till utöver fördefinierade mönster. |
| Per-fält-åsidosättningar | Olika mönsteruppsättningar för olika fält. Åsidosätt den globala konfigurationen fält för fält. |
Välja mönster per fälttyp
Olika fält behöver olika mönsteruppsättningar. Ett E-post-fält innehåller redan e-postadresser per design. Att söka igenom det med e-postmönster ger 100 % träffar, vilket är förväntat och inte ett problem. Ett Case-Beskrivningsfält är fritext där vilken typ av PII som helst kan förekomma. Konfigurera mönster baserat på vad du förväntar dig att hitta kontra vad som signalerar ett problem.
Exempel på konfigurationer:
- E-postfält: Söka igenom bara för SSN och kreditkort (e-postträffar förväntas)
- Beskrivnings- och anteckningsfält: Använd Standard- eller Utökat förval (fritext kan innehålla vad som helst)
- Korta textfält (Ämne, Titel): Använd bara Kritiskt förval (låg tolerans för falskt positivt)
Vanliga problem
| Problem | Orsak | Åtgärd |
|---|---|---|
| 100 % PII-träffgrad för e-postfält | E-postmönstret matchar fältets avsedda innehåll | Ta bort e-postmönstret från fältets åsidosättning, eller exkludera fältet från PII-genomsökning |
| Högt falskt positivt för Födelsedatum | DOB-mönstret matchar valfritt US-formaterat datum (mötesdatum, deadlines) | Använd fältnivååsidosättningar för att tillämpa DOB-mönstret bara på fält där födelsedatum är en känd risk |
| Inga träffar hittades trots känd PII | SSN-regex matchar bara bindestreckformat (NNN-NN-NNNN), inte 9 konsekutiva siffror | Lägg till ett anpassat mönster för det specifika formatet i dina data. Exempel: \b\d{9}\b för oformaterade personnummer (hög risk för falskt positivt) |
Bästa praxis
-
Börja med Standardförvalet för fritext-fält. Kör en inledande genomsökning för att förstå din basnivå innan du utvidgar till Utökat.
-
Använd fältnivååsidosättningar för att finjustera identifiering per fält. Globala mönster kastar ett brett nät. Per-fält-åsidosättningar eliminerar brus.
-
Sök igenom ostrukturerade textfält först. Beskrivnings-, Kommentar- och Anteckningsfält är där PII ackumuleras via kopiera-klistra och e-post-till-ärende. Strukturerade fält (E-post, Telefon) innehåller PII per design.
-
Granska träffar för mönster med hög FP-risk (DOB) innan du behandlar dem som bekräftad PII. Dessa mönster ger fler falskt positivt än SSN eller E-post.
-
Para Poster med PII (absolut antal) med PII Exposure Rate (procentandel) för en fullständig bild. Antalet avgränsar din rensningsinsats. Graden berättar om det är ett systemiskt problem eller isolerade incidenter.
Nästa steg
- Agentforce-förberedelse: Fullständig checklista för driftsättning
- Agentforce-förberedelse: Fullständig guide för driftsättningsberedskap