PII-identifiering | DQS Resources

Vad är PII-identifiering?

PII-identifiering söker igenom textfält efter personuppgifter med hjälp av konfigurerbara regex-mönster. Det svarar på tre frågor om dina Salesforce-data:

Innehåller mina data PII som behöver skydd?
Hur exponerad är min datamängd?
Vilka fält innehåller känslig information?

DQS kartlägger typen och tätheten av PII-exponering för varje textfält. Det använder mönsterbaserad identifiering: regex-mönster matchas mot fältvärden för att flagga personnummer, kreditkort, e-postadresser, telefonnummer och andra identifierare.

Tre egenskaper definierar hur identifiering fungerar:

Deterministisk. Samma indata ger samma resultat varje gång.
Transparent. Du ser varje mönster DQS tillämpar. Ingen svart-låda-poängsättning.
På plattformen. Identifiering körs helt inom Salesforce. Inga data lämnar din organisation.

Varför det är viktigt

Efterlevnad. GDPR, CCPA, HIPAA och PCI DSS kräver alla identifiering och skydd av PII. Du kan inte skydda det du inte har hittat. Automatiserad identifiering ger dig en inventering av exponering för varje textfält i omfång.

AI-beredskap. Innan du matar data till Agentforce eller något AI-system behöver du veta vilka fält som innehåller PII. Oupptäckt PII i träningsdata eller hämtningsindex skapar exponering som inget nedströms filter fullt ut kan förhindra.

Datastyrning. Textfält ackumulerar PII med tiden. Handläggare klistrar in e-posttrådar i ärendekommentarer. Kunder anger personnummer för verifiering. Integrationer skriver kontaktuppgifter i beskrivningsfält. Utan identifiering sitter detta PII oskyddat.

Hur DQS identifierar PII

DQS kör PII-identifiering som en progressiv diagnostik. Varje steg bygger på det föregående.

Steg 1: Finns det ett PII-problem?

Poster med PII ger det absoluta antalet poster där minst ett mönster matchade. Det här är planeringstalet.

Till exempel: du söker igenom Case-kommentarer med standardförvalet. Poster med PII returnerar 847. Det innebär att 847 ärendeposter behöver granskning innan du säkert kan använda data för AI-träning eller dela dem med analyser från tredje part.

Steg 2: Hur allvarligt är det?

PII Exposure Rate ger procentandelen genomsökta poster som innehåller mönstermatchningar. Graden sätter antalet i sammanhang.

847 poster av 1 000 är 84,7 % exponering, ett systemiskt problem som kräver en processändring. 847 av 500 000 är 0,17 %, isolerade incidenter som du kan åtgärda med riktad rensning.

Steg 3: Vilken typ av PII?

Mönsterkonfigurationen i sig berättar vilka typer som genomsöktes. Varje mönster har en kategori: Finansiell, Kontakt, Teknisk eller Identitet. Genom att granska vilka mönster som utlöste träffar vet du om du hanterar kreditkortsläckor, e-postadressexponering eller personnummerförorening.

De 8 identifieringsmönstren

DQS levereras med 8 fördefinierade regex-mönster organiserade i 4 kategorier.

Finansiella

Mönster	Vad det matchar	Risk för falskt positivt
Personnummer	US SSN i NNN-NN-NNNN-format	Låg. Det bindestreckade formatet är distinkt.
Kreditkortsnummer	13–16 siffrors sekvenser med valfria blanksteg/bindestreck	Medium. Långa nummersekvenser (ordernummer, spårnings-ID) kan ge falskt positivt.
IBAN	Internationella bankkontonummer (ISO 13616-format)	Låg. Landskods- + kontrollsiffresprefixet är distinkt.

Kontakt

Mönster	Vad det matchar	Risk för falskt positivt
E-postadress	Standardformat [email protected]	Låg. @-symbolstrukturen är distinkt.
US-telefonnummer	US/kanadensiska format: (NNN) NNN-NNNN, NNN-NNN-NNNN, +1-varianter	Medium. 10-siffernummer med separatorer kan matcha icke-telefon-data.
Internationellt telefonnummer	E.164-format nummer som börjar med + landsnummer	Låg. +-prefixet är en stark signal.

Tekniska

Mönster	Vad det matchar	Risk för falskt positivt
IP-adress	IPv4 punktdecimal (NNN.NNN.NNN.NNN)	Låg-Medium. Programversionsnummer är den viktigaste källan till falskt positivt.

Identitet

Mönster	Vad det matchar	Risk för falskt positivt
Födelsedatum	US-datumformat MM/DD/ÅÅÅÅ eller MM-DD-ÅÅÅÅ	Hög. Matchar valfritt US-formaterat datum. Bäst kombinerat med fältnivåriktning.

DQS använder bara regex-baserad mönstermatchning. Identifiering är formatbaserad, inte kontextuell. Det finns ingen kontrollsummavalidering (Luhn för kreditkort, modulo-97 för IBAN), ingen nyckelordsproximitetsboosting och ingen ML-baserad konfidenspoängsättning. Varje matchning är binär: mönstret matchade eller matchade inte. Det gör identifiering fullständigt granskningsbar och deterministisk, men du behöver granska träffar för fält med hög risk för falskt positivt.

Regulatorisk täckning

Alla 8 mönster är grundade i stora integritets- och säkerhetsramverk.

Mönster	NIST 800-122	GDPR	CCPA	PCI DSS	HIPAA	ISO 27701
SSN	X	X	X		X	X
Kreditkort	X	X	X	X		X
E-post	X	X	X		X	X
US-telefon		X	X		X	X
Intl. telefon		X	X		X	X
IP-adress		X	X		X	X
IBAN		X				X
Födelsedatum	X	X	X		X	X

Det är samma typer av identifierare som identifieras som inbyggda mönster av Google Cloud DLP, AWS Macie och Microsoft Purview. Skillnaden: DLP-molnverktyg använder flerlageridentifiering (regex + kontrollsumma + nyckelordsproximitet + ML). DQS använder regex-baserad matchning, vilket är enklare och fullt transparent men ger inte konfidenspoängsättning.

Tre identifieringsförvalsinställningar

Förvalsinställningar konfigurerar vilka mönster som är aktiva med ett enda klick.

Förval	Mönster	Antal	När man ska använda
Standard	SSN, Kreditkort, E-post, US-telefon	4	Allmän PII-revision. Täcker de fyra vanligaste typerna med hanterbara falskt positivt-grader. Det här är standard.
Kritisk	SSN, Kreditkort	2	Finansiell efterlevnadskontroll. Minsta genomsökning för identitetsstöld och betalkortsexponering. Använd när du behöver snabba resultat med nästan noll falskt positivt.
Utökad	Alla 8 mönster	8	Fullständig genomsökning. Inkluderar IBAN, IP-adress, Födelsedatum och Internationellt telefon. Högre falskt positivt-grad i utbyte mot maximal täckning. Bäst för första revidioner och efterlevnadsbedömningar.

Du kan också lägga till anpassade regex-mönster utöver de 8 fördefinierade. Anpassade mönster valideras serversidan innan de kan sparas. Valfritt giltigt regex fungerar.

Mätvärdesreferens

Grundläggande mätvärden

Mätvärde	Typ	Vad det returnerar
Poster med PII	Antal (heltal)	Antal poster där minst ett mönster matchade. En post räknas en gång oavsett hur många mönster matchade eller hur många träffar som finns inom den.

Avancerade mätvärden

Mätvärde	Typ	Vad det returnerar
PII Exposure Rate	Procentandel	Procentandelen genomsökta poster som innehåller PII-träffar. Det här är det centrala exponeringstalet för rapporter och instrumentpaneler.

Fälttypstäckning

Mätvärde	String	TextArea	Email	Phone	EncryptedString	LongTextArea	Html
Poster med PII	X	X	X	X	X
PII Exposure Rate		X				X	X

Poster med PII kastar ett brett nät över alla textfälttyper. PII Exposure Rate fokuserar på längre textfält där PII-täthet är meningsfull. Ett 255-tecken String-fält som matchar ett e-postregex är en enskild datapunkt. En 32 000-tecken LongTextArea med 15 SSN-träffar berättar en annan historia.

Två analyslägen

DQS kör PII-identifiering i två lägen.

PII-genomsökning bearbetar alla valda fält med de konfigurerade mönstren och returnerar Poster med PII. Det här läget svarar på: “Har jag ett PII-problem?” Använd det för snabba revisioner innan datamigrationer eller AI-projekt.

PII-identifieringsanalys lägger till PII Exposure Rate ovanpå Poster med PII. Exponeringsgraden sätter råantalet i sammanhang och förvandlar “847 poster innehåller PII” till “12,3 % av din datamängd är exponerad.” Använd det här läget för efterlevnadsrapportering och löpande styrning.

Konfigurera PII-identifiering

Indata	Vad den styr
Identifieringsmönster	Vilka av de 8 fördefinierade mönstren som är aktiva. Välj ett förval eller växla enskilda mönster.
Anpassade mönster	Valfritt giltigt regex-mönster, validerat serversidan. Läggs till utöver fördefinierade mönster.
Per-fält-åsidosättningar	Olika mönsteruppsättningar för olika fält. Åsidosätt den globala konfigurationen fält för fält.

Välja mönster per fälttyp

Olika fält behöver olika mönsteruppsättningar. Ett E-post-fält innehåller redan e-postadresser per design. Att söka igenom det med e-postmönster ger 100 % träffar, vilket är förväntat och inte ett problem. Ett Case-Beskrivningsfält är fritext där vilken typ av PII som helst kan förekomma. Konfigurera mönster baserat på vad du förväntar dig att hitta kontra vad som signalerar ett problem.

Exempel på konfigurationer:

E-postfält: Söka igenom bara för SSN och kreditkort (e-postträffar förväntas)
Beskrivnings- och anteckningsfält: Använd Standard- eller Utökat förval (fritext kan innehålla vad som helst)
Korta textfält (Ämne, Titel): Använd bara Kritiskt förval (låg tolerans för falskt positivt)

Vanliga problem

Problem	Orsak	Åtgärd
100 % PII-träffgrad för e-postfält	E-postmönstret matchar fältets avsedda innehåll	Ta bort e-postmönstret från fältets åsidosättning, eller exkludera fältet från PII-genomsökning
Högt falskt positivt för Födelsedatum	DOB-mönstret matchar valfritt US-formaterat datum (mötesdatum, deadlines)	Använd fältnivååsidosättningar för att tillämpa DOB-mönstret bara på fält där födelsedatum är en känd risk
Inga träffar hittades trots känd PII	SSN-regex matchar bara bindestreckformat (NNN-NN-NNNN), inte 9 konsekutiva siffror	Lägg till ett anpassat mönster för det specifika formatet i dina data. Exempel: `\b\d{9}\b` för oformaterade personnummer (hög risk för falskt positivt)

Bästa praxis

Börja med Standardförvalet för fritext-fält. Kör en inledande genomsökning för att förstå din basnivå innan du utvidgar till Utökat.
Använd fältnivååsidosättningar för att finjustera identifiering per fält. Globala mönster kastar ett brett nät. Per-fält-åsidosättningar eliminerar brus.
Sök igenom ostrukturerade textfält först. Beskrivnings-, Kommentar- och Anteckningsfält är där PII ackumuleras via kopiera-klistra och e-post-till-ärende. Strukturerade fält (E-post, Telefon) innehåller PII per design.
Granska träffar för mönster med hög FP-risk (DOB) innan du behandlar dem som bekräftad PII. Dessa mönster ger fler falskt positivt än SSN eller E-post.
Para Poster med PII (absolut antal) med PII Exposure Rate (procentandel) för en fullständig bild. Antalet avgränsar din rensningsinsats. Graden berättar om det är ett systemiskt problem eller isolerade incidenter.

Nästa steg

Agentforce-förberedelse: Fullständig checklista för driftsättning
Agentforce-förberedelse: Fullständig guide för driftsättningsberedskap