Skip to main content

PII-identifiering

De 8 PII-identifieringsmönster DQS använder, tre förvalsinst­ällningar för vanliga genomsökningsscenarier och hur man konfigurerar mönsterbaserad identifiering.

Vad är PII-identifiering?

PII-identifiering söker igenom textfält efter personuppgifter med hjälp av konfigurerbara regex-mönster. Det svarar på tre frågor om dina Salesforce-data:

  • Innehåller mina data PII som behöver skydd?
  • Hur exponerad är min datamängd?
  • Vilka fält innehåller känslig information?

DQS kartlägger typen och tätheten av PII-exponering för varje textfält. Det använder mönsterbaserad identifiering: regex-mönster matchas mot fältvärden för att flagga personnummer, kreditkort, e-postadresser, telefonnummer och andra identifierare.

Tre egenskaper definierar hur identifiering fungerar:

  1. Deterministisk. Samma indata ger samma resultat varje gång.
  2. Transparent. Du ser varje mönster DQS tillämpar. Ingen svart-låda-poängsättning.
  3. På plattformen. Identifiering körs helt inom Salesforce. Inga data lämnar din organisation.

Varför det är viktigt

Efterlevnad. GDPR, CCPA, HIPAA och PCI DSS kräver alla identifiering och skydd av PII. Du kan inte skydda det du inte har hittat. Automatiserad identifiering ger dig en inventering av exponering för varje textfält i omfång.

AI-beredskap. Innan du matar data till Agentforce eller något AI-system behöver du veta vilka fält som innehåller PII. Oupptäckt PII i träningsdata eller hämtningsindex skapar exponering som inget nedströms filter fullt ut kan förhindra.

Datastyrning. Textfält ackumulerar PII med tiden. Handläggare klistrar in e-post­trådar i ärendekommentarer. Kunder anger personnummer för verifiering. Integrationer skriver kontaktuppgifter i beskrivningsfält. Utan identifiering sitter detta PII oskyddat.

Hur DQS identifierar PII

DQS kör PII-identifiering som en progressiv diagnostik. Varje steg bygger på det föregående.

Steg 1: Finns det ett PII-problem?

Poster med PII ger det absoluta antalet poster där minst ett mönster matchade. Det här är planeringstalet.

Till exempel: du söker igenom Case-kommentarer med standardförvalet. Poster med PII returnerar 847. Det innebär att 847 ärendeposter behöver granskning innan du säkert kan använda data för AI-träning eller dela dem med analyser från tredje part.

Steg 2: Hur allvarligt är det?

PII Exposure Rate ger procentandelen genomsökta poster som innehåller mönstermatchningar. Graden sätter antalet i sammanhang.

847 poster av 1 000 är 84,7 % exponering, ett systemiskt problem som kräver en processändring. 847 av 500 000 är 0,17 %, isolerade incidenter som du kan åtgärda med riktad rensning.

Steg 3: Vilken typ av PII?

Mönsterkonfigurationen i sig berättar vilka typer som genomsöktes. Varje mönster har en kategori: Finansiell, Kontakt, Teknisk eller Identitet. Genom att granska vilka mönster som utlöste träffar vet du om du hanterar kreditkorts­läckor, e-post­adressexponering eller personnummerförorening.

De 8 identifieringsmönstren

DQS levereras med 8 fördefinierade regex-mönster organiserade i 4 kategorier.

Finansiella

MönsterVad det matcharRisk för falskt positivt
PersonnummerUS SSN i NNN-NN-NNNN-formatLåg. Det bindestreckade formatet är distinkt.
Kreditkortsnummer13–16 siffrors sekvenser med valfria blanksteg/bindestreckMedium. Långa nummersekvenser (ordernummer, spårnings-ID) kan ge falskt positivt.
IBANInternationella bankkontonummer (ISO 13616-format)Låg. Landskods- + kontrollsiffres­prefixet är distinkt.

Kontakt

MönsterVad det matcharRisk för falskt positivt
E-postadressStandardformat [email protected]Låg. @-symbolstrukturen är distinkt.
US-telefonnummerUS/kanadensiska format: (NNN) NNN-NNNN, NNN-NNN-NNNN, +1-varianterMedium. 10-siffernummer med separatorer kan matcha icke-telefon-data.
Internationellt telefonnummerE.164-format nummer som börjar med + landsnummerLåg. +-prefixet är en stark signal.

Tekniska

MönsterVad det matcharRisk för falskt positivt
IP-adressIPv4 punktdecimal (NNN.NNN.NNN.NNN)Låg-Medium. Programversions­nummer är den viktigaste källan till falskt positivt.

Identitet

MönsterVad det matcharRisk för falskt positivt
FödelsedatumUS-datumformat MM/DD/ÅÅÅÅ eller MM-DD-ÅÅÅÅHög. Matchar valfritt US-formaterat datum. Bäst kombinerat med fältnivåriktn­ing.

DQS använder bara regex-baserad mönstermatchning. Identifiering är formatbaserad, inte kontextuell. Det finns ingen kontrollsummavalidering (Luhn för kreditkort, modulo-97 för IBAN), ingen nyckelordsproximitetsboosting och ingen ML-baserad konfidenspoängsättning. Varje matchning är binär: mönstret matchade eller matchade inte. Det gör identifiering fullständigt granskningsbar och deterministisk, men du behöver granska träffar för fält med hög risk för falskt positivt.

Regulatorisk täckning

Alla 8 mönster är grundade i stora integritets- och säkerhetsramverk.

MönsterNIST 800-122GDPRCCPAPCI DSSHIPAAISO 27701
SSNXXXXX
KreditkortXXXXX
E-postXXXXX
US-telefonXXXX
Intl. telefonXXXX
IP-adressXXXX
IBANXX
FödelsedatumXXXXX

Det är samma typer av identifierare som identifieras som inbyggda mönster av Google Cloud DLP, AWS Macie och Microsoft Purview. Skillnaden: DLP-molnverktyg använder flerlageridentifiering (regex + kontrollsumma + nyckelordsproximitet + ML). DQS använder regex-baserad matchning, vilket är enklare och fullt transparent men ger inte konfidenspoängsättning.

Tre identifieringsförvalsinstäl­lningar

Förvalsinst­ällningar konfigurerar vilka mönster som är aktiva med ett enda klick.

FörvalMönsterAntalNär man ska använda
StandardSSN, Kreditkort, E-post, US-telefon4Allmän PII-revision. Täcker de fyra vanligaste typerna med hanterbara falskt positivt-grader. Det här är standard.
KritiskSSN, Kreditkort2Finansiell efterlevnadskontroll. Minsta genomsökning för identitetsstöld och betalkortsexponering. Använd när du behöver snabba resultat med nästan noll falskt positivt.
UtökadAlla 8 mönster8Fullständig genomsökning. Inkluderar IBAN, IP-adress, Födelsedatum och Internationellt telefon. Högre falskt positivt-grad i utbyte mot maximal täckning. Bäst för första revidioner och efterlevnadsbedömningar.

Du kan också lägga till anpassade regex-mönster utöver de 8 fördefinierade. Anpassade mönster valideras serversidan innan de kan sparas. Valfritt giltigt regex fungerar.

Mätvärdesreferens

Grundläggande mätvärden

MätvärdeTypVad det returnerar
Poster med PIIAntal (heltal)Antal poster där minst ett mönster matchade. En post räknas en gång oavsett hur många mönster matchade eller hur många träffar som finns inom den.

Avancerade mätvärden

MätvärdeTypVad det returnerar
PII Exposure RateProcentandelProcentandelen genomsökta poster som innehåller PII-träffar. Det här är det centrala exponeringstalet för rapporter och instrumentpaneler.

Fälttypstäckning

MätvärdeStringTextAreaEmailPhoneEncryptedStringLongTextAreaHtml
Poster med PIIXXXXX
PII Exposure RateXXX

Poster med PII kastar ett brett nät över alla textfälttyper. PII Exposure Rate fokuserar på längre textfält där PII-täthet är meningsfull. Ett 255-tecken String-fält som matchar ett e-postregex är en enskild datapunkt. En 32 000-tecken LongTextArea med 15 SSN-träffar berättar en annan historia.

Två analyslägen

DQS kör PII-identifiering i två lägen.

PII-genomsökning bearbetar alla valda fält med de konfigurerade mönstren och returnerar Poster med PII. Det här läget svarar på: “Har jag ett PII-problem?” Använd det för snabba revisioner innan datamigrationer eller AI-projekt.

PII-identifieringsanalys lägger till PII Exposure Rate ovanpå Poster med PII. Exponeringsgraden sätter råantalet i sammanhang och förvandlar “847 poster innehåller PII” till “12,3 % av din datamängd är exponerad.” Använd det här läget för efterlevnadsrapportering och löpande styrning.

Konfigurera PII-identifiering

IndataVad den styr
IdentifieringsmönsterVilka av de 8 fördefinierade mönstren som är aktiva. Välj ett förval eller växla enskilda mönster.
Anpassade mönsterValfritt giltigt regex-mönster, validerat serversidan. Läggs till utöver fördefinierade mönster.
Per-fält-åsidosättningarOlika mönsteruppsättningar för olika fält. Åsidosätt den globala konfigurationen fält för fält.

Välja mönster per fälttyp

Olika fält behöver olika mönsteruppsättningar. Ett E-post-fält innehåller redan e-postadresser per design. Att söka igenom det med e-postmönster ger 100 % träffar, vilket är förväntat och inte ett problem. Ett Case-Beskrivningsfält är fritext där vilken typ av PII som helst kan förekomma. Konfigurera mönster baserat på vad du förväntar dig att hitta kontra vad som signalerar ett problem.

Exempel på konfigurationer:

  • E-postfält: Söka igenom bara för SSN och kreditkort (e-postträffar förväntas)
  • Beskrivnings- och anteckningsfält: Använd Standard- eller Utökat förval (fritext kan innehålla vad som helst)
  • Korta textfält (Ämne, Titel): Använd bara Kritiskt förval (låg tolerans för falskt positivt)

Vanliga problem

ProblemOrsakÅtgärd
100 % PII-träffgrad för e-postfältE-postmönstret matchar fältets avsedda innehållTa bort e-postmönstret från fältets åsidosättning, eller exkludera fältet från PII-genomsökning
Högt falskt positivt för FödelsedatumDOB-mönstret matchar valfritt US-formaterat datum (mötesdatum, deadlines)Använd fältnivå­åsidosättningar för att tillämpa DOB-mönstret bara på fält där födelsedatum är en känd risk
Inga träffar hittades trots känd PIISSN-regex matchar bara bindestreck­format (NNN-NN-NNNN), inte 9 konsekutiva siffrorLägg till ett anpassat mönster för det specifika formatet i dina data. Exempel: \b\d{9}\b för oformaterade personnummer (hög risk för falskt positivt)

Bästa praxis

  1. Börja med Standardförvalet för fritext-fält. Kör en inledande genomsökning för att förstå din basnivå innan du utvidgar till Utökat.

  2. Använd fältnivå­åsidosättningar för att finjustera identifiering per fält. Globala mönster kastar ett brett nät. Per-fält-åsidosättningar eliminerar brus.

  3. Sök igenom ostrukturerade textfält först. Beskrivnings-, Kommentar- och Anteckningsfält är där PII ackumuleras via kopiera-klistra och e-post-till-ärende. Strukturerade fält (E-post, Telefon) innehåller PII per design.

  4. Granska träffar för mönster med hög FP-risk (DOB) innan du behandlar dem som bekräftad PII. Dessa mönster ger fler falskt positivt än SSN eller E-post.

  5. Para Poster med PII (absolut antal) med PII Exposure Rate (procentandel) för en fullständig bild. Antalet avgränsar din rensningsinsats. Graden berättar om det är ett systemiskt problem eller isolerade incidenter.

Nästa steg