PII Detection | DQS Resources

O que é PII Detection?

PII Detection varre campos de texto em busca de informações pessoalmente identificáveis usando padrões regex configuráveis. Responde a três perguntas sobre seus dados do Salesforce:

Meus dados contêm PII que precisa de proteção?
Quão exposto está meu dataset?
Quais campos guardam informação sensível?

O DQS perfila o tipo e a densidade da exposição a PII em todo campo de texto. Usa detecção baseada em padrões: regex faz match contra os valores dos campos para sinalizar SSNs, cartões de crédito, e-mails, números de telefone e outros identificadores.

Três propriedades definem como a detecção funciona:

Determinística. A mesma entrada produz o mesmo resultado sempre.
Transparente. Você vê cada padrão que o DQS aplica. Sem caixa-preta.
On-platform. A detecção roda inteiramente dentro do Salesforce. Nenhum dado sai da sua org.

Por que importa

Compliance. GDPR, CCPA, HIPAA e PCI DSS exigem identificar e proteger PII. Você não protege o que não encontrou. A detecção automatizada dá um inventário da exposição em cada campo de texto no escopo.

Prontidão para IA. Antes de alimentar o Agentforce ou qualquer sistema de IA, você precisa saber quais campos contêm PII. PII não detectado em dados de treinamento ou índices de retrieval cria exposição que nenhum filtro downstream pode evitar totalmente.

Governança de dados. Campos de texto acumulam PII com o tempo. Agentes colam threads de e-mail em comentários de caso. Clientes fornecem SSNs para verificação. Integrações escrevem detalhes de contato em campos de descrição. Sem detecção, esse PII fica desprotegido.

Como o DQS detecta PII

O DQS roda PII Detection como um diagnóstico progressivo. Cada passo se apoia no anterior.

Passo 1: Existe um problema de PII?

Records with PII dá a contagem absoluta de registros em que pelo menos um padrão deu match. Esse é o número de escopo.

Por exemplo: você escaneia comentários de Case usando o preset Standard. Records with PII volta em 847. Isso significa que 847 registros de caso precisam de revisão antes de você poder usar os dados com segurança para treinamento de IA ou compartilhar com analytics de terceiros.

Passo 2: Quão grave é?

PII Exposure Rate dá o percentual de registros escaneados contendo correspondências de padrão. A taxa contextualiza a contagem.

847 registros em 1.000 é 84,7% de exposição, um problema sistêmico que exige mudança de processo. 847 em 500.000 é 0,17%, incidentes isolados tratáveis com limpeza direcionada.

Passo 3: Que tipo de PII?

A própria configuração de padrões diz quais tipos foram escaneados. Cada padrão tem uma categoria: Financial, Contact, Technical ou Identity. Revisando quais padrões dispararam, você sabe se está lidando com vazamentos de cartão, exposição de e-mails ou contaminação por SSN.

Os 8 padrões de detecção

O DQS vem com 8 padrões regex pré-definidos organizados em 4 categorias.

Financial

Padrão	O que captura	Risco de falso positivo
Social Security Number	SSN dos EUA no formato NNN-NN-NNNN	Baixo. O formato com hifens é distintivo.
Credit Card Number	Sequências de 13 a 16 dígitos, com espaços/hifens opcionais	Médio. Sequências numéricas longas (números de pedido, IDs de rastreio) podem casar por engano.
IBAN	Números de conta internacionais (formato ISO 13616)	Baixo. O prefixo código de país + dígitos de check é distintivo.

Contact

Padrão	O que captura	Risco de falso positivo
Email Address	Formato padrão [email protected]	Baixo. A estrutura com @ é distintiva.
US Phone Number	Formatos EUA/Canadá: (NNN) NNN-NNNN, NNN-NNN-NNNN, variantes +1	Médio. Números de 10 dígitos com separadores podem casar com dados não telefônicos.
International Phone	Números estilo E.164 começando com + código do país	Baixo. O prefixo + é um sinal forte.

Technical

Padrão	O que captura	Risco de falso positivo
IP Address	IPv4 decimal com pontos (NNN.NNN.NNN.NNN)	Baixo-Médio. Números de versão de software são a principal fonte de falso positivo.

Identity

Padrão	O que captura	Risco de falso positivo
Date of Birth	Data formato EUA MM/DD/YYYY ou MM-DD-YYYY	Alto. Casa com qualquer data em formato EUA. Melhor usado com direcionamento no nível do campo.

O DQS usa correspondência apenas por regex. A detecção é baseada em formato, não contextual. Não há validação por checksum (Luhn para cartão, módulo-97 para IBAN), não há boost por proximidade de palavras-chave e não há pontuação de confiança via ML. Todo match é binário: o padrão casou ou não. Isso torna a detecção totalmente auditável e determinística, mas você precisa revisar matches em campos com alto risco de falso positivo.

Cobertura regulatória

Todos os 8 padrões são baseados em frameworks importantes de privacidade e segurança.

Padrão	NIST 800-122	GDPR	CCPA	PCI DSS	HIPAA	ISO 27701
SSN	X	X	X		X	X
Credit Card	X	X	X	X		X
Email	X	X	X		X	X
US Phone		X	X		X	X
Intl Phone		X	X		X	X
IP Address		X	X		X	X
IBAN		X				X
Date of Birth	X	X	X		X	X

Esses são os mesmos tipos de identificador detectados como padrões embutidos por Google Cloud DLP, AWS Macie e Microsoft Purview. A diferença: ferramentas de DLP em cloud usam detecção em camadas (regex + checksum + proximidade de palavras-chave + ML). O DQS usa apenas regex, o que é mais simples e totalmente transparente, mas não fornece pontuação de confiança.

Três presets de detecção

Presets configuram quais padrões ficam ativos em um clique.

Preset	Padrões	Qtd	Quando usar
Standard	SSN, Credit Card, Email, US Phone	4	Auditoria geral de PII. Cobre os quatro tipos mais comuns com taxas de falso positivo gerenciáveis. Padrão.
Critical	SSN, Credit Card	2	Checagem de compliance financeiro. Scan mínimo para exposição a roubo de identidade e cartão. Use quando precisa de resultado rápido com falso positivo quase zero.
Extended	Todos os 8 padrões	8	Scan completo. Inclui IBAN, IP Address, Date of Birth e International Phone. Maior taxa de falso positivo em troca de cobertura máxima. Melhor para auditorias iniciais e avaliações de compliance.

Você também pode adicionar padrões regex customizados além dos 8 pré-definidos. Padrões custom são validados no servidor antes de serem salvos. Qualquer regex válido funciona.

Referência de métricas

Métricas de base

Métrica	Tipo	O que retorna
Records with PII	Contagem (inteiro)	Número de registros em que pelo menos um padrão deu match. Um registro é contado uma vez independentemente de quantos padrões casaram ou de quantos matches existem dentro dele.

Métricas avançadas

Métrica	Tipo	O que retorna
PII Exposure Rate	Percentual	Percentual de registros escaneados contendo matches de PII. É o número principal de exposição para relatórios e dashboards.

Cobertura de tipos de campo

Métrica	String	TextArea	Email	Phone	EncryptedString	LongTextArea	Html
Records with PII	X	X	X	X	X
PII Exposure Rate		X				X	X

Records with PII lança uma rede ampla por todos os tipos de campos de texto. PII Exposure Rate foca em campos de texto mais longos, onde a densidade de PII é significativa. Um campo String de 255 caracteres casando com regex de e-mail é um ponto único. Um LongTextArea de 32.000 caracteres com 15 matches de SSN conta outra história.

Dois modos de análise

O DQS roda PII Detection em dois modos.

PII Scan processa todos os campos selecionados usando os padrões configurados e retorna Records with PII. Esse modo responde: “Tenho um problema de PII?” Use para auditorias rápidas antes de migrações ou projetos de IA.

PII Detection Analysis adiciona PII Exposure Rate além de Records with PII. A taxa de exposição contextualiza a contagem bruta, transformando “847 registros contêm PII” em “12,3% do seu dataset está exposto”. Use para reporting de compliance e governança contínua.

Configurando PII Detection

Entrada	O que controla
Detection Patterns	Quais dos 8 padrões pré-definidos ficam ativos. Escolha um preset ou alterne padrões individualmente.
Custom Patterns	Qualquer regex válido, validado no servidor. Adicionado junto aos padrões pré-definidos.
Per-Field Overrides	Conjuntos diferentes de padrões para campos diferentes. Sobrescreva a configuração global por campo.

Escolhendo padrões por tipo de campo

Campos diferentes precisam de conjuntos de padrões diferentes. Um campo Email já contém e-mails por design. Varrer esse campo com padrão de e-mail gera 100% de matches, o que é esperado, não um problema. Um Case Description é texto livre em que qualquer tipo de PII pode aparecer. Configure padrões com base no que você espera encontrar versus o que sinaliza problema.

Exemplos de configuração:

Campos Email: Escaneie apenas SSN e Credit Card (matches de e-mail são esperados)
Campos Description e Notes: Use preset Standard ou Extended (texto livre pode conter qualquer coisa)
Campos de texto curtos (Subject, Title): Use apenas preset Critical (baixa tolerância a falsos positivos)

Problemas comuns

Problema	Causa	Correção
100% de match de PII em um campo Email	O padrão de e-mail casa com o conteúdo esperado do campo	Remova o padrão de e-mail do override desse campo ou exclua o campo da varredura
Muitos falsos positivos em Date of Birth	O padrão de DOB casa com qualquer data formato EUA (datas de reunião, prazos)	Use sobrescritas por campo para aplicar o padrão de DOB apenas em campos em que datas de nascimento são um risco conhecido
Nenhum match apesar de PII conhecido	O regex de SSN só casa no formato com hifens (NNN-NN-NNNN), não em 9 dígitos consecutivos	Adicione um padrão custom para o formato específico dos seus dados. Exemplo: `\b\d{9}\b` para SSNs sem formato (alto risco de falso positivo)

Melhores práticas

Comece com o preset Standard em campos de texto livre. Rode um scan inicial para entender sua baseline antes de expandir para Extended.
Use sobrescritas por campo para ajustar a detecção. Padrões globais lançam uma rede ampla. Overrides por campo eliminam ruído.
Escaneie primeiro os campos de texto não estruturados. Description, Comments e Notes são onde PII se acumula via copia-cola e email-to-case. Campos estruturados (Email, Phone) contêm PII por design.
Revise matches em padrões de alto FP (DOB) antes de tratá-los como PII confirmado. Esses padrões produzem mais falsos positivos que SSN ou Email.
Combine Records with PII (contagem absoluta) com PII Exposure Rate (percentual) para o quadro completo. A contagem dimensiona o esforço de limpeza. A taxa diz se é problema sistêmico ou incidentes isolados.

Próximos passos

Preparação para Agentforce: Checklist completo de deployment
Preparação para Agentforce: Guia completo de prontidão para deployment