O que é PII Detection?
PII Detection varre campos de texto em busca de informações pessoalmente identificáveis usando padrões regex configuráveis. Responde a três perguntas sobre seus dados do Salesforce:
- Meus dados contêm PII que precisa de proteção?
- Quão exposto está meu dataset?
- Quais campos guardam informação sensível?
O DQS perfila o tipo e a densidade da exposição a PII em todo campo de texto. Usa detecção baseada em padrões: regex faz match contra os valores dos campos para sinalizar SSNs, cartões de crédito, e-mails, números de telefone e outros identificadores.
Três propriedades definem como a detecção funciona:
- Determinística. A mesma entrada produz o mesmo resultado sempre.
- Transparente. Você vê cada padrão que o DQS aplica. Sem caixa-preta.
- On-platform. A detecção roda inteiramente dentro do Salesforce. Nenhum dado sai da sua org.
Por que importa
Compliance. GDPR, CCPA, HIPAA e PCI DSS exigem identificar e proteger PII. Você não protege o que não encontrou. A detecção automatizada dá um inventário da exposição em cada campo de texto no escopo.
Prontidão para IA. Antes de alimentar o Agentforce ou qualquer sistema de IA, você precisa saber quais campos contêm PII. PII não detectado em dados de treinamento ou índices de retrieval cria exposição que nenhum filtro downstream pode evitar totalmente.
Governança de dados. Campos de texto acumulam PII com o tempo. Agentes colam threads de e-mail em comentários de caso. Clientes fornecem SSNs para verificação. Integrações escrevem detalhes de contato em campos de descrição. Sem detecção, esse PII fica desprotegido.
Como o DQS detecta PII
O DQS roda PII Detection como um diagnóstico progressivo. Cada passo se apoia no anterior.
Passo 1: Existe um problema de PII?
Records with PII dá a contagem absoluta de registros em que pelo menos um padrão deu match. Esse é o número de escopo.
Por exemplo: você escaneia comentários de Case usando o preset Standard. Records with PII volta em 847. Isso significa que 847 registros de caso precisam de revisão antes de você poder usar os dados com segurança para treinamento de IA ou compartilhar com analytics de terceiros.
Passo 2: Quão grave é?
PII Exposure Rate dá o percentual de registros escaneados contendo correspondências de padrão. A taxa contextualiza a contagem.
847 registros em 1.000 é 84,7% de exposição, um problema sistêmico que exige mudança de processo. 847 em 500.000 é 0,17%, incidentes isolados tratáveis com limpeza direcionada.
Passo 3: Que tipo de PII?
A própria configuração de padrões diz quais tipos foram escaneados. Cada padrão tem uma categoria: Financial, Contact, Technical ou Identity. Revisando quais padrões dispararam, você sabe se está lidando com vazamentos de cartão, exposição de e-mails ou contaminação por SSN.
Os 8 padrões de detecção
O DQS vem com 8 padrões regex pré-definidos organizados em 4 categorias.
Financial
| Padrão | O que captura | Risco de falso positivo |
|---|---|---|
| Social Security Number | SSN dos EUA no formato NNN-NN-NNNN | Baixo. O formato com hifens é distintivo. |
| Credit Card Number | Sequências de 13 a 16 dígitos, com espaços/hifens opcionais | Médio. Sequências numéricas longas (números de pedido, IDs de rastreio) podem casar por engano. |
| IBAN | Números de conta internacionais (formato ISO 13616) | Baixo. O prefixo código de país + dígitos de check é distintivo. |
Contact
| Padrão | O que captura | Risco de falso positivo |
|---|---|---|
| Email Address | Formato padrão [email protected] | Baixo. A estrutura com @ é distintiva. |
| US Phone Number | Formatos EUA/Canadá: (NNN) NNN-NNNN, NNN-NNN-NNNN, variantes +1 | Médio. Números de 10 dígitos com separadores podem casar com dados não telefônicos. |
| International Phone | Números estilo E.164 começando com + código do país | Baixo. O prefixo + é um sinal forte. |
Technical
| Padrão | O que captura | Risco de falso positivo |
|---|---|---|
| IP Address | IPv4 decimal com pontos (NNN.NNN.NNN.NNN) | Baixo-Médio. Números de versão de software são a principal fonte de falso positivo. |
Identity
| Padrão | O que captura | Risco de falso positivo |
|---|---|---|
| Date of Birth | Data formato EUA MM/DD/YYYY ou MM-DD-YYYY | Alto. Casa com qualquer data em formato EUA. Melhor usado com direcionamento no nível do campo. |
O DQS usa correspondência apenas por regex. A detecção é baseada em formato, não contextual. Não há validação por checksum (Luhn para cartão, módulo-97 para IBAN), não há boost por proximidade de palavras-chave e não há pontuação de confiança via ML. Todo match é binário: o padrão casou ou não. Isso torna a detecção totalmente auditável e determinística, mas você precisa revisar matches em campos com alto risco de falso positivo.
Cobertura regulatória
Todos os 8 padrões são baseados em frameworks importantes de privacidade e segurança.
| Padrão | NIST 800-122 | GDPR | CCPA | PCI DSS | HIPAA | ISO 27701 |
|---|---|---|---|---|---|---|
| SSN | X | X | X | X | X | |
| Credit Card | X | X | X | X | X | |
| X | X | X | X | X | ||
| US Phone | X | X | X | X | ||
| Intl Phone | X | X | X | X | ||
| IP Address | X | X | X | X | ||
| IBAN | X | X | ||||
| Date of Birth | X | X | X | X | X |
Esses são os mesmos tipos de identificador detectados como padrões embutidos por Google Cloud DLP, AWS Macie e Microsoft Purview. A diferença: ferramentas de DLP em cloud usam detecção em camadas (regex + checksum + proximidade de palavras-chave + ML). O DQS usa apenas regex, o que é mais simples e totalmente transparente, mas não fornece pontuação de confiança.
Três presets de detecção
Presets configuram quais padrões ficam ativos em um clique.
| Preset | Padrões | Qtd | Quando usar |
|---|---|---|---|
| Standard | SSN, Credit Card, Email, US Phone | 4 | Auditoria geral de PII. Cobre os quatro tipos mais comuns com taxas de falso positivo gerenciáveis. Padrão. |
| Critical | SSN, Credit Card | 2 | Checagem de compliance financeiro. Scan mínimo para exposição a roubo de identidade e cartão. Use quando precisa de resultado rápido com falso positivo quase zero. |
| Extended | Todos os 8 padrões | 8 | Scan completo. Inclui IBAN, IP Address, Date of Birth e International Phone. Maior taxa de falso positivo em troca de cobertura máxima. Melhor para auditorias iniciais e avaliações de compliance. |
Você também pode adicionar padrões regex customizados além dos 8 pré-definidos. Padrões custom são validados no servidor antes de serem salvos. Qualquer regex válido funciona.
Referência de métricas
Métricas de base
| Métrica | Tipo | O que retorna |
|---|---|---|
| Records with PII | Contagem (inteiro) | Número de registros em que pelo menos um padrão deu match. Um registro é contado uma vez independentemente de quantos padrões casaram ou de quantos matches existem dentro dele. |
Métricas avançadas
| Métrica | Tipo | O que retorna |
|---|---|---|
| PII Exposure Rate | Percentual | Percentual de registros escaneados contendo matches de PII. É o número principal de exposição para relatórios e dashboards. |
Cobertura de tipos de campo
| Métrica | String | TextArea | Phone | EncryptedString | LongTextArea | Html | |
|---|---|---|---|---|---|---|---|
| Records with PII | X | X | X | X | X | ||
| PII Exposure Rate | X | X | X |
Records with PII lança uma rede ampla por todos os tipos de campos de texto. PII Exposure Rate foca em campos de texto mais longos, onde a densidade de PII é significativa. Um campo String de 255 caracteres casando com regex de e-mail é um ponto único. Um LongTextArea de 32.000 caracteres com 15 matches de SSN conta outra história.
Dois modos de análise
O DQS roda PII Detection em dois modos.
PII Scan processa todos os campos selecionados usando os padrões configurados e retorna Records with PII. Esse modo responde: “Tenho um problema de PII?” Use para auditorias rápidas antes de migrações ou projetos de IA.
PII Detection Analysis adiciona PII Exposure Rate além de Records with PII. A taxa de exposição contextualiza a contagem bruta, transformando “847 registros contêm PII” em “12,3% do seu dataset está exposto”. Use para reporting de compliance e governança contínua.
Configurando PII Detection
| Entrada | O que controla |
|---|---|
| Detection Patterns | Quais dos 8 padrões pré-definidos ficam ativos. Escolha um preset ou alterne padrões individualmente. |
| Custom Patterns | Qualquer regex válido, validado no servidor. Adicionado junto aos padrões pré-definidos. |
| Per-Field Overrides | Conjuntos diferentes de padrões para campos diferentes. Sobrescreva a configuração global por campo. |
Escolhendo padrões por tipo de campo
Campos diferentes precisam de conjuntos de padrões diferentes. Um campo Email já contém e-mails por design. Varrer esse campo com padrão de e-mail gera 100% de matches, o que é esperado, não um problema. Um Case Description é texto livre em que qualquer tipo de PII pode aparecer. Configure padrões com base no que você espera encontrar versus o que sinaliza problema.
Exemplos de configuração:
- Campos Email: Escaneie apenas SSN e Credit Card (matches de e-mail são esperados)
- Campos Description e Notes: Use preset Standard ou Extended (texto livre pode conter qualquer coisa)
- Campos de texto curtos (Subject, Title): Use apenas preset Critical (baixa tolerância a falsos positivos)
Problemas comuns
| Problema | Causa | Correção |
|---|---|---|
| 100% de match de PII em um campo Email | O padrão de e-mail casa com o conteúdo esperado do campo | Remova o padrão de e-mail do override desse campo ou exclua o campo da varredura |
| Muitos falsos positivos em Date of Birth | O padrão de DOB casa com qualquer data formato EUA (datas de reunião, prazos) | Use sobrescritas por campo para aplicar o padrão de DOB apenas em campos em que datas de nascimento são um risco conhecido |
| Nenhum match apesar de PII conhecido | O regex de SSN só casa no formato com hifens (NNN-NN-NNNN), não em 9 dígitos consecutivos | Adicione um padrão custom para o formato específico dos seus dados. Exemplo: \b\d{9}\b para SSNs sem formato (alto risco de falso positivo) |
Melhores práticas
-
Comece com o preset Standard em campos de texto livre. Rode um scan inicial para entender sua baseline antes de expandir para Extended.
-
Use sobrescritas por campo para ajustar a detecção. Padrões globais lançam uma rede ampla. Overrides por campo eliminam ruído.
-
Escaneie primeiro os campos de texto não estruturados. Description, Comments e Notes são onde PII se acumula via copia-cola e email-to-case. Campos estruturados (Email, Phone) contêm PII por design.
-
Revise matches em padrões de alto FP (DOB) antes de tratá-los como PII confirmado. Esses padrões produzem mais falsos positivos que SSN ou Email.
-
Combine Records with PII (contagem absoluta) com PII Exposure Rate (percentual) para o quadro completo. A contagem dimensiona o esforço de limpeza. A taxa diz se é problema sistêmico ou incidentes isolados.
Próximos passos
- Preparação para Agentforce: Checklist completo de deployment
- Preparação para Agentforce: Guia completo de prontidão para deployment