Skip to main content

Detección de PII

Los 8 patrones de detección de PII que utiliza DQS, tres presets para escenarios de análisis habituales y cómo configurar la detección basada en patrones.

¿Qué es la detección de PII?

La detección de PII analiza los campos de texto en busca de información personal identificable utilizando patrones regex configurables. Responde a tres preguntas sobre sus datos de Salesforce:

  • ¿Contienen mis datos PII que requiera protección?
  • ¿Hasta qué punto está expuesto mi conjunto de datos?
  • ¿Qué campos albergan información sensible?

DQS perfila el tipo y la densidad de exposición a PII en cada campo de texto. Utiliza detección basada en patrones: los patrones regex se comparan con los valores de los campos para marcar SSN, tarjetas de crédito, correos, números de teléfono y otros identificadores.

Tres propiedades definen cómo funciona la detección:

  1. Determinista. La misma entrada produce siempre el mismo resultado.
  2. Transparente. Usted ve cada patrón que aplica DQS. Sin puntuaciones de caja negra.
  3. En plataforma. La detección se ejecuta íntegramente dentro de Salesforce. Ningún dato sale de su org.

Por qué importa

Cumplimiento. El RGPD, la CCPA, la HIPAA y la PCI DSS exigen identificar y proteger el PII. No se puede proteger lo que no se ha encontrado. La detección automatizada le proporciona un inventario de la exposición en cada campo de texto del alcance.

Preparación para la IA. Antes de alimentar datos a Agentforce o a cualquier sistema de IA, es necesario saber qué campos contienen PII. El PII no detectado en datos de entrenamiento o índices de recuperación genera una exposición que ningún filtro posterior puede evitar por completo.

Gobernanza de datos. Los campos de texto acumulan PII con el tiempo. Los agentes pegan hilos de correo en los comentarios de los casos. Los clientes facilitan SSN para verificación. Las integraciones escriben datos de contacto en los campos de descripción. Sin detección, ese PII permanece desprotegido.

Cómo detecta DQS el PII

DQS ejecuta la detección de PII como un diagnóstico progresivo. Cada paso se apoya en el anterior.

Paso 1: ¿existe un problema de PII?

Records with PII ofrece el recuento absoluto de registros en los que coincidió al menos un patrón. Es la cifra que delimita el alcance.

Por ejemplo: usted analiza los comentarios de Case utilizando el preset Standard. Records with PII arroja 847. Significa que 847 registros de caso requieren revisión antes de poder utilizar los datos de forma segura para el entrenamiento de IA o compartirlos con analítica de terceros.

Paso 2: ¿qué gravedad tiene?

PII Exposure Rate ofrece el porcentaje de registros analizados que contienen coincidencias de patrones. La tasa pone el recuento en contexto.

847 registros sobre 1000 es un 84,7 % de exposición: un problema sistémico que requiere un cambio de proceso. 847 sobre 500 000 es un 0,17 %: incidentes aislados que puede abordar con una limpieza dirigida.

Paso 3: ¿qué tipo de PII?

La propia configuración de patrones le indica qué tipos se analizaron. Cada patrón tiene una categoría: Financial, Contact, Technical o Identity. Al revisar qué patrones provocaron coincidencias sabe si está ante filtraciones de tarjetas de crédito, exposición de direcciones de correo o contaminación de SSN.

Los 8 patrones de detección

DQS se entrega con 8 patrones regex predefinidos organizados en 4 categorías.

Financial

PatrónQué detectaRiesgo de falso positivo
Social Security NumberSSN de EE. UU. en formato NNN-NN-NNNNBajo. El formato con guiones es distintivo.
Credit Card NumberSecuencias de 13 a 16 dígitos con espacios o guiones opcionalesMedio. Secuencias numéricas largas (números de pedido, identificadores de seguimiento) pueden coincidir por error.
IBANNúmeros de cuenta bancaria internacional (formato ISO 13616)Bajo. El prefijo de código de país más dígitos de control es distintivo.

Contact

PatrónQué detectaRiesgo de falso positivo
Email AddressFormato estándar [email protected]Bajo. La estructura con el símbolo @ es distintiva.
US Phone NumberFormatos de EE. UU. y Canadá: (NNN) NNN-NNNN, NNN-NNN-NNNN, variantes con +1Medio. Los números de 10 dígitos con separadores pueden coincidir con datos que no son teléfonos.
International PhoneNúmeros en formato E.164 que empiezan con + y código de paísBajo. El prefijo + es una señal sólida.

Technical

PatrónQué detectaRiesgo de falso positivo
IP AddressIPv4 en notación decimal con puntos (NNN.NNN.NNN.NNN)Bajo-medio. Los números de versión de software son la principal fuente de falsos positivos.

Identity

PatrónQué detectaRiesgo de falso positivo
Date of BirthFormato de fecha de EE. UU. MM/DD/YYYY o MM-DD-YYYYAlto. Coincide con cualquier fecha con formato estadounidense. Conviene combinarlo con segmentación por campo.

DQS utiliza únicamente coincidencia de patrones regex. La detección es por formato, no contextual. No hay validación de checksum (Luhn para tarjetas de crédito, módulo 97 para IBAN), ni refuerzo por proximidad de palabras clave, ni puntuación de confianza basada en ML. Cada coincidencia es binaria: el patrón coincidió o no. Esto hace que la detección sea totalmente auditable y determinista, pero obliga a revisar las coincidencias en los campos con mayor riesgo de falsos positivos.

Cobertura regulatoria

Los 8 patrones están alineados con los principales marcos de privacidad y seguridad.

PatrónNIST 800-122RGPDCCPAPCI DSSHIPAAISO 27701
SSNXXXXX
Credit CardXXXXX
EmailXXXXX
US PhoneXXXX
Intl PhoneXXXX
IP AddressXXXX
IBANXX
Date of BirthXXXXX

Estos son los mismos tipos de identificador detectados como patrones integrados por Google Cloud DLP, AWS Macie y Microsoft Purview. La diferencia: las herramientas de DLP en la nube emplean detección en varias capas (regex + checksum + proximidad de palabras clave + ML). DQS emplea solo coincidencia por regex, lo que es más sencillo y totalmente transparente, pero no ofrece puntuación de confianza.

Tres presets de detección

Los presets configuran qué patrones están activos con un solo clic.

PresetPatronesCuándo usarlo
StandardSSN, Credit Card, Email, US Phone4Auditoría general de PII. Cubre los cuatro tipos más habituales con tasas de falso positivo manejables. Es el valor por defecto.
CriticalSSN, Credit Card2Comprobación de cumplimiento financiero. Análisis mínimo para robo de identidad y exposición de tarjetas de pago. Úselo cuando necesite resultados rápidos con falsos positivos prácticamente nulos.
ExtendedLos 8 patrones8Análisis completo. Incluye IBAN, IP Address, Date of Birth e International Phone. Tasa de falsos positivos más alta a cambio de la máxima cobertura. Ideal para auditorías iniciales y evaluaciones de cumplimiento.

También puede añadir patrones regex personalizados más allá de los 8 predefinidos. Los patrones personalizados se validan en el servidor antes de poder guardarse. Cualquier regex válido funciona.

Referencia de métricas

Métricas base

MétricaTipoQué devuelve
Records with PIIRecuento (entero)Número de registros en los que coincidió al menos un patrón. Un registro se cuenta una sola vez, independientemente de cuántos patrones hayan coincidido o cuántas coincidencias contenga.

Métricas avanzadas

MétricaTipoQué devuelve
PII Exposure RatePorcentajePorcentaje de registros analizados que contienen coincidencias de PII. Es la cifra principal de exposición para informes y paneles.

Cobertura por tipo de campo

MétricaStringTextAreaEmailPhoneEncryptedStringLongTextAreaHtml
Records with PIIXXXXX
PII Exposure RateXXX

Records with PII cubre ampliamente todos los tipos de campo de texto. PII Exposure Rate se centra en los campos de texto más largos, donde la densidad de PII es significativa. Un campo String de 255 caracteres que coincide con un regex de correo es un único dato puntual. Un LongTextArea de 32 000 caracteres con 15 coincidencias de SSN cuenta una historia distinta.

Dos modos de análisis

DQS ejecuta la detección de PII en dos modos.

PII Scan procesa todos los campos seleccionados con los patrones configurados y devuelve Records with PII. Este modo responde a la pregunta: «¿tengo un problema de PII?». Úselo para auditorías rápidas antes de migraciones de datos o proyectos de IA.

PII Detection Analysis añade PII Exposure Rate sobre Records with PII. La tasa de exposición contextualiza el recuento absoluto y convierte «847 registros contienen PII» en «el 12,3 % de su conjunto de datos está expuesto». Utilice este modo para los informes de cumplimiento y la gobernanza continua.

Configurar la detección de PII

EntradaQué controla
Detection PatternsCuáles de los 8 patrones predefinidos están activos. Elija un preset o active patrones individuales.
Custom PatternsCualquier patrón regex válido, validado en el servidor. Se añade junto a los patrones predefinidos.
Per-Field OverridesConjuntos de patrones distintos para campos distintos. Sobrescribe la configuración global campo a campo.

Elegir patrones por tipo de campo

Los distintos campos necesitan distintos conjuntos de patrones. Un campo Email ya contiene direcciones de correo por diseño. Analizarlo en busca de patrones de correo produce coincidencias del 100 %, lo cual es esperable, no un problema. Un campo Case Description es texto libre en el que puede aparecer cualquier tipo de PII. Configure los patrones en función de lo que espera encontrar frente a lo que señala un problema.

Ejemplos de configuración:

  • Campos de correo: analice solo SSN y Credit Card (las coincidencias de correo son esperables)
  • Campos Description y Notes: utilice el preset Standard o Extended (el texto libre puede contener cualquier cosa)
  • Campos de texto corto (Subject, Title): utilice únicamente el preset Critical (baja tolerancia a los falsos positivos)

Incidencias habituales

IncidenciaCausaSolución
Tasa de coincidencia del 100 % en un campo EmailEl patrón de correo coincide con el contenido previsto del campoElimine el patrón de correo de la excepción de ese campo, o excluya el campo del análisis de PII
Muchos falsos positivos en Date of BirthEl patrón DOB coincide con cualquier fecha con formato estadounidense (fechas de reunión, vencimientos)Utilice excepciones por campo para aplicar el patrón DOB solo en campos donde las fechas de nacimiento sean un riesgo conocido
No se encuentran coincidencias pese a saber que hay PIIEl regex de SSN solo coincide con el formato con guiones (NNN-NN-NNNN), no con 9 dígitos consecutivosAñada un patrón personalizado para el formato concreto que aparece en sus datos. Ejemplo: \b\d{9}\b para SSN sin formato (con alto riesgo de falso positivo)

Buenas prácticas

  1. Empiece con el preset Standard en los campos de texto libre. Ejecute un análisis inicial para comprender su línea base antes de ampliar a Extended.

  2. Utilice excepciones por campo para afinar la detección. Los patrones globales echan una red amplia. Las excepciones por campo eliminan el ruido.

  3. Analice primero los campos de texto no estructurados. Description, Comments y Notes son donde se acumula el PII por copiar y pegar y por email-to-case. Los campos estructurados (Email, Phone) contienen PII por diseño.

  4. Revise las coincidencias de patrones con alta tasa de FP (DOB) antes de darlas por PII confirmada. Estos patrones producen más falsos positivos que SSN o Email.

  5. Combine Records with PII (recuento absoluto) con PII Exposure Rate (porcentaje) para una imagen completa. El recuento delimita el esfuerzo de limpieza. La tasa le indica si se trata de un problema sistémico o de incidentes aislados.

Próximos pasos