¿Qué es la validez?
La validez mide si los valores de datos se ajustan a los formatos y patrones esperados. Un valor es válido cuando coincide con la estructura definida. Un valor no es válido cuando rompe las reglas de formato.
Una dirección de correo es válida cuando contiene un símbolo «@» y un dominio. Una URL es válida cuando empieza con un protocolo y contiene un dominio. Un código de producto es válido cuando tiene exactamente el número de caracteres que su sistema requiere.
DQS valida los valores de los campos mediante patrones regex (expresiones regulares). Puede elegir entre patrones integrados para formatos habituales como Email, URL y Fixed Length, o escribir su propio regex para cualquier formato específico del negocio.
Validity Rate = (Registros que coinciden con el patrón / Registros totales) x 100
Si 35 500 de 50 000 registros de Contact tienen una dirección de correo que coincide con el patrón de formato de correo, su tasa de validez de Email es del 71 %. El 29 % restante contiene valores que no superan la comprobación del patrón.
Validez frente a precisión
Validez y precisión son conceptos distintos:
| Comprobación | ¿Válido? | ¿Preciso? |
|---|---|---|
| [email protected] | Sí | Desconocido sin verificación |
| john@company | No | N/A (el formato es incorrecto) |
| [email protected] | Sí | No (la persona dejó la empresa) |
| 555-123-4567 | Sí | Desconocido sin llamar |
| 555-12-456 | No | N/A (número de dígitos incorrecto) |
DQS mide la validez porque las comprobaciones de formato pueden automatizarse. La precisión requiere verificación externa o confirmación humana.
Los datos válidos funcionan en sus sistemas aunque no reflejen la realidad. Los datos no válidos rompen sus sistemas con independencia de su veracidad real. Céntrese primero en la validez. Aborde la precisión mediante procesos de verificación.
Por qué importa la validez
Los datos no válidos provocan fallos en toda su pila tecnológica. Los correos rechazados dañan la reputación del remitente. Los números de teléfono mal formados desperdician tiempo del marcador. Las URL rotas frustran a los usuarios y bloquean las herramientas de enriquecimiento.
Las APIs rechazan los datos mal formados. Cuando su integración envía un formato de correo no válido a una plataforma de marketing, el lote completo puede fallar. Los flujos de Salesforce que analizan valores de campos se rompen cuando el formato es inesperado.
Los modelos de IA procesan el texto tal cual. Cuando un campo de teléfono contiene «Teléfono: 555-1234» en lugar de un número limpio, el modelo ve patrones inconsistentes. Los formatos no válidos reducen la eficacia de la IA y producen resultados poco fiables en Agentforce.
| Sistema | Impacto de la validez |
|---|---|
| Campañas de correo | Los rebotes dañan la reputación del remitente |
| Telefonía | Los números no válidos desperdician tiempo del marcador |
| Enlaces web | Las URL rotas bloquean el enriquecimiento y la navegación |
| APIs | Los datos mal formados provocan fallos de sincronización |
| IA y Agentforce | Los formatos inconsistentes reducen la precisión del modelo |
Cómo mide DQS la validez
DQS produce 6 métricas de validez organizadas en torno a una pregunta de diagnóstico: «¿Los datos coinciden con el patrón, y hay basura escondida en los valores que sí lo hacen?»
Piense en estas métricas como un flujo de diagnóstico. Cada paso revela una capa más profunda del problema.
Paso 1: ¿coincide con el patrón?
Validity Rate es la métrica principal. Calcula el porcentaje de registros en los que el valor del campo coincide con su patrón configurado. Es la cifra que pondrá en un panel.
Configura el patrón Email en el campo PersonEmail de Contacts. La Validity Rate es del 71 %. Eso significa que el 29 % de las direcciones de correo no superan la comprobación de formato. Les falta el símbolo «@», no tienen dominio o contienen espacios. Cada campaña de marketing enviada a esas direcciones rebota. Cada flujo automatizado que se dispara con el correo falla en silencio.
Valid Count le indica el número absoluto. De 50 000 Contacts, 35 800 tienen direcciones de correo válidas. Esa es su audiencia direccionable real para las campañas de correo, no las 50 000 que hay en el sistema. Marketing puede fijar proyecciones de campaña realistas en lugar de trabajar con cifras infladas.
Paso 2: ¿cuál es el desglose completo?
Las tasas indican la gravedad. Los recuentos indican la carga de trabajo. Dos métricas completan la imagen:
| Métrica | Qué le indica |
|---|---|
| Invalid Rate | El encuadre negativo de su puntuación de validez. «El 29 % de nuestras direcciones de correo no son estructuralmente válidas» llama más la atención en una presentación al consejo que «el 71 % son válidas». Los mismos datos, presentados para la acción. |
| Invalid Count | La carga de trabajo de limpieza como cifra absoluta. Su empresa está migrando a un nuevo sistema de telefonía que requiere el formato E.164. Invalid Count en el campo Phone: 23 400. Ese es el número exacto de registros que requieren reformateo antes de que la migración pueda entrar en producción. |
Paso 3: ¿hay basura más allá de los errores de formato?
Un valor puede superar una comprobación de formato y seguir siendo basura. Su formulario web-to-lead requiere un campo Company. Validity Rate en Company es del 98 %, porque casi todo supera un patrón de texto básico. Pero Noise Rate revela que el 14 % de esos valores son entradas como «asdf», «test», «xxxxx» o «na na na». Con formato válido, pero completamente inútiles para el enrutamiento de ventas, el enriquecimiento o la segmentación.
Noisy Records Count le proporciona el alcance de la limpieza. Si Noise Rate es del 14 % sobre 50 000 registros, se trata de 7000 leads con nombres de empresa basura. Su equipo de operaciones puede construir una cola de limpieza, estimar horas y decidir si eliminar automáticamente o marcar para revisión manual.
Dos categorías de fallo
Las métricas de validez distinguen dos problemas fundamentalmente distintos:
| Problema | Métricas | Causa raíz | Solución |
|---|---|---|---|
| Errores de formato | Validity Rate, Invalid Rate, Valid/Invalid Count | Errores humanos, bugs de integración, falta de reglas de validación | Limpiar los datos: reglas de validación de campo, transformación de datos, enriquecimiento |
| Ruido y basura | Noise Rate, Noisy Records Count | Bots, envíos forzados de formularios, importaciones masivas con valores por defecto basura | Arreglar la fuente: CAPTCHA, rediseño de campos obligatorios, eliminación de registros |
La distinción importa porque la solución es totalmente distinta. Los errores de formato se remedian limpiando los datos. El ruido se remedia arreglando la fuente que lo produce.
Referencia de métricas
Métricas base
Estas 2 métricas forman la base de todo análisis de validez. Le indican la tasa de coincidencia y el número de registros que la superan.
| Métrica | Tipo | Qué mide |
|---|---|---|
| Validity Rate | Porcentaje | Proporción de registros que coinciden con el patrón configurado |
| Valid Count | Recuento | Número de registros que coinciden con el patrón configurado |
Métricas avanzadas
Estas 4 métricas van más allá del «¿coincide?» para ofrecer el desglose completo, incluyendo la detección de ruido. Requieren el modo de análisis Advanced Format Validation.
| Métrica | Tipo | Qué mide |
|---|---|---|
| Invalid Rate | Porcentaje | Proporción de registros que no superan el patrón configurado |
| Invalid Count | Recuento | Número de registros que no superan el patrón configurado |
| Noise Rate | Porcentaje | Proporción de registros que contienen patrones de ruido (datos basura) |
| Noisy Records Count | Recuento | Número de registros que contienen patrones de ruido |
Por qué las tasas y los recuentos vienen en pares
La mayoría de las métricas se presentan como tasa (porcentaje) y recuento (número absoluto). Es intencional:
- Las tasas son para paneles, informes ejecutivos y seguimiento de tendencias. «La validez mejoró del 71 % al 92 % este trimestre».
- Los recuentos son para la planificación de proyectos, la estimación de la carga de trabajo y la delimitación de la limpieza. «Tenemos 23 400 números de teléfono que reformatear».
Use las tasas para comunicar el progreso. Use los recuentos para planificar el trabajo.
Cobertura por tipo de campo
Las 6 métricas de validez comparten el mismo soporte base de tipo de campo, con las métricas de ruido limitadas a los campos de texto.
| Métrica | 6 tipos de campo | Solo String y TextArea |
|---|---|---|
| Validity Rate | X | |
| Valid Count | X | |
| Invalid Rate | X | |
| Invalid Count | X | |
| Noise Rate | X | |
| Noisy Records Count | X |
Las métricas basadas en patrones (Validity Rate, Valid Count, Invalid Rate, Invalid Count) funcionan en los 6 tipos de campo admitidos: String, TextArea, Email, Phone, URL y Picklist.
Las métricas de ruido (Noise Rate, Noisy Records Count) se aplican solo a los campos String y TextArea. Los patrones de ruido como los caracteres repetidos y el tecleo aleatorio son fenómenos de texto libre. Un campo Picklist con un valor de lista desplegable válido no puede contener ruido. La detección de ruido solo tiene sentido en los campos donde los usuarios escriben texto libre.
Dos modos de análisis
DQS ofrece dos modos de análisis de validez:
Format Validation responde a la pregunta: «¿los valores del campo coinciden con el patrón esperado?». Produce las 2 métricas base y cubre lo esencial para una comprobación de cumplimiento de formato o una auditoría rápida.
Advanced Format Validation va más allá. Produce las 6 métricas, incluyendo el desglose completo de válidos e inválidos y la detección de ruido. Utilice este modo cuando necesite distinguir entre errores de formato y datos basura, o cuando necesite recuentos precisos para la planificación de proyectos de limpieza.
| Necesidad de negocio | Modo recomendado |
|---|---|
| Comprobación rápida de cumplimiento de formato | Format Validation |
| Informe o auditoría de cumplimiento | Advanced (desglose completo válido/inválido para los reguladores) |
| Evaluación de calidad de leads | Advanced (Noise Rate capta la basura que supera las comprobaciones de formato) |
| Evaluación de datos previa a la migración | Advanced (desglose completo para delimitar la remediación por categorías) |
| Gobernanza de datos continua | Empiece con Format Validation y pase a Advanced para la detección de ruido |
Configurar la validez
A diferencia de la completitud (que funciona automáticamente en cualquier campo), la validez requiere configuración. Debe definir qué significa «válido» para cada campo antes de que DQS pueda comprobarlo. Un análisis de validez sin patrón carece de sentido: ¿válido respecto a qué?
DQS ofrece 5 entradas de configuración. Cada una puede establecerse a nivel global (se aplica a todos los campos) y sobrescribirse a nivel de campo individual.
| Ajuste | Qué controla |
|---|---|
| Pattern Type | El formato con el que validar. Elija entre Email, URL, Fixed Length o regex personalizado. Obligatorio: debe seleccionar un tipo de patrón antes de ejecutar un análisis. |
| Pattern / Fixed Length | El valor específico para el tipo elegido. Para Fixed Length, introduzca un número de caracteres (de 1 a 255). Para Custom, introduzca un patrón regex. Email y URL utilizan patrones integrados. |
| Custom Pattern | Su propio regex cuando Pattern Type se establece en Custom. DQS valida su regex antes de guardarlo y bloquea las expresiones no válidas. |
| Include Blanks | Cuando está activada, DQS cuenta los valores en blanco como no válidos. Cuando está desactivada (por defecto), los blancos se excluyen por completo de la evaluación. |
| Case Sensitive | Cuando está activada, la coincidencia de patrones tiene en cuenta las mayúsculas y minúsculas. Cuando está desactivada (por defecto), la coincidencia no distingue entre mayúsculas y minúsculas. |
Tipos de patrón
| Tipo | Qué valida | Ejemplo que pasa | Ejemplo que falla |
|---|---|---|---|
| Formato estándar de dirección de correo: [email protected] | [email protected] | user@domain, invalid-email | |
| URL | Direcciones web HTTP/HTTPS con dominio válido | https://example.com | example.com, htp://site.com |
| Fixed Length | Número exacto de caracteres (usted define la cifra) | AAAAAAAAAA (10 caracteres, si length = 10) | SHORT (5 caracteres) |
| Custom | Cualquier patrón regex que defina | Depende de su patrón | Depende de su patrón |
Ejemplo: sus códigos de producto siguen el formato «DQS-» seguido de 6 dígitos. Establezca Pattern Type en Custom e introduzca el regex ^DQS-\d{6}$. DQS marcará cualquier código de producto que no coincida con esta estructura.
Detección de ruido
La detección de ruido capta datos que superan las comprobaciones de formato pero siguen siendo basura. DQS utiliza dos heurísticas integradas para identificar valores ruidosos:
Heurística 1: caracteres idénticos consecutivos. Tres o más del mismo carácter seguido. Valores como «aaaa», «!!!», «---» o «xxxxx» activan esta comprobación. Suelen proceder de mantener pulsada una tecla, relleno o abuso de placeholders.
Heurística 2: exceso de caracteres especiales. Más del 50 % de caracteres no alfanuméricos (excluyendo espacios). Valores como «!@#$%^» o «***///---» activan esta comprobación. Indican tecleo aleatorio, entrada de bots o introducción deliberada de basura.
| Heurística | Qué capta | Ejemplos de valores ruidosos | Ejemplos de valores limpios |
|---|---|---|---|
| 3 o más caracteres idénticos consecutivos | Relleno, comodín, mantener pulsada una tecla | «aaaa», «!!!», «---», «xxxxx» | «Premium», «DOT AB3 2024» |
| Más del 50 % de caracteres especiales | Tecleo aleatorio, entrada de bots, basura | «!@#$%^», «***test», «//—//» | «[email protected]», «O’Brien Inc» |
También puede definir patrones de ruido personalizados con regex para la basura específica de su org que las heurísticas integradas no cubren.
Consejo: la detección de ruido es más valiosa en los campos de texto libre donde los usuarios pueden escribir cualquier cosa: Company, Description, Notes y campos de texto personalizados. Ejecútela primero en sus campos web-to-lead, donde los envíos de bots y las entradas forzadas son más habituales.
Incidencias habituales de validez
Direcciones de correo no válidas
Los usuarios introducen correos sin el formato adecuado. Faltan símbolos «@», faltan dominios, hay puntos dobles y erratas, los problemas más habituales.
| Incidencia | Ejemplo |
|---|---|
| Falta @ | john.company.com |
| Falta dominio | john@ |
| Dobles puntos | [email protected] |
| Erratas | [email protected] |
Impacto: correos rechazados, puntuación de remitente dañada, comunicaciones perdidas.
Números de teléfono mal formados
Los campos de teléfono aceptan cualquier texto en Salesforce, lo que conduce a formatos inconsistentes y no válidos.
| Incidencia | Ejemplo |
|---|---|
| Letras intercaladas | 555-CALL-NOW |
| Número de dígitos incorrecto | 555-12 |
| Extensión en el campo | 555-1234 ext 5 |
| Confusión de código de país | 1-555-123-4567 frente a 555-123-4567 |
Impacto: llamadas fallidas, tiempo de ventas desperdiciado, errores de sincronización de telefonía.
URL no válidas
Los campos de dirección web suelen contener valores parciales o mal formados.
| Incidencia | Ejemplo |
|---|---|
| Falta protocolo | www.company.com |
| Falta dominio | https:// |
| Erratas | htps://company.com |
| Identificadores sociales | @company (no es una URL) |
Impacto: enlaces rotos, enriquecimiento fallido, errores de navegación.
Buenas prácticas
Valide en la entrada
La mejor comprobación de validez se produce en la entrada de datos. Utilice reglas de validación de Salesforce para imponer formatos antes de que los datos entren en su sistema.
// Ejemplo: regla de validación de formato de correo
NOT(ISBLANK(Email)) && NOT(REGEX(Email, "^[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\\.[A-Za-z]{2,}$"))
Estandarice los formatos antes de analizar
Elija un formato para cada campo e imponga. Para los números de teléfono, E.164 (+15551234567) es el estándar más aceptado universalmente. Para las URL, exija el protocolo https://. Documente sus decisiones de formato para que el equipo conozca el estándar.
Establezca umbrales según la prioridad del campo
Los distintos campos necesitan distintos estándares de validez:
| Campo | Umbral sugerido | Razón |
|---|---|---|
| Correo principal | 95 %+ | Crítico para la comunicación |
| Teléfono | 90 %+ | Importante, pero con datos heredados esperables |
| Sitio web | 85 %+ | A menudo introducido de forma incompleta |
| Códigos de texto personalizados | 98 %+ | Generados por el sistema; se espera un alto cumplimiento |
Utilice la detección de ruido en los campos de texto libre
Ejecute la detección de ruido en los campos donde los usuarios escriben texto libre: Company, Description, campos de texto personalizados y cualquier campo poblado por formularios web. Noise Rate revela problemas que la validación de formato no detecta.
Documente los formatos esperados
Cree un diccionario de datos que especifique el formato esperado para cada campo, las variaciones aceptables y ejemplos de valores válidos y no válidos. Compártalo con su equipo y utilícelo como referencia durante los proyectos de limpieza de datos.
Próximos pasos
Ya comprende cómo validar los formatos de los datos y detectar los valores ruidosos. Continúe aprendiendo sobre la siguiente dimensión:
- En Salesforce: La calidad de datos en Salesforce - aplique formatos válidos a sus campos de Salesforce
- Siguiente: Unicidad - detecte y prevenga los registros duplicados
- Anterior: Completitud - asegúrese de que los datos requeridos estén presentes
- Relacionado: Las cinco dimensiones - visión general de todas las dimensiones
- Acción: Evaluación de preparación para la IA - vea sus puntuaciones actuales de validez