Validità | DQS Resources

Che cos’è la validità?

La validità misura se i valori dei dati sono conformi ai formati e ai modelli previsti. Un valore è valido quando corrisponde alla struttura definita. Un valore è non valido quando viola le regole di formato.

Un indirizzo e-mail è valido quando contiene il simbolo «@» e un dominio. Un URL è valido quando inizia con un protocollo e contiene un dominio. Un codice prodotto è valido quando ha il numero esatto di caratteri richiesto dal sistema.

DQS valida i valori dei campi utilizzando modelli regex (espressioni regolari). È possibile scegliere tra modelli integrati per formati comuni come Email, URL e Lunghezza fissa, oppure scrivere il proprio regex per qualsiasi formato specifico dell’azienda.

Tasso di validità = (Record corrispondenti al modello / Record totali) x 100

Se 35.500 dei 50.000 record Contact hanno un indirizzo e-mail che corrisponde al modello del formato e-mail, il tasso di validità dell’Email è del 71%. Il restante 29% contiene valori che non superano il controllo del modello.

Validità vs accuratezza

Validità e accuratezza sono concetti diversi:

Controllo	Valido?	Accurato?
[email protected]	Sì	Sconosciuto senza verifica
john@company	No	N/D (il formato è errato)
[email protected]	Sì	No (la persona ha lasciato l’azienda)
555-123-4567	Sì	Sconosciuto senza chiamare
555-12-456	No	N/D (conteggio di cifre errato)

DQS misura la validità perché i controlli di formato possono essere automatizzati. L’accuratezza richiede una verifica esterna o una conferma umana.

I dati validi funzionano nei sistemi anche se non riflettono la realtà. I dati non validi interrompono i sistemi indipendentemente dalla loro veridicità nel mondo reale. Concentrarsi prima sulla validità. Affrontare l’accuratezza attraverso processi di verifica.

Perché la validità è importante

I dati non validi causano fallimenti in tutto lo stack. Le e-mail respinte danneggiano la reputazione del mittente. I numeri di telefono malformati sprecano tempo al dialer. Gli URL non funzionanti frustrano gli utenti e bloccano gli strumenti di arricchimento.

Le API rifiutano i dati malformati. Quando un’integrazione invia un formato e-mail non valido a una piattaforma di marketing, l’intero batch può fallire. I Flow di Salesforce che analizzano i valori dei campi si interrompono quando il formato è imprevisto.

I modelli di AI elaborano il testo così com’è. Quando un campo telefonico contiene «Phone: 555-1234» invece di un numero pulito, il modello vede modelli incoerenti. I formati non validi riducono l’efficacia dell’AI e producono output Agentforce inaffidabili.

Sistema	Impatto della validità
Campagne e-mail	I respingimenti danneggiano la reputazione del mittente
Telefonia	I numeri non validi sprecano tempo al dialer
Link web	Gli URL non funzionanti bloccano l’arricchimento e la navigazione
API	I dati malformati causano fallimenti di sincronizzazione
AI e Agentforce	I formati incoerenti riducono la precisione del modello

Come DQS misura la validità

DQS produce 6 metriche di validità organizzate attorno a una domanda diagnostica: «I dati corrispondono al modello e c’è spazzatura nascosta nei valori che lo superano?»

Si pensi a queste metriche come a un flusso diagnostico. Ogni passaggio rivela un livello più profondo del problema.

Passaggio 1: Corrisponde al modello?

Il Tasso di validità è la metrica principale. Calcola la percentuale di record in cui il valore del campo corrisponde al modello configurato. È il numero da inserire in una dashboard.

Si configura il modello Email sul campo PersonEmail per i Contact. Il Tasso di validità risulta del 71%. Ciò significa che il 29% degli indirizzi e-mail non supera il controllo di formato. Manca il simbolo «@», non c’è un dominio o sono presenti spazi. Ogni campagna di marketing inviata a quegli indirizzi viene respinta. Ogni workflow automatizzato che si attiva sull’e-mail fallisce silenziosamente.

Il Conteggio validi fornisce il numero assoluto. Dei 50.000 Contact, 35.800 hanno indirizzi e-mail validi. Quello è il pubblico effettivamente raggiungibile per le campagne e-mail, non i 50.000 nel sistema. Il marketing può stabilire proiezioni realistiche delle campagne invece di lavorare con numeri gonfiati.

Passaggio 2: Qual è il quadro completo?

I tassi indicano la gravità. I conteggi indicano il carico di lavoro. Due metriche completano il quadro:

Metrica	Cosa indica
Tasso di non validità	La formulazione negativa del punteggio di validità. «Il 29% dei nostri indirizzi e-mail è strutturalmente non valido» attira più attenzione in una presentazione al consiglio rispetto a «il 71% è valido». Stessi dati, formulati per l’azione.
Conteggio non validi	Il carico di lavoro di pulizia come numero preciso. L’azienda sta migrando a un nuovo sistema di telefonia che richiede il formato E.164. Conteggio non validi sul campo Phone: 23.400. Questo è il numero esatto di record che necessitano di riformattazione prima che la migrazione possa andare in produzione.

Passaggio 3: C’è spazzatura oltre gli errori di formato?

Un valore può superare un controllo di formato ed essere comunque inutile. Il modulo web-to-lead richiede un campo Company. Il Tasso di validità sul campo Company è del 98%, perché quasi tutto supera un modello di testo base. Ma il Tasso di rumore rivela che il 14% di quei valori sono voci come «asdf», «test», «xxxxx» o «na na na». Validi per il formato, ma completamente inutili per il routing commerciale, l’arricchimento o la segmentazione.

Il Conteggio record rumorosi fornisce la dimensione del progetto di pulizia. Se il Tasso di rumore è del 14% su 50.000 record, sono 7.000 Lead con nomi azienda spazzatura. Il team operativo può creare una coda di pulizia, stimare le ore e decidere se eliminare automaticamente o segnalare per revisione manuale.

Due categorie di fallimento

Le metriche di validità distinguono due problemi fondamentalmente diversi:

Problema	Metriche	Causa	Soluzione
Errori di formato	Tasso di validità, Tasso di non validità, Conteggio validi/non validi	Errori umani, bug delle integrazioni, Validation Rule mancanti	Pulire i dati: Validation Rule sui campi, trasformazione dei dati, arricchimento
Rumore e spazzatura	Tasso di rumore, Conteggio record rumorosi	Bot, invii forzati di moduli, importazioni di massa con valori predefiniti spazzatura	Correggere la fonte: CAPTCHA, riprogettazione dei campi obbligatori, eliminazione dei record

La distinzione è importante perché la soluzione è completamente diversa. Gli errori di formato si risolvono pulendo i dati. Il rumore si risolve correggendo la fonte che lo produce.

Riferimento metriche

Metriche fondamentali

Queste 2 metriche costituiscono la base di ogni analisi di validità. Indicano il tasso di corrispondenza e il numero di record che superano il controllo.

Metrica	Tipo	Cosa misura
Tasso di validità	Percentuale	Quota di record corrispondenti al modello configurato
Conteggio validi	Conteggio	Numero di record corrispondenti al modello configurato

Metriche avanzate

Queste 4 metriche vanno oltre il «corrisponde?» per fornire il quadro completo, incluso il rilevamento del rumore. Richiedono la modalità di analisi Validazione del formato avanzata.

Metrica	Tipo	Cosa misura
Tasso di non validità	Percentuale	Quota di record che non superano il modello configurato
Conteggio non validi	Conteggio	Numero di record che non superano il modello configurato
Tasso di rumore	Percentuale	Quota di record contenenti modelli di rumore (dati spazzatura)
Conteggio record rumorosi	Conteggio	Numero di record contenenti modelli di rumore

Perché tassi e conteggi sono in coppia

La maggior parte delle metriche è disponibile come tasso (percentuale) e conteggio (numero assoluto). Questo è intenzionale:

I tassi servono per dashboard, reportistica dirigenziale e monitoraggio delle tendenze. «La validità è migliorata dal 71% al 92% in questo trimestre.»
I conteggi servono per la pianificazione dei progetti, la stima del carico di lavoro e il dimensionamento delle operazioni di pulizia. «Abbiamo 23.400 numeri di telefono da riformattare.»

Si utilizzino i tassi per comunicare i progressi. Si utilizzino i conteggi per pianificare il lavoro.

Copertura per tipo di campo

Tutte e 6 le metriche di validità condividono lo stesso supporto base per tipo di campo, con le metriche di rumore limitate ai campi di testo.

Metrica	Tutti i 6 tipi di campo	Solo String e TextArea
Tasso di validità	X
Conteggio validi	X
Tasso di non validità	X
Conteggio non validi	X
Tasso di rumore		X
Conteggio record rumorosi		X

Le metriche basate su modelli (Tasso di validità, Conteggio validi, Tasso di non validità, Conteggio non validi) funzionano su tutti i 6 tipi di campo supportati: String, TextArea, Email, Phone, URL e Picklist.

Le metriche di rumore (Tasso di rumore, Conteggio record rumorosi) si applicano solo ai campi String e TextArea. I modelli di rumore come i caratteri ripetuti e la digitazione casuale sono fenomeni del testo libero. Un campo Picklist con un valore di picklist valido non può contenere rumore. Il rilevamento del rumore ha senso solo sui campi in cui gli utenti digitano testo libero.

Due modalità di analisi

DQS offre due modalità di analisi della validità:

Validazione del formato risponde alla domanda: «I valori dei campi corrispondono al modello previsto?» Produce le 2 metriche fondamentali e copre gli elementi essenziali per un controllo di conformità al formato o un audit rapido.

Validazione del formato avanzata va più in profondità. Produce tutte e 6 le metriche, inclusa la ripartizione completa validi/non validi e il rilevamento del rumore. Si utilizzi questa modalità quando è necessario distinguere tra errori di formato e dati spazzatura, o quando servono conteggi precisi per la pianificazione dei progetti di pulizia.

Esigenza aziendale	Modalità consigliata
Controllo rapido di conformità al formato	Validazione del formato
Reportistica di conformità o audit	Avanzata (ripartizione completa validi/non validi per i regolatori)
Valutazione della qualità dei Lead	Avanzata (il Tasso di rumore intercetta la spazzatura che supera i controlli di formato)
Valutazione dei dati pre-migrazione	Avanzata (ripartizione completa per dimensionare il rimedio per categoria)
Governance dei dati continuativa	Iniziare con la Validazione del formato, passare alla modalità Avanzata per il rilevamento del rumore

Configurazione della validità

A differenza della completezza (che funziona automaticamente su qualsiasi campo), la validità richiede configurazione. È necessario definire cosa significa «valido» per ogni campo prima che DQS possa verificarlo. Una scansione di validità senza un modello è priva di significato: valido rispetto a cosa?

DQS fornisce 5 parametri di configurazione. Ciascuno può essere impostato a livello globale (si applica a tutti i campi) e sovrascritto a livello di singolo campo.

Impostazione	Cosa controlla
Tipo di modello	Il formato rispetto al quale validare. Scegliere tra Email, URL, Lunghezza fissa o Regex personalizzato. Obbligatorio: è necessario selezionare un tipo di modello prima di eseguire una scansione.
Modello / Lunghezza fissa	Il valore specifico per il tipo scelto. Per Lunghezza fissa, inserire un conteggio di caratteri (da 1 a 255). Per Personalizzato, inserire un modello regex. Email e URL utilizzano modelli integrati.
Modello personalizzato	Il proprio regex quando il Tipo di modello è impostato su Personalizzato. DQS valida il regex prima del salvataggio e blocca le espressioni non valide.
Includi vuoti	Quando abilitato, DQS conta i valori vuoti come non validi. Quando disabilitato (impostazione predefinita), i vuoti sono completamente esclusi dalla valutazione.
Distinzione maiuscole/minuscole	Quando abilitato, il confronto del modello considera le maiuscole e le minuscole. Quando disabilitato (impostazione predefinita), il confronto è senza distinzione.

Tipi di modello

Tipo	Cosa valida	Esempio superato	Esempio non superato
Email	Formato standard di indirizzo e-mail: [email protected]	[email protected]	user@domain, invalid-email
URL	Indirizzi web HTTP/HTTPS con dominio valido	https://example.com	example.com, htp://site.com
Lunghezza fissa	Conteggio esatto di caratteri (il numero è definito dall’utente)	`AAAAAAAAAA` (10 caratteri, se lunghezza = 10)	`SHORT` (5 caratteri)
Personalizzato	Qualsiasi modello regex definito dall’utente	Dipende dal modello	Dipende dal modello

Esempio: I codici prodotto seguono il formato «DQS-» seguito da 6 cifre. Impostare il Tipo di modello su Personalizzato e inserire il regex ^DQS-\d{6}$. DQS segnala qualsiasi codice prodotto che non corrisponde a questa struttura.

Rilevamento del rumore

Il rilevamento del rumore intercetta i dati che superano i controlli di formato ma sono comunque spazzatura. DQS utilizza due euristiche integrate per identificare i valori rumorosi:

Euristica 1: Caratteri identici consecutivi. Tre o più occorrenze dello stesso carattere di fila. Valori come «aaaa», «!!!», «---» o «xxxxx» attivano questo controllo. Derivano tipicamente dalla pressione prolungata di un tasto, dal riempimento o dall’abuso di segnaposto.

Euristica 2: Eccesso di caratteri speciali. Più del 50% di caratteri non alfanumerici (esclusi gli spazi). Valori come «!@#$%^» o «***///---» attivano questo controllo. Indicano digitazione casuale, input di bot o inserimento deliberato di dati spazzatura.

Euristica	Cosa intercetta	Esempi di valori rumorosi	Esempi di valori puliti
3+ caratteri identici consecutivi	Riempimento, filler, pressione prolungata del tasto	«aaaa», «!!!», «---», «xxxxx»	«Premium», «DOT AB3 2024»
Più del 50% di caratteri speciali	Digitazione casuale, input di bot, spazzatura	«!@#$%^», «***test», «//—//»	«[email protected]», «O’Brien Inc»

È inoltre possibile definire modelli di rumore personalizzati tramite regex per la spazzatura specifica dell’organizzazione che le euristiche integrate non coprono.

Suggerimento: Il rilevamento del rumore è più utile sui campi di testo libero dove gli utenti possono digitare qualsiasi cosa: Company, Description, Notes e campi di testo personalizzati. Eseguirlo prima sui campi web-to-lead, dove gli invii di bot e le voci forzate sono più comuni.

Problemi comuni di validità

Indirizzi e-mail non validi

Gli utenti inseriscono e-mail senza il formato corretto. Simboli «@» mancanti, domini mancanti, punti doppi ed errori di battitura sono i problemi più comuni.

Problema	Esempio
@ mancante	john.company.com
Dominio mancante	john@
Punti doppi	[email protected]
Errori di battitura	[email protected]

Impatto: E-mail respinte, punteggio mittente danneggiato, comunicazione persa.

Numeri di telefono malformati

I campi telefonici accettano qualsiasi testo in Salesforce, portando a formati incoerenti e non validi.

Problema	Esempio
Lettere mischiate	555-CALL-NOW
Conteggio cifre errato	555-12
Interno nel campo	555-1234 ext 5
Confusione prefisso internazionale	1-555-123-4567 vs 555-123-4567

Impatto: Chiamate fallite, tempo commerciale sprecato, errori di sincronizzazione telefonica.

URL non validi

I campi degli indirizzi web contengono spesso valori parziali o malformati.

Problema	Esempio
Protocollo mancante	www.company.com
Dominio mancante	https://
Errori di battitura	htps://company.com
Handle social	@company (non è un URL)

Impatto: Link non funzionanti, arricchimento fallito, errori di navigazione.

Buone pratiche

Validare all’inserimento

Il miglior controllo di validità avviene all’inserimento dei dati. Utilizzare le Validation Rule di Salesforce per applicare i formati prima che i dati entrino nel sistema.

// Esempio: Validation Rule per il formato e-mail
NOT(ISBLANK(Email)) && NOT(REGEX(Email, "^[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\\.[A-Za-z]{2,}$"))

Standardizzare i formati prima della scansione

Scegliere un formato per ogni campo e applicarlo. Per i numeri di telefono, l’E.164 (+15551234567) è lo standard più universalmente accettato. Per gli URL, richiedere il protocollo https://. Documentare le decisioni sul formato in modo che il team conosca lo standard.

Impostare soglie per priorità del campo

Diversi campi necessitano di diversi standard di validità:

Campo	Soglia suggerita	Motivazione
E-mail primaria	95%+	Critica per la comunicazione
Telefono	90%+	Importante ma sono previsti dati legacy
Sito web	85%+	Spesso inserito in modo incompleto
Codici di testo personalizzati	98%+	Generati dal sistema, ci si aspetta alta conformità

Utilizzare il rilevamento del rumore sui campi di testo libero

Eseguire il rilevamento del rumore sui campi dove gli utenti digitano testo libero: Company, Description, campi di testo personalizzati e qualsiasi campo popolato da moduli web. Il Tasso di rumore rivela problemi che la validazione del formato non intercetta.

Documentare i formati previsti

Creare un dizionario dei dati che specifichi il formato previsto per ogni campo, le variazioni accettabili e gli esempi di valori validi e non validi. Condividerlo con il team e utilizzarlo come riferimento durante i progetti di pulizia dei dati.

Passaggi successivi

Ora si comprendono le modalità per validare i formati dei dati e rilevare i valori rumorosi. Si prosegua con la dimensione successiva:

In Salesforce: La qualità dei dati in Salesforce - applicate formati validi ai campi Salesforce
Successivo: Unicità - Rilevare e prevenire i record duplicati
Precedente: Completezza - Verificare che i dati richiesti siano presenti
Correlato: Le cinque dimensioni - Panoramica di tutte le dimensioni
Azione: Valutazione della prontezza AI - Verificare i punteggi attuali di validità