Che cos’è la validità?
La validità misura se i valori dei dati sono conformi ai formati e ai modelli previsti. Un valore è valido quando corrisponde alla struttura definita. Un valore è non valido quando viola le regole di formato.
Un indirizzo e-mail è valido quando contiene il simbolo «@» e un dominio. Un URL è valido quando inizia con un protocollo e contiene un dominio. Un codice prodotto è valido quando ha il numero esatto di caratteri richiesto dal sistema.
DQS valida i valori dei campi utilizzando modelli regex (espressioni regolari). È possibile scegliere tra modelli integrati per formati comuni come Email, URL e Lunghezza fissa, oppure scrivere il proprio regex per qualsiasi formato specifico dell’azienda.
Tasso di validità = (Record corrispondenti al modello / Record totali) x 100
Se 35.500 dei 50.000 record Contact hanno un indirizzo e-mail che corrisponde al modello del formato e-mail, il tasso di validità dell’Email è del 71%. Il restante 29% contiene valori che non superano il controllo del modello.
Validità vs accuratezza
Validità e accuratezza sono concetti diversi:
| Controllo | Valido? | Accurato? |
|---|---|---|
| [email protected] | Sì | Sconosciuto senza verifica |
| john@company | No | N/D (il formato è errato) |
| [email protected] | Sì | No (la persona ha lasciato l’azienda) |
| 555-123-4567 | Sì | Sconosciuto senza chiamare |
| 555-12-456 | No | N/D (conteggio di cifre errato) |
DQS misura la validità perché i controlli di formato possono essere automatizzati. L’accuratezza richiede una verifica esterna o una conferma umana.
I dati validi funzionano nei sistemi anche se non riflettono la realtà. I dati non validi interrompono i sistemi indipendentemente dalla loro veridicità nel mondo reale. Concentrarsi prima sulla validità. Affrontare l’accuratezza attraverso processi di verifica.
Perché la validità è importante
I dati non validi causano fallimenti in tutto lo stack. Le e-mail respinte danneggiano la reputazione del mittente. I numeri di telefono malformati sprecano tempo al dialer. Gli URL non funzionanti frustrano gli utenti e bloccano gli strumenti di arricchimento.
Le API rifiutano i dati malformati. Quando un’integrazione invia un formato e-mail non valido a una piattaforma di marketing, l’intero batch può fallire. I Flow di Salesforce che analizzano i valori dei campi si interrompono quando il formato è imprevisto.
I modelli di AI elaborano il testo così com’è. Quando un campo telefonico contiene «Phone: 555-1234» invece di un numero pulito, il modello vede modelli incoerenti. I formati non validi riducono l’efficacia dell’AI e producono output Agentforce inaffidabili.
| Sistema | Impatto della validità |
|---|---|
| Campagne e-mail | I respingimenti danneggiano la reputazione del mittente |
| Telefonia | I numeri non validi sprecano tempo al dialer |
| Link web | Gli URL non funzionanti bloccano l’arricchimento e la navigazione |
| API | I dati malformati causano fallimenti di sincronizzazione |
| AI e Agentforce | I formati incoerenti riducono la precisione del modello |
Come DQS misura la validità
DQS produce 6 metriche di validità organizzate attorno a una domanda diagnostica: «I dati corrispondono al modello e c’è spazzatura nascosta nei valori che lo superano?»
Si pensi a queste metriche come a un flusso diagnostico. Ogni passaggio rivela un livello più profondo del problema.
Passaggio 1: Corrisponde al modello?
Il Tasso di validità è la metrica principale. Calcola la percentuale di record in cui il valore del campo corrisponde al modello configurato. È il numero da inserire in una dashboard.
Si configura il modello Email sul campo PersonEmail per i Contact. Il Tasso di validità risulta del 71%. Ciò significa che il 29% degli indirizzi e-mail non supera il controllo di formato. Manca il simbolo «@», non c’è un dominio o sono presenti spazi. Ogni campagna di marketing inviata a quegli indirizzi viene respinta. Ogni workflow automatizzato che si attiva sull’e-mail fallisce silenziosamente.
Il Conteggio validi fornisce il numero assoluto. Dei 50.000 Contact, 35.800 hanno indirizzi e-mail validi. Quello è il pubblico effettivamente raggiungibile per le campagne e-mail, non i 50.000 nel sistema. Il marketing può stabilire proiezioni realistiche delle campagne invece di lavorare con numeri gonfiati.
Passaggio 2: Qual è il quadro completo?
I tassi indicano la gravità. I conteggi indicano il carico di lavoro. Due metriche completano il quadro:
| Metrica | Cosa indica |
|---|---|
| Tasso di non validità | La formulazione negativa del punteggio di validità. «Il 29% dei nostri indirizzi e-mail è strutturalmente non valido» attira più attenzione in una presentazione al consiglio rispetto a «il 71% è valido». Stessi dati, formulati per l’azione. |
| Conteggio non validi | Il carico di lavoro di pulizia come numero preciso. L’azienda sta migrando a un nuovo sistema di telefonia che richiede il formato E.164. Conteggio non validi sul campo Phone: 23.400. Questo è il numero esatto di record che necessitano di riformattazione prima che la migrazione possa andare in produzione. |
Passaggio 3: C’è spazzatura oltre gli errori di formato?
Un valore può superare un controllo di formato ed essere comunque inutile. Il modulo web-to-lead richiede un campo Company. Il Tasso di validità sul campo Company è del 98%, perché quasi tutto supera un modello di testo base. Ma il Tasso di rumore rivela che il 14% di quei valori sono voci come «asdf», «test», «xxxxx» o «na na na». Validi per il formato, ma completamente inutili per il routing commerciale, l’arricchimento o la segmentazione.
Il Conteggio record rumorosi fornisce la dimensione del progetto di pulizia. Se il Tasso di rumore è del 14% su 50.000 record, sono 7.000 Lead con nomi azienda spazzatura. Il team operativo può creare una coda di pulizia, stimare le ore e decidere se eliminare automaticamente o segnalare per revisione manuale.
Due categorie di fallimento
Le metriche di validità distinguono due problemi fondamentalmente diversi:
| Problema | Metriche | Causa | Soluzione |
|---|---|---|---|
| Errori di formato | Tasso di validità, Tasso di non validità, Conteggio validi/non validi | Errori umani, bug delle integrazioni, Validation Rule mancanti | Pulire i dati: Validation Rule sui campi, trasformazione dei dati, arricchimento |
| Rumore e spazzatura | Tasso di rumore, Conteggio record rumorosi | Bot, invii forzati di moduli, importazioni di massa con valori predefiniti spazzatura | Correggere la fonte: CAPTCHA, riprogettazione dei campi obbligatori, eliminazione dei record |
La distinzione è importante perché la soluzione è completamente diversa. Gli errori di formato si risolvono pulendo i dati. Il rumore si risolve correggendo la fonte che lo produce.
Riferimento metriche
Metriche fondamentali
Queste 2 metriche costituiscono la base di ogni analisi di validità. Indicano il tasso di corrispondenza e il numero di record che superano il controllo.
| Metrica | Tipo | Cosa misura |
|---|---|---|
| Tasso di validità | Percentuale | Quota di record corrispondenti al modello configurato |
| Conteggio validi | Conteggio | Numero di record corrispondenti al modello configurato |
Metriche avanzate
Queste 4 metriche vanno oltre il «corrisponde?» per fornire il quadro completo, incluso il rilevamento del rumore. Richiedono la modalità di analisi Validazione del formato avanzata.
| Metrica | Tipo | Cosa misura |
|---|---|---|
| Tasso di non validità | Percentuale | Quota di record che non superano il modello configurato |
| Conteggio non validi | Conteggio | Numero di record che non superano il modello configurato |
| Tasso di rumore | Percentuale | Quota di record contenenti modelli di rumore (dati spazzatura) |
| Conteggio record rumorosi | Conteggio | Numero di record contenenti modelli di rumore |
Perché tassi e conteggi sono in coppia
La maggior parte delle metriche è disponibile come tasso (percentuale) e conteggio (numero assoluto). Questo è intenzionale:
- I tassi servono per dashboard, reportistica dirigenziale e monitoraggio delle tendenze. «La validità è migliorata dal 71% al 92% in questo trimestre.»
- I conteggi servono per la pianificazione dei progetti, la stima del carico di lavoro e il dimensionamento delle operazioni di pulizia. «Abbiamo 23.400 numeri di telefono da riformattare.»
Si utilizzino i tassi per comunicare i progressi. Si utilizzino i conteggi per pianificare il lavoro.
Copertura per tipo di campo
Tutte e 6 le metriche di validità condividono lo stesso supporto base per tipo di campo, con le metriche di rumore limitate ai campi di testo.
| Metrica | Tutti i 6 tipi di campo | Solo String e TextArea |
|---|---|---|
| Tasso di validità | X | |
| Conteggio validi | X | |
| Tasso di non validità | X | |
| Conteggio non validi | X | |
| Tasso di rumore | X | |
| Conteggio record rumorosi | X |
Le metriche basate su modelli (Tasso di validità, Conteggio validi, Tasso di non validità, Conteggio non validi) funzionano su tutti i 6 tipi di campo supportati: String, TextArea, Email, Phone, URL e Picklist.
Le metriche di rumore (Tasso di rumore, Conteggio record rumorosi) si applicano solo ai campi String e TextArea. I modelli di rumore come i caratteri ripetuti e la digitazione casuale sono fenomeni del testo libero. Un campo Picklist con un valore di picklist valido non può contenere rumore. Il rilevamento del rumore ha senso solo sui campi in cui gli utenti digitano testo libero.
Due modalità di analisi
DQS offre due modalità di analisi della validità:
Validazione del formato risponde alla domanda: «I valori dei campi corrispondono al modello previsto?» Produce le 2 metriche fondamentali e copre gli elementi essenziali per un controllo di conformità al formato o un audit rapido.
Validazione del formato avanzata va più in profondità. Produce tutte e 6 le metriche, inclusa la ripartizione completa validi/non validi e il rilevamento del rumore. Si utilizzi questa modalità quando è necessario distinguere tra errori di formato e dati spazzatura, o quando servono conteggi precisi per la pianificazione dei progetti di pulizia.
| Esigenza aziendale | Modalità consigliata |
|---|---|
| Controllo rapido di conformità al formato | Validazione del formato |
| Reportistica di conformità o audit | Avanzata (ripartizione completa validi/non validi per i regolatori) |
| Valutazione della qualità dei Lead | Avanzata (il Tasso di rumore intercetta la spazzatura che supera i controlli di formato) |
| Valutazione dei dati pre-migrazione | Avanzata (ripartizione completa per dimensionare il rimedio per categoria) |
| Governance dei dati continuativa | Iniziare con la Validazione del formato, passare alla modalità Avanzata per il rilevamento del rumore |
Configurazione della validità
A differenza della completezza (che funziona automaticamente su qualsiasi campo), la validità richiede configurazione. È necessario definire cosa significa «valido» per ogni campo prima che DQS possa verificarlo. Una scansione di validità senza un modello è priva di significato: valido rispetto a cosa?
DQS fornisce 5 parametri di configurazione. Ciascuno può essere impostato a livello globale (si applica a tutti i campi) e sovrascritto a livello di singolo campo.
| Impostazione | Cosa controlla |
|---|---|
| Tipo di modello | Il formato rispetto al quale validare. Scegliere tra Email, URL, Lunghezza fissa o Regex personalizzato. Obbligatorio: è necessario selezionare un tipo di modello prima di eseguire una scansione. |
| Modello / Lunghezza fissa | Il valore specifico per il tipo scelto. Per Lunghezza fissa, inserire un conteggio di caratteri (da 1 a 255). Per Personalizzato, inserire un modello regex. Email e URL utilizzano modelli integrati. |
| Modello personalizzato | Il proprio regex quando il Tipo di modello è impostato su Personalizzato. DQS valida il regex prima del salvataggio e blocca le espressioni non valide. |
| Includi vuoti | Quando abilitato, DQS conta i valori vuoti come non validi. Quando disabilitato (impostazione predefinita), i vuoti sono completamente esclusi dalla valutazione. |
| Distinzione maiuscole/minuscole | Quando abilitato, il confronto del modello considera le maiuscole e le minuscole. Quando disabilitato (impostazione predefinita), il confronto è senza distinzione. |
Tipi di modello
| Tipo | Cosa valida | Esempio superato | Esempio non superato |
|---|---|---|---|
| Formato standard di indirizzo e-mail: [email protected] | [email protected] | user@domain, invalid-email | |
| URL | Indirizzi web HTTP/HTTPS con dominio valido | https://example.com | example.com, htp://site.com |
| Lunghezza fissa | Conteggio esatto di caratteri (il numero è definito dall’utente) | AAAAAAAAAA (10 caratteri, se lunghezza = 10) | SHORT (5 caratteri) |
| Personalizzato | Qualsiasi modello regex definito dall’utente | Dipende dal modello | Dipende dal modello |
Esempio: I codici prodotto seguono il formato «DQS-» seguito da 6 cifre. Impostare il Tipo di modello su Personalizzato e inserire il regex ^DQS-\d{6}$. DQS segnala qualsiasi codice prodotto che non corrisponde a questa struttura.
Rilevamento del rumore
Il rilevamento del rumore intercetta i dati che superano i controlli di formato ma sono comunque spazzatura. DQS utilizza due euristiche integrate per identificare i valori rumorosi:
Euristica 1: Caratteri identici consecutivi. Tre o più occorrenze dello stesso carattere di fila. Valori come «aaaa», «!!!», «---» o «xxxxx» attivano questo controllo. Derivano tipicamente dalla pressione prolungata di un tasto, dal riempimento o dall’abuso di segnaposto.
Euristica 2: Eccesso di caratteri speciali. Più del 50% di caratteri non alfanumerici (esclusi gli spazi). Valori come «!@#$%^» o «***///---» attivano questo controllo. Indicano digitazione casuale, input di bot o inserimento deliberato di dati spazzatura.
| Euristica | Cosa intercetta | Esempi di valori rumorosi | Esempi di valori puliti |
|---|---|---|---|
| 3+ caratteri identici consecutivi | Riempimento, filler, pressione prolungata del tasto | «aaaa», «!!!», «---», «xxxxx» | «Premium», «DOT AB3 2024» |
| Più del 50% di caratteri speciali | Digitazione casuale, input di bot, spazzatura | «!@#$%^», «***test», «//—//» | «[email protected]», «O’Brien Inc» |
È inoltre possibile definire modelli di rumore personalizzati tramite regex per la spazzatura specifica dell’organizzazione che le euristiche integrate non coprono.
Suggerimento: Il rilevamento del rumore è più utile sui campi di testo libero dove gli utenti possono digitare qualsiasi cosa: Company, Description, Notes e campi di testo personalizzati. Eseguirlo prima sui campi web-to-lead, dove gli invii di bot e le voci forzate sono più comuni.
Problemi comuni di validità
Indirizzi e-mail non validi
Gli utenti inseriscono e-mail senza il formato corretto. Simboli «@» mancanti, domini mancanti, punti doppi ed errori di battitura sono i problemi più comuni.
| Problema | Esempio |
|---|---|
| @ mancante | john.company.com |
| Dominio mancante | john@ |
| Punti doppi | [email protected] |
| Errori di battitura | [email protected] |
Impatto: E-mail respinte, punteggio mittente danneggiato, comunicazione persa.
Numeri di telefono malformati
I campi telefonici accettano qualsiasi testo in Salesforce, portando a formati incoerenti e non validi.
| Problema | Esempio |
|---|---|
| Lettere mischiate | 555-CALL-NOW |
| Conteggio cifre errato | 555-12 |
| Interno nel campo | 555-1234 ext 5 |
| Confusione prefisso internazionale | 1-555-123-4567 vs 555-123-4567 |
Impatto: Chiamate fallite, tempo commerciale sprecato, errori di sincronizzazione telefonica.
URL non validi
I campi degli indirizzi web contengono spesso valori parziali o malformati.
| Problema | Esempio |
|---|---|
| Protocollo mancante | www.company.com |
| Dominio mancante | https:// |
| Errori di battitura | htps://company.com |
| Handle social | @company (non è un URL) |
Impatto: Link non funzionanti, arricchimento fallito, errori di navigazione.
Buone pratiche
Validare all’inserimento
Il miglior controllo di validità avviene all’inserimento dei dati. Utilizzare le Validation Rule di Salesforce per applicare i formati prima che i dati entrino nel sistema.
// Esempio: Validation Rule per il formato e-mail
NOT(ISBLANK(Email)) && NOT(REGEX(Email, "^[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\\.[A-Za-z]{2,}$"))
Standardizzare i formati prima della scansione
Scegliere un formato per ogni campo e applicarlo. Per i numeri di telefono, l’E.164 (+15551234567) è lo standard più universalmente accettato. Per gli URL, richiedere il protocollo https://. Documentare le decisioni sul formato in modo che il team conosca lo standard.
Impostare soglie per priorità del campo
Diversi campi necessitano di diversi standard di validità:
| Campo | Soglia suggerita | Motivazione |
|---|---|---|
| E-mail primaria | 95%+ | Critica per la comunicazione |
| Telefono | 90%+ | Importante ma sono previsti dati legacy |
| Sito web | 85%+ | Spesso inserito in modo incompleto |
| Codici di testo personalizzati | 98%+ | Generati dal sistema, ci si aspetta alta conformità |
Utilizzare il rilevamento del rumore sui campi di testo libero
Eseguire il rilevamento del rumore sui campi dove gli utenti digitano testo libero: Company, Description, campi di testo personalizzati e qualsiasi campo popolato da moduli web. Il Tasso di rumore rivela problemi che la validazione del formato non intercetta.
Documentare i formati previsti
Creare un dizionario dei dati che specifichi il formato previsto per ogni campo, le variazioni accettabili e gli esempi di valori validi e non validi. Condividerlo con il team e utilizzarlo come riferimento durante i progetti di pulizia dei dati.
Passaggi successivi
Ora si comprendono le modalità per validare i formati dei dati e rilevare i valori rumorosi. Si prosegua con la dimensione successiva:
- In Salesforce: La qualità dei dati in Salesforce - applicate formati validi ai campi Salesforce
- Successivo: Unicità - Rilevare e prevenire i record duplicati
- Precedente: Completezza - Verificare che i dati richiesti siano presenti
- Correlato: Le cinque dimensioni - Panoramica di tutte le dimensioni
- Azione: Valutazione della prontezza AI - Verificare i punteggi attuali di validità