Skip to main content

Validità

Tutte le 6 metriche di validità misurate da DQS, il flusso diagnostico per individuare errori di formato e rumore e come configurare la validazione basata su modelli.

Che cos’è la validità?

La validità misura se i valori dei dati sono conformi ai formati e ai modelli previsti. Un valore è valido quando corrisponde alla struttura definita. Un valore è non valido quando viola le regole di formato.

Un indirizzo e-mail è valido quando contiene il simbolo «@» e un dominio. Un URL è valido quando inizia con un protocollo e contiene un dominio. Un codice prodotto è valido quando ha il numero esatto di caratteri richiesto dal sistema.

DQS valida i valori dei campi utilizzando modelli regex (espressioni regolari). È possibile scegliere tra modelli integrati per formati comuni come Email, URL e Lunghezza fissa, oppure scrivere il proprio regex per qualsiasi formato specifico dell’azienda.

Tasso di validità = (Record corrispondenti al modello / Record totali) x 100

Se 35.500 dei 50.000 record Contact hanno un indirizzo e-mail che corrisponde al modello del formato e-mail, il tasso di validità dell’Email è del 71%. Il restante 29% contiene valori che non superano il controllo del modello.

Validità vs accuratezza

Validità e accuratezza sono concetti diversi:

ControlloValido?Accurato?
[email protected]Sconosciuto senza verifica
john@companyNoN/D (il formato è errato)
[email protected]No (la persona ha lasciato l’azienda)
555-123-4567Sconosciuto senza chiamare
555-12-456NoN/D (conteggio di cifre errato)

DQS misura la validità perché i controlli di formato possono essere automatizzati. L’accuratezza richiede una verifica esterna o una conferma umana.

I dati validi funzionano nei sistemi anche se non riflettono la realtà. I dati non validi interrompono i sistemi indipendentemente dalla loro veridicità nel mondo reale. Concentrarsi prima sulla validità. Affrontare l’accuratezza attraverso processi di verifica.

Perché la validità è importante

I dati non validi causano fallimenti in tutto lo stack. Le e-mail respinte danneggiano la reputazione del mittente. I numeri di telefono malformati sprecano tempo al dialer. Gli URL non funzionanti frustrano gli utenti e bloccano gli strumenti di arricchimento.

Le API rifiutano i dati malformati. Quando un’integrazione invia un formato e-mail non valido a una piattaforma di marketing, l’intero batch può fallire. I Flow di Salesforce che analizzano i valori dei campi si interrompono quando il formato è imprevisto.

I modelli di AI elaborano il testo così com’è. Quando un campo telefonico contiene «Phone: 555-1234» invece di un numero pulito, il modello vede modelli incoerenti. I formati non validi riducono l’efficacia dell’AI e producono output Agentforce inaffidabili.

SistemaImpatto della validità
Campagne e-mailI respingimenti danneggiano la reputazione del mittente
TelefoniaI numeri non validi sprecano tempo al dialer
Link webGli URL non funzionanti bloccano l’arricchimento e la navigazione
APII dati malformati causano fallimenti di sincronizzazione
AI e AgentforceI formati incoerenti riducono la precisione del modello

Come DQS misura la validità

DQS produce 6 metriche di validità organizzate attorno a una domanda diagnostica: «I dati corrispondono al modello e c’è spazzatura nascosta nei valori che lo superano?»

Si pensi a queste metriche come a un flusso diagnostico. Ogni passaggio rivela un livello più profondo del problema.

Passaggio 1: Corrisponde al modello?

Il Tasso di validità è la metrica principale. Calcola la percentuale di record in cui il valore del campo corrisponde al modello configurato. È il numero da inserire in una dashboard.

Si configura il modello Email sul campo PersonEmail per i Contact. Il Tasso di validità risulta del 71%. Ciò significa che il 29% degli indirizzi e-mail non supera il controllo di formato. Manca il simbolo «@», non c’è un dominio o sono presenti spazi. Ogni campagna di marketing inviata a quegli indirizzi viene respinta. Ogni workflow automatizzato che si attiva sull’e-mail fallisce silenziosamente.

Il Conteggio validi fornisce il numero assoluto. Dei 50.000 Contact, 35.800 hanno indirizzi e-mail validi. Quello è il pubblico effettivamente raggiungibile per le campagne e-mail, non i 50.000 nel sistema. Il marketing può stabilire proiezioni realistiche delle campagne invece di lavorare con numeri gonfiati.

Passaggio 2: Qual è il quadro completo?

I tassi indicano la gravità. I conteggi indicano il carico di lavoro. Due metriche completano il quadro:

MetricaCosa indica
Tasso di non validitàLa formulazione negativa del punteggio di validità. «Il 29% dei nostri indirizzi e-mail è strutturalmente non valido» attira più attenzione in una presentazione al consiglio rispetto a «il 71% è valido». Stessi dati, formulati per l’azione.
Conteggio non validiIl carico di lavoro di pulizia come numero preciso. L’azienda sta migrando a un nuovo sistema di telefonia che richiede il formato E.164. Conteggio non validi sul campo Phone: 23.400. Questo è il numero esatto di record che necessitano di riformattazione prima che la migrazione possa andare in produzione.

Passaggio 3: C’è spazzatura oltre gli errori di formato?

Un valore può superare un controllo di formato ed essere comunque inutile. Il modulo web-to-lead richiede un campo Company. Il Tasso di validità sul campo Company è del 98%, perché quasi tutto supera un modello di testo base. Ma il Tasso di rumore rivela che il 14% di quei valori sono voci come «asdf», «test», «xxxxx» o «na na na». Validi per il formato, ma completamente inutili per il routing commerciale, l’arricchimento o la segmentazione.

Il Conteggio record rumorosi fornisce la dimensione del progetto di pulizia. Se il Tasso di rumore è del 14% su 50.000 record, sono 7.000 Lead con nomi azienda spazzatura. Il team operativo può creare una coda di pulizia, stimare le ore e decidere se eliminare automaticamente o segnalare per revisione manuale.

Due categorie di fallimento

Le metriche di validità distinguono due problemi fondamentalmente diversi:

ProblemaMetricheCausaSoluzione
Errori di formatoTasso di validità, Tasso di non validità, Conteggio validi/non validiErrori umani, bug delle integrazioni, Validation Rule mancantiPulire i dati: Validation Rule sui campi, trasformazione dei dati, arricchimento
Rumore e spazzaturaTasso di rumore, Conteggio record rumorosiBot, invii forzati di moduli, importazioni di massa con valori predefiniti spazzaturaCorreggere la fonte: CAPTCHA, riprogettazione dei campi obbligatori, eliminazione dei record

La distinzione è importante perché la soluzione è completamente diversa. Gli errori di formato si risolvono pulendo i dati. Il rumore si risolve correggendo la fonte che lo produce.

Riferimento metriche

Metriche fondamentali

Queste 2 metriche costituiscono la base di ogni analisi di validità. Indicano il tasso di corrispondenza e il numero di record che superano il controllo.

MetricaTipoCosa misura
Tasso di validitàPercentualeQuota di record corrispondenti al modello configurato
Conteggio validiConteggioNumero di record corrispondenti al modello configurato

Metriche avanzate

Queste 4 metriche vanno oltre il «corrisponde?» per fornire il quadro completo, incluso il rilevamento del rumore. Richiedono la modalità di analisi Validazione del formato avanzata.

MetricaTipoCosa misura
Tasso di non validitàPercentualeQuota di record che non superano il modello configurato
Conteggio non validiConteggioNumero di record che non superano il modello configurato
Tasso di rumorePercentualeQuota di record contenenti modelli di rumore (dati spazzatura)
Conteggio record rumorosiConteggioNumero di record contenenti modelli di rumore

Perché tassi e conteggi sono in coppia

La maggior parte delle metriche è disponibile come tasso (percentuale) e conteggio (numero assoluto). Questo è intenzionale:

  • I tassi servono per dashboard, reportistica dirigenziale e monitoraggio delle tendenze. «La validità è migliorata dal 71% al 92% in questo trimestre.»
  • I conteggi servono per la pianificazione dei progetti, la stima del carico di lavoro e il dimensionamento delle operazioni di pulizia. «Abbiamo 23.400 numeri di telefono da riformattare.»

Si utilizzino i tassi per comunicare i progressi. Si utilizzino i conteggi per pianificare il lavoro.

Copertura per tipo di campo

Tutte e 6 le metriche di validità condividono lo stesso supporto base per tipo di campo, con le metriche di rumore limitate ai campi di testo.

MetricaTutti i 6 tipi di campoSolo String e TextArea
Tasso di validitàX
Conteggio validiX
Tasso di non validitàX
Conteggio non validiX
Tasso di rumoreX
Conteggio record rumorosiX

Le metriche basate su modelli (Tasso di validità, Conteggio validi, Tasso di non validità, Conteggio non validi) funzionano su tutti i 6 tipi di campo supportati: String, TextArea, Email, Phone, URL e Picklist.

Le metriche di rumore (Tasso di rumore, Conteggio record rumorosi) si applicano solo ai campi String e TextArea. I modelli di rumore come i caratteri ripetuti e la digitazione casuale sono fenomeni del testo libero. Un campo Picklist con un valore di picklist valido non può contenere rumore. Il rilevamento del rumore ha senso solo sui campi in cui gli utenti digitano testo libero.

Due modalità di analisi

DQS offre due modalità di analisi della validità:

Validazione del formato risponde alla domanda: «I valori dei campi corrispondono al modello previsto?» Produce le 2 metriche fondamentali e copre gli elementi essenziali per un controllo di conformità al formato o un audit rapido.

Validazione del formato avanzata va più in profondità. Produce tutte e 6 le metriche, inclusa la ripartizione completa validi/non validi e il rilevamento del rumore. Si utilizzi questa modalità quando è necessario distinguere tra errori di formato e dati spazzatura, o quando servono conteggi precisi per la pianificazione dei progetti di pulizia.

Esigenza aziendaleModalità consigliata
Controllo rapido di conformità al formatoValidazione del formato
Reportistica di conformità o auditAvanzata (ripartizione completa validi/non validi per i regolatori)
Valutazione della qualità dei LeadAvanzata (il Tasso di rumore intercetta la spazzatura che supera i controlli di formato)
Valutazione dei dati pre-migrazioneAvanzata (ripartizione completa per dimensionare il rimedio per categoria)
Governance dei dati continuativaIniziare con la Validazione del formato, passare alla modalità Avanzata per il rilevamento del rumore

Configurazione della validità

A differenza della completezza (che funziona automaticamente su qualsiasi campo), la validità richiede configurazione. È necessario definire cosa significa «valido» per ogni campo prima che DQS possa verificarlo. Una scansione di validità senza un modello è priva di significato: valido rispetto a cosa?

DQS fornisce 5 parametri di configurazione. Ciascuno può essere impostato a livello globale (si applica a tutti i campi) e sovrascritto a livello di singolo campo.

ImpostazioneCosa controlla
Tipo di modelloIl formato rispetto al quale validare. Scegliere tra Email, URL, Lunghezza fissa o Regex personalizzato. Obbligatorio: è necessario selezionare un tipo di modello prima di eseguire una scansione.
Modello / Lunghezza fissaIl valore specifico per il tipo scelto. Per Lunghezza fissa, inserire un conteggio di caratteri (da 1 a 255). Per Personalizzato, inserire un modello regex. Email e URL utilizzano modelli integrati.
Modello personalizzatoIl proprio regex quando il Tipo di modello è impostato su Personalizzato. DQS valida il regex prima del salvataggio e blocca le espressioni non valide.
Includi vuotiQuando abilitato, DQS conta i valori vuoti come non validi. Quando disabilitato (impostazione predefinita), i vuoti sono completamente esclusi dalla valutazione.
Distinzione maiuscole/minuscoleQuando abilitato, il confronto del modello considera le maiuscole e le minuscole. Quando disabilitato (impostazione predefinita), il confronto è senza distinzione.

Tipi di modello

TipoCosa validaEsempio superatoEsempio non superato
EmailFormato standard di indirizzo e-mail: [email protected][email protected]user@domain, invalid-email
URLIndirizzi web HTTP/HTTPS con dominio validohttps://example.comexample.com, htp://site.com
Lunghezza fissaConteggio esatto di caratteri (il numero è definito dall’utente)AAAAAAAAAA (10 caratteri, se lunghezza = 10)SHORT (5 caratteri)
PersonalizzatoQualsiasi modello regex definito dall’utenteDipende dal modelloDipende dal modello

Esempio: I codici prodotto seguono il formato «DQS-» seguito da 6 cifre. Impostare il Tipo di modello su Personalizzato e inserire il regex ^DQS-\d{6}$. DQS segnala qualsiasi codice prodotto che non corrisponde a questa struttura.

Rilevamento del rumore

Il rilevamento del rumore intercetta i dati che superano i controlli di formato ma sono comunque spazzatura. DQS utilizza due euristiche integrate per identificare i valori rumorosi:

Euristica 1: Caratteri identici consecutivi. Tre o più occorrenze dello stesso carattere di fila. Valori come «aaaa», «!!!», «---» o «xxxxx» attivano questo controllo. Derivano tipicamente dalla pressione prolungata di un tasto, dal riempimento o dall’abuso di segnaposto.

Euristica 2: Eccesso di caratteri speciali. Più del 50% di caratteri non alfanumerici (esclusi gli spazi). Valori come «!@#$%^» o «***///---» attivano questo controllo. Indicano digitazione casuale, input di bot o inserimento deliberato di dati spazzatura.

EuristicaCosa intercettaEsempi di valori rumorosiEsempi di valori puliti
3+ caratteri identici consecutiviRiempimento, filler, pressione prolungata del tasto«aaaa», «!!!», «---», «xxxxx»«Premium», «DOT AB3 2024»
Più del 50% di caratteri specialiDigitazione casuale, input di bot, spazzatura«!@#$%^», «***test», «//—//»«[email protected]», «O’Brien Inc»

È inoltre possibile definire modelli di rumore personalizzati tramite regex per la spazzatura specifica dell’organizzazione che le euristiche integrate non coprono.

Suggerimento: Il rilevamento del rumore è più utile sui campi di testo libero dove gli utenti possono digitare qualsiasi cosa: Company, Description, Notes e campi di testo personalizzati. Eseguirlo prima sui campi web-to-lead, dove gli invii di bot e le voci forzate sono più comuni.

Problemi comuni di validità

Indirizzi e-mail non validi

Gli utenti inseriscono e-mail senza il formato corretto. Simboli «@» mancanti, domini mancanti, punti doppi ed errori di battitura sono i problemi più comuni.

ProblemaEsempio
@ mancantejohn.company.com
Dominio mancantejohn@
Punti doppi[email protected]
Errori di battitura[email protected]

Impatto: E-mail respinte, punteggio mittente danneggiato, comunicazione persa.

Numeri di telefono malformati

I campi telefonici accettano qualsiasi testo in Salesforce, portando a formati incoerenti e non validi.

ProblemaEsempio
Lettere mischiate555-CALL-NOW
Conteggio cifre errato555-12
Interno nel campo555-1234 ext 5
Confusione prefisso internazionale1-555-123-4567 vs 555-123-4567

Impatto: Chiamate fallite, tempo commerciale sprecato, errori di sincronizzazione telefonica.

URL non validi

I campi degli indirizzi web contengono spesso valori parziali o malformati.

ProblemaEsempio
Protocollo mancantewww.company.com
Dominio mancantehttps://
Errori di battiturahtps://company.com
Handle social@company (non è un URL)

Impatto: Link non funzionanti, arricchimento fallito, errori di navigazione.

Buone pratiche

Validare all’inserimento

Il miglior controllo di validità avviene all’inserimento dei dati. Utilizzare le Validation Rule di Salesforce per applicare i formati prima che i dati entrino nel sistema.

// Esempio: Validation Rule per il formato e-mail
NOT(ISBLANK(Email)) && NOT(REGEX(Email, "^[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\\.[A-Za-z]{2,}$"))

Standardizzare i formati prima della scansione

Scegliere un formato per ogni campo e applicarlo. Per i numeri di telefono, l’E.164 (+15551234567) è lo standard più universalmente accettato. Per gli URL, richiedere il protocollo https://. Documentare le decisioni sul formato in modo che il team conosca lo standard.

Impostare soglie per priorità del campo

Diversi campi necessitano di diversi standard di validità:

CampoSoglia suggeritaMotivazione
E-mail primaria95%+Critica per la comunicazione
Telefono90%+Importante ma sono previsti dati legacy
Sito web85%+Spesso inserito in modo incompleto
Codici di testo personalizzati98%+Generati dal sistema, ci si aspetta alta conformità

Utilizzare il rilevamento del rumore sui campi di testo libero

Eseguire il rilevamento del rumore sui campi dove gli utenti digitano testo libero: Company, Description, campi di testo personalizzati e qualsiasi campo popolato da moduli web. Il Tasso di rumore rivela problemi che la validazione del formato non intercetta.

Documentare i formati previsti

Creare un dizionario dei dati che specifichi il formato previsto per ogni campo, le variazioni accettabili e gli esempi di valori validi e non validi. Condividerlo con il team e utilizzarlo come riferimento durante i progetti di pulizia dei dati.

Passaggi successivi

Ora si comprendono le modalità per validare i formati dei dati e rilevare i valori rumorosi. Si prosegua con la dimensione successiva: