Che cos’è la coerenza?
La coerenza misura se i valori dei dati sono conformi a uno standard concordato. Un campo è coerente quando ogni record utilizza lo stesso termine per lo stesso concetto. Un campo è incoerente quando esistono variazioni che significano la stessa cosa ma sono espresse in modo diverso.
«USA», «United States» e «US» si riferiscono tutti allo stesso Paese. Per Salesforce, sono tre valori distinti. Un report raggruppato per Country produce tre righe invece di una. Un’automazione che filtra per «USA» non intercetta 230 record che contengono «United States».
Tasso di conformità = (Record conformi / Record totali) x 100
Se 850 dei 1.000 record Account hanno un valore Country che corrisponde all’elenco dei valori consentiti, il tasso di conformità del Country è dell’85%. Il restante 15% contiene variazioni che necessitano di standardizzazione.
Perché la coerenza è importante
Reportistica
I dati incoerenti frammentano i report. Quando il campo Country contiene cinque diverse ortografie dello stesso Paese, un report raggruppato per Country mostra cinque righe invece di una. Il totale è corretto, ma il raggruppamento è errato. Le dashboard dirigenziali costruite su questi report raccontano una storia fuorviante.
Automazione
L’automazione di Salesforce dipende da corrispondenze esatte dei valori. Un workflow che filtra per Country = "USA" non intercetta i record con «United States» e «US». L’automazione viene eseguita correttamente sui record corrispondenti ma salta silenziosamente tutto il resto.
AI e Agentforce
I modelli di AI trattano ogni variazione come un concetto separato. «USA» e «United States» diventano due Paesi diversi nella visione del modello. Agentforce genera risposte utilizzando i valori dei campi. Valori incoerenti producono output AI incoerenti.
| Sistema | Impatto della coerenza |
|---|---|
| Report | Raggruppamenti frammentati, totali fuorvianti |
| Workflow | I filtri non intercettano le variazioni non corrispondenti |
| Regole di deduplicazione | Le variazioni impediscono il corretto abbinamento |
| Agentforce | Valori di campo incoerenti producono risposte AI inaffidabili |
Come DQS misura la coerenza
DQS produce 6 metriche di coerenza organizzate attorno a una domanda diagnostica: «I valori dei campi sono conformi a uno standard e, in caso contrario, che aspetto hanno?»
Si pensi a queste metriche come a un flusso diagnostico. Ogni passaggio rivela un diverso livello del problema.
Passaggio 1: Quanto è coerente?
Il Tasso di conformità è la metrica principale. Calcola la percentuale di record in cui il valore del campo corrisponde a uno dei valori consentiti definiti. È il numero da inserire in una dashboard.
Si esegue una scansione sull’oggetto Account. Il campo Country mostra un Tasso di conformità del 72%. Ciò significa che il 28% degli Account contiene valori Country al di fuori dell’elenco consentito. Le regole di assegnazione territoriale, le dashboard regionali e la logica di localizzazione operano tutti su dati incompleti.
Ogni altra metrica di coerenza esiste per spiegare che aspetto ha il 28% non conforme.
Passaggio 2: Qual è la dimensione del problema?
I tassi indicano la gravità. I conteggi indicano il carico di lavoro. Due metriche rispondono alla domanda sulla dimensione:
| Metrica | Cosa indica |
|---|---|
| Conteggio conformi | Quanti record corrispondono ai valori consentiti. Da utilizzare per la reportistica sulla copertura. |
| Conteggio non conformi | Quanti record non rientrano nei valori consentiti. Da utilizzare per dimensionare i progetti di pulizia. |
Questi due numeri sommati equivalgono sempre al totale dei record. Se il Conteggio conformi è 720 e il Conteggio non conformi è 280, si hanno esattamente 1.000 record valutati.
Esempio: Il responsabile della qualità dei dati deve pulire il campo Industry. Il Conteggio non conformi è 3.400. Ora conosce la dimensione del progetto, può assegnare le risorse e può stabilire una tempistica realistica per la standardizzazione.
Passaggio 3: Quanto sono frammentati i dati?
Il Conteggio varianti misura il numero di valori distinti trovati in un campo su tutti i record. Risponde alla domanda: «In quanti modi diversi le persone esprimono questi dati?»
Questa metrica funziona come indicatore di salute dello schema. Un campo Country con 5 valori distinti è probabilmente ben controllato. Un campo Country con 47 valori distinti segnala una seria frammentazione, anche prima di verificare la conformità.
| Campo | Record totali | Conteggio varianti | Valutazione |
|---|---|---|---|
| Country | 1.000 | 5 | Ben controllato, probabilmente coerente |
| Country | 1.000 | 47 | Altamente frammentato, necessita di standardizzazione |
| Industry | 500 | 12 | Ragionevole, probabilmente vincolato da picklist |
| Industry | 500 | 89 | Caos di testo libero, richiede attenzione immediata |
Esempio: Durante un audit dell’organizzazione, si esegue la scansione di Lead_Source__c sui Lead. Il Conteggio varianti restituisce 34. Il team di marketing ha definito 8 fonti di Lead. Le restanti 26 varianti sono errori di ortografia, abbreviazioni e voci ad hoc provenienti dalle integrazioni. La picklist è tecnicamente applicata nell’interfaccia utente, ma i record creati via API la aggirano.
Passaggio 4: Quali sono i valori effettivi?
I Valori dominanti restituiscono i primi N valori più frequenti nel campo, insieme al conteggio di frequenza di ciascun valore. Questo indica l’aspetto reale dei dati, non quello che ci si aspetta.
| Posizione | Valore | Conteggio | Percentuale |
|---|---|---|---|
| 1 | United States | 450 | 45% |
| 2 | USA | 230 | 23% |
| 3 | US | 180 | 18% |
| 4 | U.S.A. | 45 | 4,5% |
| 5 | United States of America | 15 | 1,5% |
Questa tabella rivela tre cose. Primo, lo standard de facto: «United States» al 45% è ciò che la maggior parte degli utenti inserisce. Secondo, le variazioni comuni: «USA» e «US» rappresentano un ulteriore 41%. Terzo, la coda lunga: «U.S.A.» e «United States of America» sono rari ma presenti.
Esempio: Il team sta discutendo se standardizzare i valori Country ai codici ISO («US») o ai nomi completi («United States»). I Valori dominanti mostrano che il 45% dei record utilizza già «United States». Standardizzare a quel valore richiede la modifica del 55% dei record. Standardizzare a «US» richiede la modifica dell’82%. I dati indicano il percorso più economico.
Perché tassi e conteggi sono in coppia
Le metriche di conformità sono disponibili come tasso (Tasso di conformità) e il suo inverso (Tasso di non conformità), più i conteggi assoluti per entrambi i lati. Questo è intenzionale:
- I tassi servono per dashboard, reportistica dirigenziale e monitoraggio delle tendenze. «La conformità è migliorata dal 72% al 94% in questo trimestre.»
- I conteggi servono per la pianificazione dei progetti, la stima del carico di lavoro e il dimensionamento delle operazioni di pulizia. «Abbiamo 3.400 record non conformi da correggere.»
Si utilizzino i tassi per comunicare i progressi. Si utilizzino i conteggi per pianificare il lavoro.
Riferimento metriche
Metriche fondamentali
Queste 2 metriche costituiscono la base di ogni analisi di coerenza. Indicano il tasso di conformità e il numero di record corrispondenti.
| Metrica | Tipo | Cosa misura |
|---|---|---|
| Tasso di conformità | Percentuale | Quota di record corrispondenti ai valori consentiti |
| Conteggio conformi | Conteggio | Numero di record corrispondenti ai valori consentiti |
Metriche avanzate
Queste 4 metriche vanno oltre il «corrisponde?» per chiedersi «che aspetto hanno i dati non corrispondenti?» Richiedono la modalità di Analisi avanzata della conformità.
| Metrica | Tipo | Cosa misura |
|---|---|---|
| Conteggio non conformi | Conteggio | Record con valori al di fuori dell’elenco consentito |
| Tasso di non conformità | Percentuale | Quota di record al di fuori dell’elenco consentito |
| Conteggio varianti | Conteggio | Totale dei valori distinti trovati nel campo |
| Valori dominanti | Elenco | Primi N valori più frequenti con conteggi di frequenza |
Copertura per tipo di campo
DQS supporta controlli di coerenza sui seguenti tipi di campo Salesforce:
| Tipo di campo | Focus della coerenza |
|---|---|
| String (Text) | Abbreviazioni, ortografia, maiuscole/minuscole |
| TextArea | Standardizzazione del testo libero |
| Picklist | Validazione dei valori effettivi rispetto alle opzioni previste |
| Standardizzazione del dominio, coerenza del formato | |
| Phone | Standardizzazione del formato (prefissi, separatori) |
| URL | Coerenza di protocollo e percorso |
Due modalità di analisi
DQS offre due modalità di analisi della coerenza:
Controllo di conformità risponde alla domanda: «I valori dei campi corrispondono al mio elenco consentito?» Produce le 2 metriche fondamentali e copre gli elementi essenziali per un rapido audit di conformità.
Analisi avanzata della conformità va più in profondità. Produce tutte e 6 le metriche, inclusi conteggi non conformi, rilevamento delle varianti e distribuzione dei valori dominanti. Si utilizzi questa modalità quando è necessario comprendere il quadro completo della frammentazione dei valori, non solo il punteggio di conformità.
| Esigenza aziendale | Modalità consigliata |
|---|---|
| Audit rapido di conformità o controllo di base | Controllo di conformità |
| Pulizia per migrazione dati | Avanzata (il conteggio varianti rivela il caos importato) |
| Valutazione della prontezza AI | Avanzata (i valori dominanti mostrano ciò che l’AI apprenderà) |
| Governance dei dati continuativa | Iniziare con il Controllo di conformità, passare alla modalità Avanzata quando si è pronti per un’analisi più approfondita |
Configurazione della coerenza
DQS fornisce quattro parametri di configurazione per la coerenza. Ciascuno può essere impostato a livello globale (si applica a tutti i campi) e sovrascritto a livello di singolo campo.
| Impostazione | Cosa controlla |
|---|---|
| Valori previsti | L’elenco di valori che DQS tratta come «conformi». Qualsiasi valore del campo non presente in questo elenco viene segnalato come non conforme. Obbligatorio: è necessario definire almeno un valore prima di eseguire una scansione. |
| Distinzione maiuscole/minuscole | Controlla se il confronto dei valori considera le maiuscole e le minuscole. Quando disabilitato (impostazione predefinita), «Premium», «PREMIUM» e «premium» corrispondono tutti al valore consentito «Premium». Quando abilitato, solo una corrispondenza esatta conta. |
| Primi N | Quanti valori dominanti restituire (da 1 a 100). Controlla la dimensione dell’output dei Valori dominanti. Predefinito: 5. |
| Frequenza minima | Il numero minimo di volte che un valore deve apparire per essere incluso nell’output dei Valori dominanti (da 1 a 1.000). Filtra i valori ultra-rari che aggiungono rumore. Predefinito: 1. |
Suggerimento: Si inizi utilizzando Importa dal campo per visualizzare quali valori esistono effettivamente nei dati prima di definire l’elenco dei valori consentiti.
Importa dal campo: configurazione basata sulla scoperta
Una sfida comune con la coerenza è sapere quali valori aspettarsi. Non è possibile definire i valori consentiti se non si conosce il contenuto dei dati.
Importa dal campo risolve questo problema. Interroga i dati effettivi del campo, raggruppa i valori per frequenza e visualizza i risultati come una lista di controllo.
Come funziona:
- Aprire la configurazione dei Valori previsti.
- Fare clic su Importa dal campo. DQS interroga i dati live e restituisce i valori distinti ordinati per frequenza.
- Esaminare la lista di controllo. Ogni valore mostra quanti record lo contengono.
- Selezionare i valori considerati corretti. Lasciare deselezionati i valori errati, malformati o segnaposto.
- Fare clic su Aggiungi selezionati. I valori selezionati popolano l’elenco dei valori consentiti.
Esempio: Si configura la coerenza per un campo Rating__c. Importa dal campo restituisce:
| Valore | Record |
|---|---|
| Hot | 284 |
| Warm | 198 |
| Cold | 156 |
| Very High | 23 |
| 240 km/h | 12 |
| N/A | 8 |
I primi tre valori sono le valutazioni reali. Si selezionano quelli. «Very High» è un errore di inserimento dati. «240 km/h» è chiaramente un dato nel campo sbagliato. «N/A» è un segnaposto. Si lasciano deselezionati. Quando la scansione viene eseguita, quei 43 record appaiono come non conformi e l’elenco dei valori consentiti è costruito a partire da ciò che i dati contengono effettivamente.
Questo flusso di lavoro inverte l’approccio tradizionale «indovina prima, correggi dopo». Si scopre prima, poi si definisce lo standard.
Problemi comuni di coerenza
Variazioni di Country e State
L’incoerenza più comune nei dati Salesforce. Senza standardizzazione, un singolo concetto come «United States» appare come 5 o più valori distinti. I report si frammentano. I filtri non intercettano i record. Le regole territoriali falliscono.
Soluzione: Abilitare le Picklist State e Country di Salesforce per tutti i campi indirizzo. Utilizzare DQS per trovare e pulire i valori non conformi esistenti.
Campi di testo libero senza governance
I campi di testo privi di vincoli di picklist accumulano variazioni nel tempo. Industry, Job Title, Lead Source e Department sono frequenti trasgressori quando implementati come testo libero.
Soluzione: Convertire i campi di testo libero ad alto valore in picklist. Utilizzare Importa dal campo per visualizzare la distribuzione attuale dei valori prima di definire le opzioni della picklist.
Variazioni create dalle integrazioni
I sistemi esterni e le API scrivono record che aggirano la validazione dell’interfaccia utente di Salesforce. Una piattaforma di automazione marketing scrive «Info Technology» mentre lo standard è «Information Technology». Queste variazioni si accumulano silenziosamente.
Soluzione: Applicare regole di mappatura dei valori nel livello di integrazione. Eseguire scansioni periodiche di coerenza per intercettare nuove variazioni dalle fonti dati non controllabili.
Incoerenze di maiuscole/minuscole
Gli utenti inseriscono «Active», «active» e «ACTIVE» su diversi record. Con la distinzione maiuscole/minuscole disabilitata, DQS conta tutti e tre come conformi. Ma il campo contiene comunque tre diverse grafie nei dati grezzi.
Soluzione: Decidere se le maiuscole/minuscole sono rilevanti per il proprio caso d’uso. Per i campi visibili dall’utente, standardizzare le maiuscole/minuscole tramite la pulizia dei dati. Per scopi di confronto, disabilitare la distinzione maiuscole/minuscole nella configurazione DQS.
Buone pratiche
Definire gli standard prima della scansione
Documentare il valore previsto per ogni campo vincolato prima di eseguire la prima scansione. Senza uno standard chiaro, non esiste una base di riferimento rispetto alla quale misurare.
| Campo | Standard | Motivazione |
|---|---|---|
| Country | Codici ISO 3166-1 alpha-2 (US, CA, DE) | Standard di settore, compatto |
| Industry | Tassonomia personalizzata a 15 valori | Corrisponde alle categorie di reportistica |
| Lead Source | 8 fonti definite dal marketing | In linea con il tracciamento delle campagne |
Utilizzare il flusso di scoperta per i campi sconosciuti
Per i campi in cui non si dispone di uno standard predefinito, utilizzare prima Importa dal campo. Lasciare che i dati indichino qual è lo standard de facto. Il valore con la frequenza più alta è spesso la scelta giusta come valore canonico.
Monitorare la conformità nel tempo
Un singolo punteggio di conformità è un’istantanea. Monitorare i punteggi su più scansioni per rilevare precocemente il degrado, misurare i progressi della pulizia e identificare le fonti dati che introducono nuove variazioni.
Utilizzare il Conteggio varianti come segnale di allarme
Monitorare il Conteggio varianti tra le scansioni. Un campo che passa da 12 a 28 valori distinti tra una scansione e l’altra presenta una nuova fonte di variazione. Indagare prima che il problema si amplii.
Dare priorità in base all’impatto aziendale
Non tutti i campi necessitano del 100% di conformità. Concentrarsi sui campi che guidano la reportistica (Country, Industry), alimentano l’automazione (Status, Stage) o forniscono dati all’AI e ad Agentforce.
Passaggi successivi
Sono state ora completate tutte e cinque le dimensioni della qualità dei dati. Si prosegua il percorso di apprendimento:
- In Salesforce: La qualità dei dati in Salesforce - standardizzate i valori di picklist e di riferimento in Salesforce
- Successivo: Preparazione per Agentforce - Informazioni sui requisiti specifici dei dati per l’AI
- Precedente: Tempestività - Misurare l’attualità e la freschezza dei dati
- Panoramica: Le cinque dimensioni - Riepilogo di tutte le dimensioni
- Azione: Valutazione della prontezza AI - Verificare i punteggi di coerenza e altro