Skip to main content

Coerenza

Tutte le 6 metriche di coerenza misurate da DQS, il flusso diagnostico per individuare la frammentazione dei valori e come configurare l'analisi della conformità.

Che cos’è la coerenza?

La coerenza misura se i valori dei dati sono conformi a uno standard concordato. Un campo è coerente quando ogni record utilizza lo stesso termine per lo stesso concetto. Un campo è incoerente quando esistono variazioni che significano la stessa cosa ma sono espresse in modo diverso.

«USA», «United States» e «US» si riferiscono tutti allo stesso Paese. Per Salesforce, sono tre valori distinti. Un report raggruppato per Country produce tre righe invece di una. Un’automazione che filtra per «USA» non intercetta 230 record che contengono «United States».

Tasso di conformità = (Record conformi / Record totali) x 100

Se 850 dei 1.000 record Account hanno un valore Country che corrisponde all’elenco dei valori consentiti, il tasso di conformità del Country è dell’85%. Il restante 15% contiene variazioni che necessitano di standardizzazione.

Perché la coerenza è importante

Reportistica

I dati incoerenti frammentano i report. Quando il campo Country contiene cinque diverse ortografie dello stesso Paese, un report raggruppato per Country mostra cinque righe invece di una. Il totale è corretto, ma il raggruppamento è errato. Le dashboard dirigenziali costruite su questi report raccontano una storia fuorviante.

Automazione

L’automazione di Salesforce dipende da corrispondenze esatte dei valori. Un workflow che filtra per Country = "USA" non intercetta i record con «United States» e «US». L’automazione viene eseguita correttamente sui record corrispondenti ma salta silenziosamente tutto il resto.

AI e Agentforce

I modelli di AI trattano ogni variazione come un concetto separato. «USA» e «United States» diventano due Paesi diversi nella visione del modello. Agentforce genera risposte utilizzando i valori dei campi. Valori incoerenti producono output AI incoerenti.

SistemaImpatto della coerenza
ReportRaggruppamenti frammentati, totali fuorvianti
WorkflowI filtri non intercettano le variazioni non corrispondenti
Regole di deduplicazioneLe variazioni impediscono il corretto abbinamento
AgentforceValori di campo incoerenti producono risposte AI inaffidabili

Come DQS misura la coerenza

DQS produce 6 metriche di coerenza organizzate attorno a una domanda diagnostica: «I valori dei campi sono conformi a uno standard e, in caso contrario, che aspetto hanno?»

Si pensi a queste metriche come a un flusso diagnostico. Ogni passaggio rivela un diverso livello del problema.

Passaggio 1: Quanto è coerente?

Il Tasso di conformità è la metrica principale. Calcola la percentuale di record in cui il valore del campo corrisponde a uno dei valori consentiti definiti. È il numero da inserire in una dashboard.

Si esegue una scansione sull’oggetto Account. Il campo Country mostra un Tasso di conformità del 72%. Ciò significa che il 28% degli Account contiene valori Country al di fuori dell’elenco consentito. Le regole di assegnazione territoriale, le dashboard regionali e la logica di localizzazione operano tutti su dati incompleti.

Ogni altra metrica di coerenza esiste per spiegare che aspetto ha il 28% non conforme.

Passaggio 2: Qual è la dimensione del problema?

I tassi indicano la gravità. I conteggi indicano il carico di lavoro. Due metriche rispondono alla domanda sulla dimensione:

MetricaCosa indica
Conteggio conformiQuanti record corrispondono ai valori consentiti. Da utilizzare per la reportistica sulla copertura.
Conteggio non conformiQuanti record non rientrano nei valori consentiti. Da utilizzare per dimensionare i progetti di pulizia.

Questi due numeri sommati equivalgono sempre al totale dei record. Se il Conteggio conformi è 720 e il Conteggio non conformi è 280, si hanno esattamente 1.000 record valutati.

Esempio: Il responsabile della qualità dei dati deve pulire il campo Industry. Il Conteggio non conformi è 3.400. Ora conosce la dimensione del progetto, può assegnare le risorse e può stabilire una tempistica realistica per la standardizzazione.

Passaggio 3: Quanto sono frammentati i dati?

Il Conteggio varianti misura il numero di valori distinti trovati in un campo su tutti i record. Risponde alla domanda: «In quanti modi diversi le persone esprimono questi dati?»

Questa metrica funziona come indicatore di salute dello schema. Un campo Country con 5 valori distinti è probabilmente ben controllato. Un campo Country con 47 valori distinti segnala una seria frammentazione, anche prima di verificare la conformità.

CampoRecord totaliConteggio variantiValutazione
Country1.0005Ben controllato, probabilmente coerente
Country1.00047Altamente frammentato, necessita di standardizzazione
Industry50012Ragionevole, probabilmente vincolato da picklist
Industry50089Caos di testo libero, richiede attenzione immediata

Esempio: Durante un audit dell’organizzazione, si esegue la scansione di Lead_Source__c sui Lead. Il Conteggio varianti restituisce 34. Il team di marketing ha definito 8 fonti di Lead. Le restanti 26 varianti sono errori di ortografia, abbreviazioni e voci ad hoc provenienti dalle integrazioni. La picklist è tecnicamente applicata nell’interfaccia utente, ma i record creati via API la aggirano.

Passaggio 4: Quali sono i valori effettivi?

I Valori dominanti restituiscono i primi N valori più frequenti nel campo, insieme al conteggio di frequenza di ciascun valore. Questo indica l’aspetto reale dei dati, non quello che ci si aspetta.

PosizioneValoreConteggioPercentuale
1United States45045%
2USA23023%
3US18018%
4U.S.A.454,5%
5United States of America151,5%

Questa tabella rivela tre cose. Primo, lo standard de facto: «United States» al 45% è ciò che la maggior parte degli utenti inserisce. Secondo, le variazioni comuni: «USA» e «US» rappresentano un ulteriore 41%. Terzo, la coda lunga: «U.S.A.» e «United States of America» sono rari ma presenti.

Esempio: Il team sta discutendo se standardizzare i valori Country ai codici ISO («US») o ai nomi completi («United States»). I Valori dominanti mostrano che il 45% dei record utilizza già «United States». Standardizzare a quel valore richiede la modifica del 55% dei record. Standardizzare a «US» richiede la modifica dell’82%. I dati indicano il percorso più economico.

Perché tassi e conteggi sono in coppia

Le metriche di conformità sono disponibili come tasso (Tasso di conformità) e il suo inverso (Tasso di non conformità), più i conteggi assoluti per entrambi i lati. Questo è intenzionale:

  • I tassi servono per dashboard, reportistica dirigenziale e monitoraggio delle tendenze. «La conformità è migliorata dal 72% al 94% in questo trimestre.»
  • I conteggi servono per la pianificazione dei progetti, la stima del carico di lavoro e il dimensionamento delle operazioni di pulizia. «Abbiamo 3.400 record non conformi da correggere.»

Si utilizzino i tassi per comunicare i progressi. Si utilizzino i conteggi per pianificare il lavoro.

Riferimento metriche

Metriche fondamentali

Queste 2 metriche costituiscono la base di ogni analisi di coerenza. Indicano il tasso di conformità e il numero di record corrispondenti.

MetricaTipoCosa misura
Tasso di conformitàPercentualeQuota di record corrispondenti ai valori consentiti
Conteggio conformiConteggioNumero di record corrispondenti ai valori consentiti

Metriche avanzate

Queste 4 metriche vanno oltre il «corrisponde?» per chiedersi «che aspetto hanno i dati non corrispondenti?» Richiedono la modalità di Analisi avanzata della conformità.

MetricaTipoCosa misura
Conteggio non conformiConteggioRecord con valori al di fuori dell’elenco consentito
Tasso di non conformitàPercentualeQuota di record al di fuori dell’elenco consentito
Conteggio variantiConteggioTotale dei valori distinti trovati nel campo
Valori dominantiElencoPrimi N valori più frequenti con conteggi di frequenza

Copertura per tipo di campo

DQS supporta controlli di coerenza sui seguenti tipi di campo Salesforce:

Tipo di campoFocus della coerenza
String (Text)Abbreviazioni, ortografia, maiuscole/minuscole
TextAreaStandardizzazione del testo libero
PicklistValidazione dei valori effettivi rispetto alle opzioni previste
EmailStandardizzazione del dominio, coerenza del formato
PhoneStandardizzazione del formato (prefissi, separatori)
URLCoerenza di protocollo e percorso

Due modalità di analisi

DQS offre due modalità di analisi della coerenza:

Controllo di conformità risponde alla domanda: «I valori dei campi corrispondono al mio elenco consentito?» Produce le 2 metriche fondamentali e copre gli elementi essenziali per un rapido audit di conformità.

Analisi avanzata della conformità va più in profondità. Produce tutte e 6 le metriche, inclusi conteggi non conformi, rilevamento delle varianti e distribuzione dei valori dominanti. Si utilizzi questa modalità quando è necessario comprendere il quadro completo della frammentazione dei valori, non solo il punteggio di conformità.

Esigenza aziendaleModalità consigliata
Audit rapido di conformità o controllo di baseControllo di conformità
Pulizia per migrazione datiAvanzata (il conteggio varianti rivela il caos importato)
Valutazione della prontezza AIAvanzata (i valori dominanti mostrano ciò che l’AI apprenderà)
Governance dei dati continuativaIniziare con il Controllo di conformità, passare alla modalità Avanzata quando si è pronti per un’analisi più approfondita

Configurazione della coerenza

DQS fornisce quattro parametri di configurazione per la coerenza. Ciascuno può essere impostato a livello globale (si applica a tutti i campi) e sovrascritto a livello di singolo campo.

ImpostazioneCosa controlla
Valori previstiL’elenco di valori che DQS tratta come «conformi». Qualsiasi valore del campo non presente in questo elenco viene segnalato come non conforme. Obbligatorio: è necessario definire almeno un valore prima di eseguire una scansione.
Distinzione maiuscole/minuscoleControlla se il confronto dei valori considera le maiuscole e le minuscole. Quando disabilitato (impostazione predefinita), «Premium», «PREMIUM» e «premium» corrispondono tutti al valore consentito «Premium». Quando abilitato, solo una corrispondenza esatta conta.
Primi NQuanti valori dominanti restituire (da 1 a 100). Controlla la dimensione dell’output dei Valori dominanti. Predefinito: 5.
Frequenza minimaIl numero minimo di volte che un valore deve apparire per essere incluso nell’output dei Valori dominanti (da 1 a 1.000). Filtra i valori ultra-rari che aggiungono rumore. Predefinito: 1.

Suggerimento: Si inizi utilizzando Importa dal campo per visualizzare quali valori esistono effettivamente nei dati prima di definire l’elenco dei valori consentiti.

Importa dal campo: configurazione basata sulla scoperta

Una sfida comune con la coerenza è sapere quali valori aspettarsi. Non è possibile definire i valori consentiti se non si conosce il contenuto dei dati.

Importa dal campo risolve questo problema. Interroga i dati effettivi del campo, raggruppa i valori per frequenza e visualizza i risultati come una lista di controllo.

Come funziona:

  1. Aprire la configurazione dei Valori previsti.
  2. Fare clic su Importa dal campo. DQS interroga i dati live e restituisce i valori distinti ordinati per frequenza.
  3. Esaminare la lista di controllo. Ogni valore mostra quanti record lo contengono.
  4. Selezionare i valori considerati corretti. Lasciare deselezionati i valori errati, malformati o segnaposto.
  5. Fare clic su Aggiungi selezionati. I valori selezionati popolano l’elenco dei valori consentiti.

Esempio: Si configura la coerenza per un campo Rating__c. Importa dal campo restituisce:

ValoreRecord
Hot284
Warm198
Cold156
Very High23
240 km/h12
N/A8

I primi tre valori sono le valutazioni reali. Si selezionano quelli. «Very High» è un errore di inserimento dati. «240 km/h» è chiaramente un dato nel campo sbagliato. «N/A» è un segnaposto. Si lasciano deselezionati. Quando la scansione viene eseguita, quei 43 record appaiono come non conformi e l’elenco dei valori consentiti è costruito a partire da ciò che i dati contengono effettivamente.

Questo flusso di lavoro inverte l’approccio tradizionale «indovina prima, correggi dopo». Si scopre prima, poi si definisce lo standard.

Problemi comuni di coerenza

Variazioni di Country e State

L’incoerenza più comune nei dati Salesforce. Senza standardizzazione, un singolo concetto come «United States» appare come 5 o più valori distinti. I report si frammentano. I filtri non intercettano i record. Le regole territoriali falliscono.

Soluzione: Abilitare le Picklist State e Country di Salesforce per tutti i campi indirizzo. Utilizzare DQS per trovare e pulire i valori non conformi esistenti.

Campi di testo libero senza governance

I campi di testo privi di vincoli di picklist accumulano variazioni nel tempo. Industry, Job Title, Lead Source e Department sono frequenti trasgressori quando implementati come testo libero.

Soluzione: Convertire i campi di testo libero ad alto valore in picklist. Utilizzare Importa dal campo per visualizzare la distribuzione attuale dei valori prima di definire le opzioni della picklist.

Variazioni create dalle integrazioni

I sistemi esterni e le API scrivono record che aggirano la validazione dell’interfaccia utente di Salesforce. Una piattaforma di automazione marketing scrive «Info Technology» mentre lo standard è «Information Technology». Queste variazioni si accumulano silenziosamente.

Soluzione: Applicare regole di mappatura dei valori nel livello di integrazione. Eseguire scansioni periodiche di coerenza per intercettare nuove variazioni dalle fonti dati non controllabili.

Incoerenze di maiuscole/minuscole

Gli utenti inseriscono «Active», «active» e «ACTIVE» su diversi record. Con la distinzione maiuscole/minuscole disabilitata, DQS conta tutti e tre come conformi. Ma il campo contiene comunque tre diverse grafie nei dati grezzi.

Soluzione: Decidere se le maiuscole/minuscole sono rilevanti per il proprio caso d’uso. Per i campi visibili dall’utente, standardizzare le maiuscole/minuscole tramite la pulizia dei dati. Per scopi di confronto, disabilitare la distinzione maiuscole/minuscole nella configurazione DQS.

Buone pratiche

Definire gli standard prima della scansione

Documentare il valore previsto per ogni campo vincolato prima di eseguire la prima scansione. Senza uno standard chiaro, non esiste una base di riferimento rispetto alla quale misurare.

CampoStandardMotivazione
CountryCodici ISO 3166-1 alpha-2 (US, CA, DE)Standard di settore, compatto
IndustryTassonomia personalizzata a 15 valoriCorrisponde alle categorie di reportistica
Lead Source8 fonti definite dal marketingIn linea con il tracciamento delle campagne

Utilizzare il flusso di scoperta per i campi sconosciuti

Per i campi in cui non si dispone di uno standard predefinito, utilizzare prima Importa dal campo. Lasciare che i dati indichino qual è lo standard de facto. Il valore con la frequenza più alta è spesso la scelta giusta come valore canonico.

Monitorare la conformità nel tempo

Un singolo punteggio di conformità è un’istantanea. Monitorare i punteggi su più scansioni per rilevare precocemente il degrado, misurare i progressi della pulizia e identificare le fonti dati che introducono nuove variazioni.

Utilizzare il Conteggio varianti come segnale di allarme

Monitorare il Conteggio varianti tra le scansioni. Un campo che passa da 12 a 28 valori distinti tra una scansione e l’altra presenta una nuova fonte di variazione. Indagare prima che il problema si amplii.

Dare priorità in base all’impatto aziendale

Non tutti i campi necessitano del 100% di conformità. Concentrarsi sui campi che guidano la reportistica (Country, Industry), alimentano l’automazione (Status, Stage) o forniscono dati all’AI e ad Agentforce.

Passaggi successivi

Sono state ora completate tutte e cinque le dimensioni della qualità dei dati. Si prosegua il percorso di apprendimento: