Skip to main content

Unicità

Tutte le 6 metriche di unicità misurate da DQS, il flusso diagnostico per individuare duplicati e contenuti ripetitivi e come configurare l'analisi dell'unicità.

Che cos’è l’unicità?

L’unicità misura se i valori dei dati sono distinti e non duplicati. Un campo ha un’elevata unicità quando ogni record contiene un valore diverso. L’unicità si deteriora quando lo stesso valore appare su più record, o quando i campi di testo contengono contenuti ripetitivi basati su modelli che non aggiungono valore analitico.

I record duplicati costano all’organizzazione in ogni fase. Tre record Account per la stessa azienda frammentano la pipeline. Due record Contact per la stessa persona ricevono due e-mail di marketing. Testo standardizzato incollato in migliaia di descrizioni di Case rende impossibile estrarre informazioni utili. L’analisi dell’unicità quantifica tutti questi problemi.

Tasso di unicità = (Record con valori unici / Record totali) x 100

Se 7.800 dei 10.000 record Contact hanno un valore Email distinto, il tasso di unicità dell’Email è del 78%. Il restante 22% condivide indirizzi e-mail con almeno un altro record. Questa singola metrica indica se un campo che prevede valori unici li ha effettivamente.

Perché l’unicità è importante

Reportistica

I record duplicati gonfiano i numeri. Quando la stessa azienda appare come tre Account, il conteggio degli Account è sovrastimato di due. I report sulla pipeline mostrano tre trattative dove ne esiste una. I conteggi clienti utilizzati per le presentazioni al consiglio e la reportistica agli investitori sono errati.

Automazione

L’automazione di Salesforce tratta ogni record in modo indipendente. Un Account duplicato attiva workflow duplicati, invia notifiche duplicate e crea Task duplicati. Un processo di rinnovo che si attiva su ogni Account corrispondente a un nome azienda si attiva tre volte invece di una.

AI e Agentforce

I modelli di AI elaborano ogni record come un’entità separata. I record duplicati frammentano la visione del modello su un cliente. Agentforce genera risposte utilizzando i dati di Salesforce. Quando esistono tre record Account per la stessa azienda, Agentforce vede tre clienti, non uno con una cronologia completa. I contenuti ripetitivi standardizzati nei campi di testo insegnano al modello i modelli di testo, non i modelli di business.

SistemaImpatto dell’unicità
ReportConteggi gonfiati, metriche frammentate
WorkflowAttivazioni duplicate, notifiche ridondanti
Regole di deduplicazioneSopraffatte dai duplicati esistenti se non rilevati
AgentforceVisione frammentata del cliente, apprendimento inquinato dai modelli di testo

Come DQS misura l’unicità

DQS produce 6 metriche di unicità organizzate attorno a una domanda diagnostica: «I dati sono distinti, come sono distribuiti e il contenuto testuale è originale?»

Si pensi a queste metriche come a un flusso diagnostico. Ogni livello si basa sul precedente.

Livello 1: I valori sono unici?

Il Tasso di unicità è la metrica principale. Calcola la percentuale di record in cui il valore del campo è distinto (non duplicato in nessun altro punto del dataset). È il numero da inserire in una dashboard.

Si esegue una scansione sull’oggetto Contact. Il campo Email mostra un Tasso di unicità del 78%. Ciò significa che il 22% degli indirizzi e-mail appare su più di un Contact. Alcuni sono legittimi (e-mail di reparto condivise come [email protected]), ma la maggior parte sono probabilmente Contact duplicati che necessitano di unificazione. Questo singolo numero giustifica un’iniziativa di deduplicazione.

Il Conteggio distinti indica la cardinalità del campo: quanti valori diversi esistono effettivamente. Se 10.000 record Contact contengono 8.200 indirizzi e-mail distinti, il Conteggio distinti è 8.200.

Esempio: Ci si aspetta che la picklist Lead_Source abbia circa 12 valori (le opzioni configurate nella picklist). Ma il Conteggio distinti mostra 87. Prima che la picklist fosse vincolata, i commerciali inserivano valori in testo libero. «Web», «web», «Website», «Webinar», «web form» contano tutti come distinti. Questa metrica rivela che i dati del Lead Source necessitano di normalizzazione, anche se la picklist è ora bloccata.

Livello 2: Come sono distribuiti i dati?

Il Tasso di unicità indica quanti valori sono unici. Le metriche di distribuzione indicano come quei valori sono distribuiti tra i record. Due campi possono avere lo stesso Tasso di unicità ma distribuzioni molto diverse.

L’Entropia misura quanto uniformemente sono distribuiti i valori utilizzando l’entropia di Shannon. La scala va da 0 (ogni record ha esattamente lo stesso valore) a un massimo determinato dal numero di valori distinti. Un’entropia più alta significa dati più diversificati e più uniformemente distribuiti.

L’entropia da sola non significa nulla. Va confrontata con la massima entropia possibile per quel campo. Massimo = log2(Conteggio distinti), che è l’entropia che si otterrebbe se ogni valore distinto apparisse esattamente lo stesso numero di volte. Il rapporto (effettivo / massimo) fornisce un punteggio normalizzato da 0 a 1:

Normalizzato (effettivo / massimo)Interpretazione
0,9 o superioreDistribuzione uniforme: valori distribuiti in modo omogeneo
Da 0,7 a 0,9Asimmetria moderata: alcuni valori appaiono più di altri
Inferiore a 0,7Dominato: pochi valori detengono la maggior parte dei record

Esempio: Il campo Industry sugli Account ha un Tasso di unicità del 2% (previsto per una picklist) e 24 valori distinti. Sembra a posto. Ma l’entropia è 1,3, e la massima entropia per 24 valori è 4,6. Il punteggio normalizzato è 0,28. La distribuzione è severamente asimmetrica: il 60% dei record è «Technology» e «Financial Services». La segmentazione basata sul settore è un sistema a due categorie travestito da 24.

La Frequenza massima fornisce il conteggio delle occorrenze del singolo valore più comune. Se «London» appare 8.400 volte nel campo City, la Frequenza massima è 8.400.

Un singolo valore dominante spesso segnala un problema di valore predefinito, un artefatto della migrazione o una genuina concentrazione aziendale che richiede indagine. La Frequenza massima solleva la domanda. Un rapido controllo del valore effettivo fornisce la risposta.

Esempio: Il campo Billing_Country ha una Frequenza massima di 34.000 su 40.000 record. L’85% dei record ha un solo Paese. O l’attività è genuinamente concentrata in un mercato, oppure qualcuno ha impostato un valore predefinito durante la migrazione. La metrica evidenzia il modello; sta a Lei determinare la causa.

Livello 3: Il contenuto testuale è originale?

I primi due livelli misurano se i valori sono identici. Il Livello 3 pone una domanda diversa: il contenuto testuale è sostanzialmente simile? Due descrizioni di Case possono essere uniche al 100% (numeri di Case diversi, date diverse) ma per il 90% standardizzate (stesso modello, stesse frasi).

Il Tasso di boilerplate è la metrica principale per l’originalità del contenuto testuale. Misura la percentuale di contenuto che è ripetitivo o basato su modelli. Un punteggio più alto significa più contenuto originale con meno boilerplate. DQS rileva modelli comuni come firme e-mail, disclaimer legali e frasi ripetute.

Esempio: L’organizzazione sta valutando se il campo Description sulle Opportunity è adatto per un’analisi AI di vittorie/sconfitte. Il Tasso di unicità è del 99% (ogni descrizione è tecnicamente diversa). Ma il Tasso di boilerplate rivela che il 65% del contenuto segue lo stesso modello: «Customer: [nome]. Need: [prodotto]. Timeline: [data].» Il modello AI apprenderebbe la struttura del modello di testo, non i modelli di vendita. Il Tasso di boilerplate evita un progetto AI con il principio garbage-in, garbage-out.

Il Conteggio record boilerplate fornisce la dimensione del progetto di pulizia come numero assoluto. Se 12.400 record contengono boilerplate, il responsabile della qualità dei dati conosce la dimensione del progetto di rimedio. Può stimare le ore, assegnare le risorse e stabilire una tempistica realistica.

Esempio: Il team di supporto registra ogni interazione nei Case Comments. Il Conteggio record boilerplate mostra 12.400. L’indagine rivela che gli agenti incollano un’apertura standard («Grazie per aver contattato l’assistenza. Il Suo numero di Case è…») e una chiusura («Non esiti a contattarci…») in ogni Case. Prima di utilizzare l’AI per analizzare le interazioni di supporto, quei 12.400 record necessitano della rimozione del boilerplate.

Tre angoli di analisi

Le metriche di unicità coprono tre preoccupazioni distinte, ciascuna al servizio di un diverso interlocutore:

PreoccupazioneMetricheDomandaInterlocutore
DuplicazioneTasso di unicità, Conteggio distintiAbbiamo valori ripetuti?Responsabili qualità dati (candidati all’unificazione, regole di deduplicazione)
DistribuzioneEntropia, Frequenza massimaCome sono distribuiti i dati tra i valori?Analisti e data scientist (segmentazione, modellazione)
OriginalitàTasso di boilerplate, Conteggio record boilerplateIl contenuto testuale è genuinamente originale?Team AI (qualità dei dati di addestramento, estrazione dei contenuti)

Riferimento metriche

Metriche fondamentali

Queste 2 metriche costituiscono la base di ogni analisi di unicità. Funzionano su tutti i 15 tipi di campo supportati.

MetricaTipoCosa misura
Tasso di unicitàPercentualeQuota di record con valori non duplicati
Conteggio distintiConteggioNumero totale di valori distinti nel campo

Metriche avanzate

Queste 4 metriche vanno oltre il «i valori sono unici?» per analizzare i modelli di distribuzione e l’originalità del testo. Richiedono la modalità di Analisi avanzata dell’unicità.

MetricaTipoCosa misura
EntropiaDecimaleQuanto uniformemente sono distribuiti i valori (entropia di Shannon)
Frequenza massimaConteggioConteggio delle occorrenze del singolo valore più comune
Tasso di boilerplatePercentualeGrado di contenuto basato su modelli o ripetitivo
Conteggio record boilerplateConteggioNumero di record con contenuto boilerplate

Copertura per tipo di campo

Metriche diverse si applicano a tipi di campo diversi in base a ciò che misurano.

Gruppo di coperturaTipi di campoMetriche disponibili
Tutti i tipi (15)String, TextArea, LongTextArea, Number, Currency, Percent, AutoNumber, Date, DateTime, Picklist, Email, Phone, URL, Lookup, CheckboxTasso di unicità, Conteggio distinti
Tipi per analisi (9)String, TextArea, Number, Picklist, Multiselect Picklist, Checkbox, Email, Phone, URLEntropia, Frequenza massima
Campi testo (3)String, TextArea, HtmlConteggio record boilerplate
Campi testo lungo (3)TextArea, LongTextArea, HtmlTasso di boilerplate

Le metriche principali funzionano su tutti i 15 tipi di campo perché qualsiasi campo può avere duplicati. Le metriche di distribuzione (Entropia, Frequenza massima) funzionano su 9 tipi di campo che producono tabelle di frequenza conteggiabili. Le metriche di boilerplate si applicano solo ai campi di testo perché rilevano modelli di contenuto ripetuto nei dati a testo libero.

Due modalità di analisi

DQS offre due modalità di analisi dell’unicità:

Unicità di base risponde alla domanda: «I valori sono distinti?» Produce le 2 metriche fondamentali e copre gli elementi essenziali per un rapido controllo di rilevamento duplicati o un audit di base.

Analisi avanzata dell’unicità va più in profondità. Produce tutte e 6 le metriche, inclusa l’analisi della distribuzione, i modelli di frequenza e il rilevamento del boilerplate. Si utilizzi questa modalità quando è necessario comprendere il quadro completo della distribuzione dei dati e dell’originalità del testo, non solo il tasso di duplicazione.

Esigenza aziendaleModalità consigliata
Audit rapido di rilevamento duplicatiUnicità di base
Valutazione della migrazione datiAvanzata (la Frequenza massima intercetta i valori predefiniti, l’Entropia rivela l’asimmetria)
Controllo dell’igiene delle picklistAvanzata (Entropia + Frequenza massima rivelano asimmetria ed esigenze di normalizzazione)
Valutazione dei dati di addestramento AIAvanzata (le metriche di boilerplate valutano l’originalità dei contenuti)
Governance dei dati continuativaIniziare con l’Unicità di base, passare alla modalità Avanzata per un’analisi più approfondita

Configurazione dell’unicità

DQS fornisce 2 parametri di configurazione per l’unicità. Ciascuno può essere impostato a livello globale (si applica a tutti i campi) e sovrascritto a livello di singolo campo.

ImpostazioneCosa controlla
Distinzione maiuscole/minuscoleControlla se il confronto dei valori considera le maiuscole e le minuscole. Quando disabilitato (impostazione predefinita), «Apple» e «apple» contano come lo stesso valore. Quando abilitato, contano come due valori distinti.
Includi vuotiControlla se i record nulli e vuoti vengono contati nei calcoli di unicità. Quando disabilitato (impostazione predefinita), i vuoti sono esclusi dalla valutazione. Quando abilitato, tutti i record vuoti condividono un singolo valore «vuoto», il che può abbassare il tasso di unicità sui campi con molti record vuoti.

Suggerimento: Disabilitare la Distinzione maiuscole/minuscole (impostazione predefinita) per la maggior parte dei campi. Abilitarla solo quando le maiuscole/minuscole hanno un significato specifico, come i codici prodotto dove «ABC-100» e «abc-100» sono effettivamente articoli diversi.

Quando abilitare Includi vuoti

Per impostazione predefinita, DQS esclude i record vuoti e nulli dai calcoli di unicità. Ciò ha senso per i campi opzionali dove i vuoti sono previsti.

Si abiliti Includi vuoti quando i vuoti stessi sono il problema che si desidera misurare. Se 3.000 record Contact non hanno alcun valore Email, quei 3.000 vuoti condividono un valore «vuoto» nel calcolo dell’unicità. Ciò abbassa il Tasso di unicità e rende il problema dei vuoti visibile nella metrica principale.

Esempio: Si esegue la scansione del campo Phone sui Contact con Includi vuoti disabilitato. Il Tasso di unicità è del 91%. Si abilita Includi vuoti e si riesegue la scansione. Il Tasso di unicità scende al 72%. La differenza rivela che una gran parte dei record Contact condivide una caratteristica comune: nessun numero di telefono. Il campo sembrava sano quando i vuoti erano esclusi, ma il quadro completo racconta una storia diversa.

Problemi comuni di unicità

Record duplicati da importazioni di massa

Le migrazioni dati e le importazioni di liste introducono duplicati quando la logica di corrispondenza è insufficiente. Una lista di contatti acquistata crea nuovi record per persone che già esistono. Un’esportazione da un sistema legacy crea Account che si sovrappongono ai dati attuali.

Soluzione: Verificare le importazioni prima del caricamento. Utilizzare DQS per stabilire un riferimento di unicità sui campi identificativi chiave (Email, Phone, Website) prima e dopo ogni importazione.

Valori predefiniti mascherati da dati

Le integrazioni e le migrazioni spesso scrivono valori predefiniti nei campi. «Unknown», «N/A» o il nome della propria azienda appare su migliaia di record. Questi gonfiano i conteggi dei duplicati e distorcono le metriche di distribuzione.

Soluzione: Eseguire l’Analisi avanzata dell’unicità. La Frequenza massima rivela il valore dominante. Se un valore appare sull’85% dei record, indagare se si tratta di dati reali o di un valore predefinito.

Campi di testo libero senza governance

I campi di testo privi di vincoli di picklist accumulano variazioni nel tempo. Il campo Job_Title sui Contact memorizza lo stesso ruolo in 15 modi diversi. Il Conteggio distinti aumenta mentre l’insieme effettivo dei concetti aziendali rimane piccolo.

Soluzione: Eseguire l’Analisi avanzata dell’unicità sui campi di testo che si prevede di standardizzare. Utilizzare Conteggio distinti ed Entropia per dimensionare lo sforzo di normalizzazione. Convertire i campi di testo libero ad alto valore in picklist.

Campi di testo inquinati da boilerplate

Gli agenti di supporto incollano aperture e chiusure standard in ogni Case. I commerciali copiano modelli di descrizione delle Opportunity. I campi sono tecnicamente «unici» (numeri di Case diversi, date diverse), ma il contenuto è identico al 90%.

Soluzione: Eseguire l’Analisi avanzata dell’unicità con rilevamento del boilerplate sui campi di testo. Il Tasso di boilerplate rivela il grado di inquinamento da modelli. Affrontare questo problema prima di utilizzare questi campi per l’addestramento o l’analisi AI.

Identificativi condivisi che sembrano duplicati

Le e-mail di reparto ([email protected]), i numeri di telefono condivisi e i numeri di fax aziendali creano valori duplicati legittimi. Non ogni Tasso di unicità basso segnala un problema.

Soluzione: Valutare l’unicità nel contesto. Un campo Email con il 78% di unicità necessita di indagine. Un campo Fax con il 40% di unicità è prevedibile. Impostare le soglie di monitoraggio in base a ciò che il campo rappresenta.

Buone pratiche

Scegliere la metrica principale giusta per tipo di campo

Il Tasso di unicità è la metrica principale giusta per i campi identificativi (Email, Phone, Account Name). Per i campi di contenuto testuale (Description, Notes, Comments), combinare il Tasso di unicità con il Tasso di boilerplate per ottenere il quadro completo. Un campo può avere il 99% di Tasso di unicità ed essere comunque al 65% boilerplate.

Utilizzare le metriche di distribuzione per i campi di segmentazione

Per i campi utilizzati nella segmentazione, nel filtraggio o nella reportistica (Industry, Country, Lead Source), verificare Entropia e Frequenza massima. Un’entropia bassa rivela che la picklist «a 24 categorie» è in realtà un sistema a 2 categorie. La Frequenza massima rivela valori predefiniti che distorcono i segmenti.

Monitorare le tendenze tra le scansioni

Una singola scansione mostra lo stato attuale. Eseguire scansioni regolari per rilevare nuove fonti di duplicati, misurare l’impatto delle iniziative di deduplicazione e identificare le integrazioni che introducono dati ripetitivi. Un campo che scende dal 90% al 75% di unicità tra una scansione e l’altra ha una nuova fonte di problemi.

Dare priorità in base all’impatto aziendale

Non tutti i campi necessitano di un’elevata unicità. Un campo Email con duplicati segnala un problema di unificazione. Un campo Country con duplicati è normale. Concentrare il monitoraggio dell’unicità sui campi che fungono da identificativi, guidano le regole di deduplicazione o alimentano i modelli AI.

Affrontare le cause profonde

Una bassa unicità segnala un problema di processo. Indagare se gli utenti creano record senza verificare quelli esistenti, se le importazioni mancano di logica di deduplicazione o se le integrazioni scrivono valori predefiniti. Correggere la fonte, non solo il sintomo.

Passaggi successivi

Ora si comprendono le modalità di misurazione e diagnosi dei problemi di unicità. Si prosegua con la dimensione successiva: