Wat is geldigheid?
Geldigheid meet of datawaarden voldoen aan verwachte indelingen en patronen. Een waarde is geldig wanneer hij overeenkomt met de gedefinieerde structuur. Een waarde is ongeldig wanneer hij de indelingsregels overtreedt.
Een e-mailadres is geldig wanneer het een „@“-symbool en een domein bevat. Een URL is geldig wanneer het begint met een protocol en een domein bevat. Een productcode is geldig wanneer hij het exacte aantal tekens heeft dat uw systeem vereist.
DQS valideert veldwaarden met behulp van regex (reguliere expressies). U kiest uit ingebouwde patronen voor veelgebruikte indelingen zoals E-mail, URL en Vaste lengte, of schrijft uw eigen regex voor elk bedrijfsspecifiek formaat.
Geldigheidspercentage = (Records die overeenkomen met patroon / Totale records) x 100
Als 35.500 van de 50.000 Contact-records een e-mailadres hebben dat overeenkomt met het e-mailindelingspatroon, is uw e-mailgeldigheidspercentage 71%. De resterende 29% bevat waarden die de patrooncontrole niet doorstaan.
Geldigheid vs. nauwkeurigheid
Geldigheid en nauwkeurigheid zijn verschillende concepten:
| Controle | Geldig? | Nauwkeurig? |
|---|---|---|
| [email protected] | Ja | Onbekend zonder verificatie |
| john@company | Nee | N/A (formaat is onjuist) |
| [email protected] | Ja | Nee (persoon heeft het bedrijf verlaten) |
| 555-123-4567 | Ja | Onbekend zonder bellen |
| 555-12-456 | Nee | N/A (onjuist aantal cijfers) |
DQS meet geldigheid omdat indelingscontroles geautomatiseerd kunnen worden. Nauwkeurigheid vereist externe verificatie of menselijke bevestiging.
Geldige data werkt in uw systemen zelfs als het de werkelijkheid niet weerspiegelt. Ongeldige data breekt uw systemen ongeacht de werkelijke waarheid. Richt u eerst op geldigheid. Pak nauwkeurigheid aan via verificatieprocessen.
Waarom geldigheid belangrijk is
Ongeldige data veroorzaakt mislukkingen in uw volledige stack. Teruggestuurde e-mails beschadigen de verzenderreputatie. Onjuist gevormde telefoonnummers verspillen beltijd. Kapotte URL’s frustreren gebruikers en blokkeren verrijkingstools.
API’s weigeren onjuist gevormde data. Wanneer uw integratie een ongeldig e-mailformaat verzendt naar een marketingplatform, kan de volledige batch mislukken. Salesforce-flows die veldwaarden verwerken, breken wanneer het formaat onverwacht is.
AI-modellen verwerken tekst zoals het is. Wanneer een telefoonveld „Phone: 555-1234” bevat in plaats van een schoon nummer, ziet het model inconsistente patronen. Ongeldige indelingen verminderen de AI-effectiviteit en produceren onbetrouwbare Agentforce-uitkomsten.
| Systeem | Impact van geldigheid |
|---|---|
| E-mailcampagnes | Teruggestuurde berichten beschadigen de verzenderreputatie |
| Telefonie | Ongeldige nummers verspillen beltijd |
| Weblinks | Kapotte URL’s blokkeren verrijking en navigatie |
| API’s | Onjuist gevormde data veroorzaakt synchronisatiefouten |
| AI en Agentforce | Inconsistente indelingen verminderen modelnauwkeurigheid |
Hoe DQS geldigheid meet
DQS produceert 6 geldigheidsstatistieken georganiseerd rondom een diagnostische vraag: „Komt de data overeen met het patroon, en zit er junk verborgen in waarden die slagen?”
Denk aan deze statistieken als een diagnostische stroom. Elke stap onthult een diepere laag van het probleem.
Stap 1: Komt het overeen met het patroon?
Geldigheidspercentage is de hoofdstatistiek. Het berekent het percentage records waarbij de veldwaarde overeenkomt met uw geconfigureerde patroon. Dit is het getal dat u op een dashboard zet.
U configureert het E-mailpatroon op het veld PersonEmail voor Contacts. Geldigheidspercentage komt terug op 71%. Dat betekent dat 29% van de e-mailadressen de indelingscontrole niet doorstaat. Ze missen het „@“-symbool, hebben geen domein of bevatten spaties. Elke marketingcampagne die naar die adressen wordt verzonden, wordt teruggestuurd. Elke geautomatiseerde workflow die triggert op e-mail, mislukt stil.
Geldig-aantal vertelt u het absolute getal. Van 50.000 Contacts hebben 35.800 geldige e-mailadressen. Dat is uw werkelijke adresseerbare doelgroep voor e-mailcampagnes, niet de 50.000 in het systeem. Marketing kan realistische campagneprognoses opstellen in plaats van te werken met opgeblazen cijfers.
Stap 2: Wat is de volledige uitsplitsing?
Percentages vertellen u de ernst. Aantallen vertellen u de werklast. Twee statistieken voltooien het beeld:
| Statistiek | Wat het u vertelt |
|---|---|
| Ongeldig-percentage | De negatieve formulering van uw geldigheidsscore. „29% van onze e-mailadressen is structureel ongeldig” trekt meer aandacht in een boardpresentatie dan „71% is geldig.” Dezelfde data, ingekaderd voor actie. |
| Ongeldig-aantal | De opschoontaak als een hard getal. Uw bedrijf migreert naar een nieuw telefoniesysteem dat E.164-formaat vereist. Ongeldig-aantal op het Phone-veld: 23.400. Dat is het exacte aantal records dat opnieuw geformatteerd moet worden voordat de migratie live kan gaan. |
Stap 3: Zit er junk verborgen achter indelingsfouten?
Een waarde kan een indelingscontrole doorstaan en toch rommel zijn. Uw web-to-lead-formulier vereist een Company-veld. Geldigheidspercentage op Company is 98%, omdat bijna alles een eenvoudig tekstpatroon doorstaat. Maar Ruispercentage onthult dat 14% van die waarden vermeldingen zijn zoals „asdf”, „test”, „xxxxx” of „na na na.” Indelingsgeldig, maar volledig nutteloos voor verkooprouting, verrijking of segmentatie.
Ruis-recordsaantal geeft u de opschoontaak. Als Ruispercentage 14% is op 50.000 records, zijn dat 7.000 leads met rommel-bedrijfsnamen. Uw ops-team kan een opschoonwachtrij opbouwen, uren schatten en beslissen of ze automatisch verwijderd of handmatig beoordeeld moeten worden.
Twee categorieën van mislukking
Geldigheidsstatistieken onderscheiden twee fundamenteel verschillende problemen:
| Probleem | Statistieken | Oorzaak | Oplossing |
|---|---|---|---|
| Indelingsfouten | Geldigheidspercentage, Ongeldig-percentage, Geldig/Ongeldig-aantal | Menselijke fouten, integratiefouten, ontbrekende validatieregels | Schoon de data: indelingsvalidatieregels, datatransformatie, verrijking |
| Ruis en junk | Ruispercentage, Ruis-recordsaantal | Bots, geforceerde formulierinzendingen, bulkimports met standaard rommel | Los de bron op: CAPTCHA, vereist veldontwerp, recordverwijdering |
Het onderscheid is belangrijk omdat de oplossing volledig anders is. Indelingsfouten worden verholpen door de data op te schonen. Ruis wordt verholpen door de bron die het produceert te repareren.
Statistiekenreferentie
Basisstatistieken
Deze 2 statistieken vormen de basis van elke geldigheidsanalyse. Ze vertellen u het overeenkomstpercentage en het aantal records dat slaagt.
| Statistiek | Type | Wat het meet |
|---|---|---|
| Geldigheidspercentage | Percentage | Aandeel records dat overeenkomt met het geconfigureerde patroon |
| Geldig-aantal | Aantal | Aantal records dat overeenkomt met het geconfigureerde patroon |
Geavanceerde statistieken
Deze 4 statistieken gaan verder dan „komt het overeen?” om de volledige uitsplitsing te geven, inclusief ruisdetectie. Ze vereisen de modus Geavanceerde indelingsvalidatie.
| Statistiek | Type | Wat het meet |
|---|---|---|
| Ongeldig-percentage | Percentage | Aandeel records dat het geconfigureerde patroon niet doorstaat |
| Ongeldig-aantal | Aantal | Aantal records dat het geconfigureerde patroon niet doorstaat |
| Ruispercentage | Percentage | Aandeel records met ruispatronen (junkdata) |
| Ruis-recordsaantal | Aantal | Aantal records met ruispatronen |
Waarom percentages en aantallen in paren komen
De meeste statistieken komen als een percentage en een aantal (absoluut getal). Dit is opzettelijk:
- Percentages zijn voor dashboards, executieve rapportage en trendregistratie. „Geldigheid verbeterd van 71% naar 92% dit kwartaal.”
- Aantallen zijn voor projectplanning, werklastschatting en opschoontoewijzing. „We hebben 23.400 telefoonnummers te herformatteren.”
Gebruik percentages om voortgang te communiceren. Gebruik aantallen om werk te plannen.
Veldtype-dekking
Alle 6 geldigheidsstatistieken delen dezelfde basisondersteuning voor veldtypen, waarbij ruisstatistieken beperkt zijn tot tekstvelden.
| Statistiek | Alle 6 veldtypen | Alleen String en TextArea |
|---|---|---|
| Geldigheidspercentage | X | |
| Geldig-aantal | X | |
| Ongeldig-percentage | X | |
| Ongeldig-aantal | X | |
| Ruispercentage | X | |
| Ruis-recordsaantal | X |
Op patronen gebaseerde statistieken (Geldigheidspercentage, Geldig-aantal, Ongeldig-percentage, Ongeldig-aantal) werken op alle 6 ondersteunde veldtypen: String, TextArea, Email, Phone, URL en Picklist.
Ruisstatistieken (Ruispercentage, Ruis-recordsaantal) zijn alleen van toepassing op String- en TextArea-velden. Ruispatronen zoals herhaalde tekens en toetsenbordsmash zijn verschijnselen van vrije tekst. Een Picklist-veld met een geldige picklistwaarde kan geen ruis bevatten. Ruisdetectie heeft alleen zin op velden waar gebruikers vrije tekst typen.
Twee analysemodi
DQS biedt twee geldigheidsanalysemodi:
Indelingsvalidatie beantwoordt de vraag: „Voldoen veldwaarden aan het verwachte patroon?” Het produceert de 2 basisstatistieken en dekt de essentials voor een indelingscompliantiecontrole of snelle audit.
Geavanceerde indelingsvalidatie gaat dieper. Het produceert alle 6 statistieken, inclusief de volledige geldig/ongeldig-uitsplitsing en ruisdetectie. Gebruik deze modus wanneer u onderscheid wilt maken tussen indelingsfouten en junkdata, of wanneer u precieze aantallen nodig heeft voor het plannen van opschoonprojecten.
| Zakelijke behoefte | Aanbevolen modus |
|---|---|
| Snelle indelingscompliantiecontrole | Indelingsvalidatie |
| Compliancerapportage of audit | Geavanceerd (volledige geldig/ongeldig-uitsplitsing voor regelgevers) |
| Beoordeling van leadkwaliteit | Geavanceerd (Ruispercentage vangt junk die indelingscontroles mist) |
| Pre-migratie-databeoordeling | Geavanceerd (volledige uitsplitsing om herstel per categorie te bepalen) |
| Voortdurende data-governance | Begin met Indelingsvalidatie, ga naar Geavanceerd voor ruisdetectie |
Geldigheid configureren
In tegenstelling tot volledigheid (die automatisch werkt op elk veld), vereist geldigheid configuratie. U moet definiëren wat „geldig” betekent voor elk veld voordat DQS het kan controleren. Een geldigheids-scan zonder patroon is zinloos: geldig vergeleken met wat?
DQS biedt 5 configuratie-invoeren. Elke kan worden ingesteld op globaal niveau (van toepassing op alle velden) en worden overschreven op individueel veldniveau.
| Instelling | Wat het beheert |
|---|---|
| Patroontype | Het formaat om tegen te valideren. Kies uit E-mail, URL, Vaste lengte of Aangepaste regex. Vereist: u moet een patroontype selecteren voordat u een scan uitvoert. |
| Patroon / Vaste lengte | De specifieke waarde voor uw gekozen type. Voer voor Vaste lengte een tekenCount in (1 tot 255). Voer voor Aangepast een regex-patroon in. E-mail en URL gebruiken ingebouwde patronen. |
| Aangepast patroon | Uw eigen regex wanneer Patroontype is ingesteld op Aangepast. DQS valideert uw regex vóór opslaan en blokkeert ongeldige expressies. |
| Lege waarden meenemen | Wanneer ingeschakeld, telt DQS lege waarden als ongeldig. Wanneer uitgeschakeld (de standaard), worden lege waarden volledig uitgesloten van evaluatie. |
| Hoofdlettergevoelig | Wanneer ingeschakeld, houdt patroonherkenning rekening met hoofdlettergebruik. Wanneer uitgeschakeld (de standaard), is de herkenning niet hoofdlettergevoelig. |
Patroontypen
| Type | Wat het valideert | Voorbeeld geslaagd | Voorbeeld mislukt |
|---|---|---|---|
| Standaard e-mailadresformaat: [email protected] | [email protected] | user@domain, invalid-email | |
| URL | HTTP/HTTPS-webadressen met geldig domein | https://example.com | example.com, htp://site.com |
| Vaste lengte | Exact tekenCount (u definieert het getal) | AAAAAAAAAA (10 tekens, als lengte = 10) | KORT (5 tekens) |
| Aangepast | Elk regex-patroon dat u definieert | Afhankelijk van uw patroon | Afhankelijk van uw patroon |
Voorbeeld: Uw productcodes volgen het formaat „DQS-” gevolgd door 6 cijfers. Stel Patroontype in op Aangepast en voer de regex ^DQS-\d{6}$ in. DQS markeert elke productcode die niet overeenkomt met deze structuur.
Ruisdetectie
Ruisdetectie vangt data die indelingscontroles doorstaat maar toch rommel is. DQS gebruikt twee ingebouwde heuristieken om ruisige waarden te identificeren:
Heuristiek 1: Opeenvolgende identieke tekens. Drie of meer van hetzelfde teken op een rij. Waarden zoals „aaaa”, „!!!”, „---” of „xxxxx” activeren deze controle. Deze komen doorgaans van toetsinhouden, opvulling of plaatshoudermisbruik.
Heuristiek 2: Overmatige speciale tekens. Meer dan 50% niet-alfanumerieke tekens (exclusief spaties). Waarden zoals „!@#$%^” of „***///---” activeren deze controle. Deze duiden op toetsenbordsmash, botinvoer of opzettelijke junkinvoer.
| Heuristiek | Wat het vangt | Voorbeeld ruisige waarden | Voorbeeld schone waarden |
|---|---|---|---|
| 3+ opeenvolgende identieke tekens | Opvulling, filler, toetsinhouden | „aaaa”, „!!!”, „---”, „xxxxx” | „Premium”, „DOT AB3 2024” |
| Meer dan 50% speciale tekens | Toetsenbordsmash, botinvoer, junk | „!@#$%^”, „***test”, „//—//“ | „[email protected]”, „O’Brien Inc” |
U kunt ook aangepaste ruispatronen definiëren met regex voor organisatie-specifieke junk die de ingebouwde heuristieken niet opvangen.
Tip: Ruisdetectie is het meest waardevol op vrije-tekstvelden waar gebruikers alles kunnen typen: Company, Description, Notes en aangepaste tekstvelden. Voer het eerst uit op uw web-to-lead-velden, waar botinzendingen en geforceerde vermeldingen het meest voorkomen.
Veelvoorkomende geldigheids-problemen
Ongeldige e-mailadressen
Gebruikers voeren e-mails in zonder correct formaat. Ontbrekende „@“-symbolen, ontbrekende domeinen, dubbele punten en typefouten zijn de meest voorkomende problemen.
| Probleem | Voorbeeld |
|---|---|
| Ontbrekende @ | john.company.com |
| Ontbrekend domein | john@ |
| Dubbele punten | [email protected] |
| Typefouten | [email protected] |
Impact: Teruggestuurde e-mails, beschadigde verzenderscore, verloren communicatie.
Onjuist gevormde telefoonnummers
Telefoonvelden accepteren elke tekst in Salesforce, wat leidt tot inconsistente en ongeldige indelingen.
| Probleem | Voorbeeld |
|---|---|
| Letters gemengd | 555-CALL-NOW |
| Onjuist aantal cijfers | 555-12 |
| Toestelnummer in veld | 555-1234 toest. 5 |
| Verwarring landcode | 1-555-123-4567 vs. 555-123-4567 |
Impact: Mislukte oproepen, verspilde verkooptijd, synchronisatiefouten in telefonie.
Ongeldige URL’s
Webadresvelden bevatten vaak gedeeltelijke of onjuist gevormde waarden.
| Probleem | Voorbeeld |
|---|---|
| Ontbrekend protocol | www.company.com |
| Ontbrekend domein | https:// |
| Typefouten | htps://company.com |
| Social handles | @company (geen URL) |
Impact: Kapotte links, mislukte verrijking, navigatiefouten.
Best practices
Valideer bij invoer
De beste geldigheidscontrole vindt plaats bij gegevensinvoer. Gebruik Salesforce-validatieregels om indelingen af te dwingen voordat data uw systeem binnenkomt.
// Voorbeeld: Validatieregel voor e-mailformaat
NOT(ISBLANK(Email)) && NOT(REGEX(Email, "^[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\\.[A-Za-z]{2,}$"))
Standaardiseer indelingen vóór het scannen
Kies één indeling voor elk veld en handhaaf het. Voor telefoonnummers is E.164 (+15551234567) de meest universeel geaccepteerde standaard. Vereist voor URL’s het https://-protocol. Documenteer uw indelingsbeslissingen zodat het team de standaard kent.
Stel drempelwaarden in op veldprioriteit
Verschillende velden hebben verschillende geldigheidsnormen nodig:
| Veld | Aanbevolen drempelwaarde | Redenering |
|---|---|---|
| Primaire e-mail | 95%+ | Kritiek voor communicatie |
| Telefoon | 90%+ | Belangrijk maar legacy-data verwacht |
| Website | 85%+ | Wordt vaak onvolledig ingevoerd |
| Aangepaste tekstcodes | 98%+ | Systeemgegenereerd, verwacht hoge naleving |
Gebruik ruisdetectie op vrije-tekstvelden
Voer ruisdetectie uit op velden waar gebruikers vrije tekst typen: Company, Description, aangepaste tekstvelden en elk veld gevuld door webformulieren. Ruispercentage onthult problemen die indelingsvalidatie mist.
Documenteer verwachte indelingen
Maak een datadictionary die het verwachte formaat voor elk veld specificeert, aanvaardbare variaties en voorbeelden van geldige en ongeldige waarden. Deel dit met uw team en raadpleeg het tijdens dataopschoonprojecten.
Volgende stappen
U begrijpt nu hoe u dataindelingen kunt valideren en ruisige waarden kunt detecteren. Ga verder met het leren over de volgende dimensie:
- Volgende: Uniciteit - Detecteer en voorkom dubbele records
- Vorige: Volledigheid - Zorg dat vereiste data aanwezig is
- Gerelateerd: De vijf dimensies - Overzicht van alle dimensies
- Actie: AI-gereedheidsbeoordeling - Zie uw huidige geldigheids-scores