Skip to main content

Geldigheid

Alle 6 geldigheidsstatistieken die DQS meet, de diagnostische stroom voor het vinden van indelingsfouten en ruis, en hoe u op patronen gebaseerde validatie configureert.

Wat is geldigheid?

Geldigheid meet of datawaarden voldoen aan verwachte indelingen en patronen. Een waarde is geldig wanneer hij overeenkomt met de gedefinieerde structuur. Een waarde is ongeldig wanneer hij de indelingsregels overtreedt.

Een e-mailadres is geldig wanneer het een „@“-symbool en een domein bevat. Een URL is geldig wanneer het begint met een protocol en een domein bevat. Een productcode is geldig wanneer hij het exacte aantal tekens heeft dat uw systeem vereist.

DQS valideert veldwaarden met behulp van regex (reguliere expressies). U kiest uit ingebouwde patronen voor veelgebruikte indelingen zoals E-mail, URL en Vaste lengte, of schrijft uw eigen regex voor elk bedrijfsspecifiek formaat.

Geldigheidspercentage = (Records die overeenkomen met patroon / Totale records) x 100

Als 35.500 van de 50.000 Contact-records een e-mailadres hebben dat overeenkomt met het e-mailindelingspatroon, is uw e-mailgeldigheidspercentage 71%. De resterende 29% bevat waarden die de patrooncontrole niet doorstaan.

Geldigheid vs. nauwkeurigheid

Geldigheid en nauwkeurigheid zijn verschillende concepten:

ControleGeldig?Nauwkeurig?
[email protected]JaOnbekend zonder verificatie
john@companyNeeN/A (formaat is onjuist)
[email protected]JaNee (persoon heeft het bedrijf verlaten)
555-123-4567JaOnbekend zonder bellen
555-12-456NeeN/A (onjuist aantal cijfers)

DQS meet geldigheid omdat indelingscontroles geautomatiseerd kunnen worden. Nauwkeurigheid vereist externe verificatie of menselijke bevestiging.

Geldige data werkt in uw systemen zelfs als het de werkelijkheid niet weerspiegelt. Ongeldige data breekt uw systemen ongeacht de werkelijke waarheid. Richt u eerst op geldigheid. Pak nauwkeurigheid aan via verificatieprocessen.

Waarom geldigheid belangrijk is

Ongeldige data veroorzaakt mislukkingen in uw volledige stack. Teruggestuurde e-mails beschadigen de verzenderreputatie. Onjuist gevormde telefoonnummers verspillen beltijd. Kapotte URL’s frustreren gebruikers en blokkeren verrijkingstools.

API’s weigeren onjuist gevormde data. Wanneer uw integratie een ongeldig e-mailformaat verzendt naar een marketingplatform, kan de volledige batch mislukken. Salesforce-flows die veldwaarden verwerken, breken wanneer het formaat onverwacht is.

AI-modellen verwerken tekst zoals het is. Wanneer een telefoonveld „Phone: 555-1234” bevat in plaats van een schoon nummer, ziet het model inconsistente patronen. Ongeldige indelingen verminderen de AI-effectiviteit en produceren onbetrouwbare Agentforce-uitkomsten.

SysteemImpact van geldigheid
E-mailcampagnesTeruggestuurde berichten beschadigen de verzenderreputatie
TelefonieOngeldige nummers verspillen beltijd
WeblinksKapotte URL’s blokkeren verrijking en navigatie
API’sOnjuist gevormde data veroorzaakt synchronisatiefouten
AI en AgentforceInconsistente indelingen verminderen modelnauwkeurigheid

Hoe DQS geldigheid meet

DQS produceert 6 geldigheidsstatistieken georganiseerd rondom een diagnostische vraag: „Komt de data overeen met het patroon, en zit er junk verborgen in waarden die slagen?”

Denk aan deze statistieken als een diagnostische stroom. Elke stap onthult een diepere laag van het probleem.

Stap 1: Komt het overeen met het patroon?

Geldigheidspercentage is de hoofdstatistiek. Het berekent het percentage records waarbij de veldwaarde overeenkomt met uw geconfigureerde patroon. Dit is het getal dat u op een dashboard zet.

U configureert het E-mailpatroon op het veld PersonEmail voor Contacts. Geldigheidspercentage komt terug op 71%. Dat betekent dat 29% van de e-mailadressen de indelingscontrole niet doorstaat. Ze missen het „@“-symbool, hebben geen domein of bevatten spaties. Elke marketingcampagne die naar die adressen wordt verzonden, wordt teruggestuurd. Elke geautomatiseerde workflow die triggert op e-mail, mislukt stil.

Geldig-aantal vertelt u het absolute getal. Van 50.000 Contacts hebben 35.800 geldige e-mailadressen. Dat is uw werkelijke adresseerbare doelgroep voor e-mailcampagnes, niet de 50.000 in het systeem. Marketing kan realistische campagneprognoses opstellen in plaats van te werken met opgeblazen cijfers.

Stap 2: Wat is de volledige uitsplitsing?

Percentages vertellen u de ernst. Aantallen vertellen u de werklast. Twee statistieken voltooien het beeld:

StatistiekWat het u vertelt
Ongeldig-percentageDe negatieve formulering van uw geldigheidsscore. „29% van onze e-mailadressen is structureel ongeldig” trekt meer aandacht in een boardpresentatie dan „71% is geldig.” Dezelfde data, ingekaderd voor actie.
Ongeldig-aantalDe opschoontaak als een hard getal. Uw bedrijf migreert naar een nieuw telefoniesysteem dat E.164-formaat vereist. Ongeldig-aantal op het Phone-veld: 23.400. Dat is het exacte aantal records dat opnieuw geformatteerd moet worden voordat de migratie live kan gaan.

Stap 3: Zit er junk verborgen achter indelingsfouten?

Een waarde kan een indelingscontrole doorstaan en toch rommel zijn. Uw web-to-lead-formulier vereist een Company-veld. Geldigheidspercentage op Company is 98%, omdat bijna alles een eenvoudig tekstpatroon doorstaat. Maar Ruispercentage onthult dat 14% van die waarden vermeldingen zijn zoals „asdf”, „test”, „xxxxx” of „na na na.” Indelingsgeldig, maar volledig nutteloos voor verkooprouting, verrijking of segmentatie.

Ruis-recordsaantal geeft u de opschoontaak. Als Ruispercentage 14% is op 50.000 records, zijn dat 7.000 leads met rommel-bedrijfsnamen. Uw ops-team kan een opschoonwachtrij opbouwen, uren schatten en beslissen of ze automatisch verwijderd of handmatig beoordeeld moeten worden.

Twee categorieën van mislukking

Geldigheidsstatistieken onderscheiden twee fundamenteel verschillende problemen:

ProbleemStatistiekenOorzaakOplossing
IndelingsfoutenGeldigheidspercentage, Ongeldig-percentage, Geldig/Ongeldig-aantalMenselijke fouten, integratiefouten, ontbrekende validatieregelsSchoon de data: indelingsvalidatieregels, datatransformatie, verrijking
Ruis en junkRuispercentage, Ruis-recordsaantalBots, geforceerde formulierinzendingen, bulkimports met standaard rommelLos de bron op: CAPTCHA, vereist veldontwerp, recordverwijdering

Het onderscheid is belangrijk omdat de oplossing volledig anders is. Indelingsfouten worden verholpen door de data op te schonen. Ruis wordt verholpen door de bron die het produceert te repareren.

Statistiekenreferentie

Basisstatistieken

Deze 2 statistieken vormen de basis van elke geldigheidsanalyse. Ze vertellen u het overeenkomstpercentage en het aantal records dat slaagt.

StatistiekTypeWat het meet
GeldigheidspercentagePercentageAandeel records dat overeenkomt met het geconfigureerde patroon
Geldig-aantalAantalAantal records dat overeenkomt met het geconfigureerde patroon

Geavanceerde statistieken

Deze 4 statistieken gaan verder dan „komt het overeen?” om de volledige uitsplitsing te geven, inclusief ruisdetectie. Ze vereisen de modus Geavanceerde indelingsvalidatie.

StatistiekTypeWat het meet
Ongeldig-percentagePercentageAandeel records dat het geconfigureerde patroon niet doorstaat
Ongeldig-aantalAantalAantal records dat het geconfigureerde patroon niet doorstaat
RuispercentagePercentageAandeel records met ruispatronen (junkdata)
Ruis-recordsaantalAantalAantal records met ruispatronen

Waarom percentages en aantallen in paren komen

De meeste statistieken komen als een percentage en een aantal (absoluut getal). Dit is opzettelijk:

  • Percentages zijn voor dashboards, executieve rapportage en trendregistratie. „Geldigheid verbeterd van 71% naar 92% dit kwartaal.”
  • Aantallen zijn voor projectplanning, werklastschatting en opschoontoewijzing. „We hebben 23.400 telefoonnummers te herformatteren.”

Gebruik percentages om voortgang te communiceren. Gebruik aantallen om werk te plannen.

Veldtype-dekking

Alle 6 geldigheidsstatistieken delen dezelfde basisondersteuning voor veldtypen, waarbij ruisstatistieken beperkt zijn tot tekstvelden.

StatistiekAlle 6 veldtypenAlleen String en TextArea
GeldigheidspercentageX
Geldig-aantalX
Ongeldig-percentageX
Ongeldig-aantalX
RuispercentageX
Ruis-recordsaantalX

Op patronen gebaseerde statistieken (Geldigheidspercentage, Geldig-aantal, Ongeldig-percentage, Ongeldig-aantal) werken op alle 6 ondersteunde veldtypen: String, TextArea, Email, Phone, URL en Picklist.

Ruisstatistieken (Ruispercentage, Ruis-recordsaantal) zijn alleen van toepassing op String- en TextArea-velden. Ruispatronen zoals herhaalde tekens en toetsenbordsmash zijn verschijnselen van vrije tekst. Een Picklist-veld met een geldige picklistwaarde kan geen ruis bevatten. Ruisdetectie heeft alleen zin op velden waar gebruikers vrije tekst typen.

Twee analysemodi

DQS biedt twee geldigheidsanalysemodi:

Indelingsvalidatie beantwoordt de vraag: „Voldoen veldwaarden aan het verwachte patroon?” Het produceert de 2 basisstatistieken en dekt de essentials voor een indelingscompliantiecontrole of snelle audit.

Geavanceerde indelingsvalidatie gaat dieper. Het produceert alle 6 statistieken, inclusief de volledige geldig/ongeldig-uitsplitsing en ruisdetectie. Gebruik deze modus wanneer u onderscheid wilt maken tussen indelingsfouten en junkdata, of wanneer u precieze aantallen nodig heeft voor het plannen van opschoonprojecten.

Zakelijke behoefteAanbevolen modus
Snelle indelingscompliantiecontroleIndelingsvalidatie
Compliancerapportage of auditGeavanceerd (volledige geldig/ongeldig-uitsplitsing voor regelgevers)
Beoordeling van leadkwaliteitGeavanceerd (Ruispercentage vangt junk die indelingscontroles mist)
Pre-migratie-databeoordelingGeavanceerd (volledige uitsplitsing om herstel per categorie te bepalen)
Voortdurende data-governanceBegin met Indelingsvalidatie, ga naar Geavanceerd voor ruisdetectie

Geldigheid configureren

In tegenstelling tot volledigheid (die automatisch werkt op elk veld), vereist geldigheid configuratie. U moet definiëren wat „geldig” betekent voor elk veld voordat DQS het kan controleren. Een geldigheids-scan zonder patroon is zinloos: geldig vergeleken met wat?

DQS biedt 5 configuratie-invoeren. Elke kan worden ingesteld op globaal niveau (van toepassing op alle velden) en worden overschreven op individueel veldniveau.

InstellingWat het beheert
PatroontypeHet formaat om tegen te valideren. Kies uit E-mail, URL, Vaste lengte of Aangepaste regex. Vereist: u moet een patroontype selecteren voordat u een scan uitvoert.
Patroon / Vaste lengteDe specifieke waarde voor uw gekozen type. Voer voor Vaste lengte een tekenCount in (1 tot 255). Voer voor Aangepast een regex-patroon in. E-mail en URL gebruiken ingebouwde patronen.
Aangepast patroonUw eigen regex wanneer Patroontype is ingesteld op Aangepast. DQS valideert uw regex vóór opslaan en blokkeert ongeldige expressies.
Lege waarden meenemenWanneer ingeschakeld, telt DQS lege waarden als ongeldig. Wanneer uitgeschakeld (de standaard), worden lege waarden volledig uitgesloten van evaluatie.
HoofdlettergevoeligWanneer ingeschakeld, houdt patroonherkenning rekening met hoofdlettergebruik. Wanneer uitgeschakeld (de standaard), is de herkenning niet hoofdlettergevoelig.

Patroontypen

TypeWat het valideertVoorbeeld geslaagdVoorbeeld mislukt
E-mailStandaard e-mailadresformaat: [email protected][email protected]user@domain, invalid-email
URLHTTP/HTTPS-webadressen met geldig domeinhttps://example.comexample.com, htp://site.com
Vaste lengteExact tekenCount (u definieert het getal)AAAAAAAAAA (10 tekens, als lengte = 10)KORT (5 tekens)
AangepastElk regex-patroon dat u definieertAfhankelijk van uw patroonAfhankelijk van uw patroon

Voorbeeld: Uw productcodes volgen het formaat „DQS-” gevolgd door 6 cijfers. Stel Patroontype in op Aangepast en voer de regex ^DQS-\d{6}$ in. DQS markeert elke productcode die niet overeenkomt met deze structuur.

Ruisdetectie

Ruisdetectie vangt data die indelingscontroles doorstaat maar toch rommel is. DQS gebruikt twee ingebouwde heuristieken om ruisige waarden te identificeren:

Heuristiek 1: Opeenvolgende identieke tekens. Drie of meer van hetzelfde teken op een rij. Waarden zoals „aaaa”, „!!!”, „---” of „xxxxx” activeren deze controle. Deze komen doorgaans van toetsinhouden, opvulling of plaatshoudermisbruik.

Heuristiek 2: Overmatige speciale tekens. Meer dan 50% niet-alfanumerieke tekens (exclusief spaties). Waarden zoals „!@#$%^” of „***///---” activeren deze controle. Deze duiden op toetsenbordsmash, botinvoer of opzettelijke junkinvoer.

HeuristiekWat het vangtVoorbeeld ruisige waardenVoorbeeld schone waarden
3+ opeenvolgende identieke tekensOpvulling, filler, toetsinhouden„aaaa”, „!!!”, „---”, „xxxxx”„Premium”, „DOT AB3 2024”
Meer dan 50% speciale tekensToetsenbordsmash, botinvoer, junk„!@#$%^”, „***test”, „//—//“[email protected]”, „O’Brien Inc”

U kunt ook aangepaste ruispatronen definiëren met regex voor organisatie-specifieke junk die de ingebouwde heuristieken niet opvangen.

Tip: Ruisdetectie is het meest waardevol op vrije-tekstvelden waar gebruikers alles kunnen typen: Company, Description, Notes en aangepaste tekstvelden. Voer het eerst uit op uw web-to-lead-velden, waar botinzendingen en geforceerde vermeldingen het meest voorkomen.

Veelvoorkomende geldigheids-problemen

Ongeldige e-mailadressen

Gebruikers voeren e-mails in zonder correct formaat. Ontbrekende „@“-symbolen, ontbrekende domeinen, dubbele punten en typefouten zijn de meest voorkomende problemen.

ProbleemVoorbeeld
Ontbrekende @john.company.com
Ontbrekend domeinjohn@
Dubbele punten[email protected]
Typefouten[email protected]

Impact: Teruggestuurde e-mails, beschadigde verzenderscore, verloren communicatie.

Onjuist gevormde telefoonnummers

Telefoonvelden accepteren elke tekst in Salesforce, wat leidt tot inconsistente en ongeldige indelingen.

ProbleemVoorbeeld
Letters gemengd555-CALL-NOW
Onjuist aantal cijfers555-12
Toestelnummer in veld555-1234 toest. 5
Verwarring landcode1-555-123-4567 vs. 555-123-4567

Impact: Mislukte oproepen, verspilde verkooptijd, synchronisatiefouten in telefonie.

Ongeldige URL’s

Webadresvelden bevatten vaak gedeeltelijke of onjuist gevormde waarden.

ProbleemVoorbeeld
Ontbrekend protocolwww.company.com
Ontbrekend domeinhttps://
Typefoutenhtps://company.com
Social handles@company (geen URL)

Impact: Kapotte links, mislukte verrijking, navigatiefouten.

Best practices

Valideer bij invoer

De beste geldigheidscontrole vindt plaats bij gegevensinvoer. Gebruik Salesforce-validatieregels om indelingen af te dwingen voordat data uw systeem binnenkomt.

// Voorbeeld: Validatieregel voor e-mailformaat
NOT(ISBLANK(Email)) && NOT(REGEX(Email, "^[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\\.[A-Za-z]{2,}$"))

Standaardiseer indelingen vóór het scannen

Kies één indeling voor elk veld en handhaaf het. Voor telefoonnummers is E.164 (+15551234567) de meest universeel geaccepteerde standaard. Vereist voor URL’s het https://-protocol. Documenteer uw indelingsbeslissingen zodat het team de standaard kent.

Stel drempelwaarden in op veldprioriteit

Verschillende velden hebben verschillende geldigheidsnormen nodig:

VeldAanbevolen drempelwaardeRedenering
Primaire e-mail95%+Kritiek voor communicatie
Telefoon90%+Belangrijk maar legacy-data verwacht
Website85%+Wordt vaak onvolledig ingevoerd
Aangepaste tekstcodes98%+Systeemgegenereerd, verwacht hoge naleving

Gebruik ruisdetectie op vrije-tekstvelden

Voer ruisdetectie uit op velden waar gebruikers vrije tekst typen: Company, Description, aangepaste tekstvelden en elk veld gevuld door webformulieren. Ruispercentage onthult problemen die indelingsvalidatie mist.

Documenteer verwachte indelingen

Maak een datadictionary die het verwachte formaat voor elk veld specificeert, aanvaardbare variaties en voorbeelden van geldige en ongeldige waarden. Deel dit met uw team en raadpleeg het tijdens dataopschoonprojecten.

Volgende stappen

U begrijpt nu hoe u dataindelingen kunt valideren en ruisige waarden kunt detecteren. Ga verder met het leren over de volgende dimensie: