일관성이란 무엇인가?
일관성은 데이터 값이 합의된 표준에 부합하는지를 측정합니다. 필드는 모든 레코드가 동일한 개념에 동일한 용어를 사용할 때 일관성이 있습니다. 같은 의미이지만 다르게 표현된 변형이 있을 때 불일관성이 있습니다.
“USA”, “United States”, “US”는 모두 동일한 국가를 가리킵니다. Salesforce에서는 세 개의 별개 값입니다. Country별로 그룹화된 보고서는 하나 대신 세 개의 행을 생성합니다. “USA”로 필터링하는 자동화는 “United States”가 포함된 230개의 레코드를 놓칩니다.
적합률 = (적합한 레코드 / 전체 레코드) x 100
1,000개의 Account 레코드 중 850개가 허용된 값 목록과 일치하는 Country 값을 가진다면, Country 적합률은 85%입니다. 나머지 15%는 표준화가 필요한 변형을 포함합니다.
일관성이 중요한 이유
보고
불일관한 데이터는 보고서를 분산시킵니다. Country 필드에 동일한 국가의 다섯 가지 다른 철자가 있으면, Country별로 그룹화된 보고서는 하나 대신 다섯 개의 행을 보여줍니다. 합계는 맞지만 그룹화가 잘못됩니다. 이러한 보고서를 기반으로 구축된 경영진 대시보드는 오해의 소지가 있는 이야기를 전달합니다.
자동화
Salesforce 자동화는 정확한 값 일치에 의존합니다. Country = "USA"로 필터링하는 워크플로는 “United States” 및 “US”가 있는 레코드를 놓칩니다. 자동화는 일치하는 레코드에서는 올바르게 실행되지만 다른 모든 것은 조용히 건너뜁니다.
AI 및 Agentforce
AI 모델은 각 변형을 별도의 개념으로 취급합니다. “USA”와 “United States”는 모델의 시각에서 두 개의 다른 국가가 됩니다. Agentforce는 필드 값을 사용하여 응답을 생성합니다. 불일관한 값은 불일관한 AI 결과를 만들어냅니다.
| 시스템 | 일관성 영향 |
|---|---|
| 보고서 | 분산된 그룹화, 오해의 소지가 있는 합계 |
| 워크플로 | 필터가 일치하지 않는 변형을 놓침 |
| 중복 규칙 | 변형이 올바른 매칭을 방해함 |
| Agentforce | 불일관한 필드 값이 신뢰할 수 없는 AI 응답을 생성함 |
DQS가 일관성을 측정하는 방법
DQS는 진단적 질문을 중심으로 구성된 6가지 일관성 메트릭을 제공합니다. “필드 값이 표준에 부합하는가, 그렇지 않다면 어떻게 다른가?”
이 메트릭들을 진단 흐름으로 생각하십시오. 각 단계는 문제의 다른 레이어를 드러냅니다.
1단계: 얼마나 일관성이 있는가?
**적합률(Conformance Rate)**은 핵심 메트릭입니다. 필드 값이 정의된 허용 값 중 하나와 일치하는 레코드의 백분율을 계산합니다. 이것이 대시보드에 표시하는 숫자입니다.
Account 오브젝트에 대한 스캔을 실행합니다. Country 필드가 72%의 적합률을 보여줍니다. 이는 Account의 28%가 허용 목록 밖의 국가 값을 포함함을 의미합니다. 지역 할당 규칙, 지역 대시보드, 지역화 로직이 모두 불완전한 데이터로 작동하고 있습니다.
다른 모든 일관성 메트릭은 비적합 28%가 어떻게 생겼는지를 설명하기 위해 존재합니다.
2단계: 규모는 어떠한가?
비율은 심각도를 알려줍니다. 개수는 작업량을 알려줍니다. 두 가지 메트릭이 규모 질문에 답합니다.
| 메트릭 | 알려주는 것 |
|---|---|
| 적합 개수(Conformance Count) | 허용 값과 일치하는 레코드 수. 적용 범위 보고에 사용합니다. |
| 비적합 개수(Non-Conforming Count) | 허용 값 밖의 레코드 수. 정리 프로젝트 범위 지정에 사용합니다. |
두 숫자의 합은 항상 전체 레코드 수와 같아야 합니다. 적합 개수가 720이고 비적합 개수가 280이라면 정확히 1,000개의 레코드가 평가된 것입니다.
예시: 데이터 관리자가 Industry 필드를 정리해야 합니다. 비적합 개수는 3,400개입니다. 이제 프로젝트의 범위를 알게 되었으며, 자원을 배정하고, 표준화에 대한 현실적인 일정을 설정할 수 있습니다.
3단계: 데이터가 얼마나 분산되어 있는가?
**변형 개수(Variant Count)**는 모든 레코드에 걸쳐 필드에서 발견된 고유값의 수를 측정합니다. “사람들이 이 데이터를 몇 가지 다른 방식으로 표현하는가?”라는 질문에 답합니다.
이 메트릭은 스키마 건강 지표로 작동합니다. 5개의 고유값을 가진 Country 필드는 잘 제어될 가능성이 높습니다. 47개의 고유값을 가진 Country 필드는 적합성을 확인하기 전에도 심각한 분산을 나타냅니다.
| 필드 | 전체 레코드 | 변형 개수 | 평가 |
|---|---|---|---|
| Country | 1,000 | 5 | 잘 제어됨, 일관성 있을 가능성 높음 |
| Country | 1,000 | 47 | 고도로 분산됨, 표준화 필요 |
| Industry | 500 | 12 | 적절함, 선택 목록 제약 가능성 |
| Industry | 500 | 89 | 자유 텍스트 혼돈, 즉각적인 주의 필요 |
예시: 조직 감사 중에 Lead의 Lead_Source__c를 스캔합니다. 변형 개수가 34를 반환합니다. 마케팅 팀은 8개의 리드 소스를 정의했습니다. 나머지 26개의 변형은 통합의 철자 오류, 약어, 임시 항목들입니다. 선택 목록은 기술적으로 UI에서 강제되지만, API로 생성된 레코드는 이를 우회합니다.
4단계: 실제 값은 무엇인가?
**지배적 값(Dominant Values)**은 필드에서 가장 빈번한 상위 N개의 값과 각 값의 빈도 개수를 반환합니다. 데이터가 실제로 어떻게 생겼는지 알려줍니다. 예상하는 것이 아니라 실제로 있는 것을 보여줍니다.
| 순위 | 값 | 개수 | 백분율 |
|---|---|---|---|
| 1 | United States | 450 | 45% |
| 2 | USA | 230 | 23% |
| 3 | US | 180 | 18% |
| 4 | U.S.A. | 45 | 4.5% |
| 5 | United States of America | 15 | 1.5% |
이 표는 세 가지를 드러냅니다. 첫째, 사실상의 표준: 45%에서 “United States”가 대부분의 사용자가 입력하는 것입니다. 둘째, 일반적인 변형: “USA”와 “US”가 추가로 41%를 차지합니다. 셋째, 긴 꼬리: “U.S.A.”와 “United States of America”는 드물지만 존재합니다.
예시: 팀이 Country 값을 ISO 코드(“US”) 또는 전체 이름(“United States”)으로 표준화할지 논의하고 있습니다. 지배적 값은 레코드의 45%가 이미 “United States”를 사용하고 있음을 보여줍니다. 해당 값으로 표준화하려면 레코드의 55%를 변경해야 합니다. “US”로 표준화하려면 82%를 변경해야 합니다. 데이터가 더 저렴한 경로를 알려줍니다.
비율과 개수가 쌍으로 제공되는 이유
적합성 메트릭은 비율(적합률)과 반전 값(비적합률), 그리고 양쪽에 대한 절대 개수로 제공됩니다. 이는 의도적인 설계입니다.
- 비율은 대시보드, 경영진 보고, 추세 추적에 사용됩니다. “적합성이 이번 분기에 72%에서 94%로 향상되었습니다.”
- 개수는 프로젝트 계획, 작업량 추정, 정리 범위 지정에 사용됩니다. “3,400개의 비적합 레코드를 수정해야 합니다.”
진척도를 전달하는 데는 비율을 사용하고, 작업을 계획하는 데는 개수를 사용하십시오.
메트릭 참조
기본 메트릭
이 2가지 메트릭은 모든 일관성 분석의 기반을 형성합니다. 적합률과 일치하는 레코드 수를 알려줍니다.
| 메트릭 | 유형 | 측정 내용 |
|---|---|---|
| 적합률 | 백분율 | 허용 값과 일치하는 레코드의 비율 |
| 적합 개수 | 개수 | 허용 값과 일치하는 레코드 수 |
고급 메트릭
이 4가지 메트릭은 “일치하는가?”를 넘어 “일치하지 않는 데이터는 어떻게 생겼는가?”를 묻습니다. 고급 적합성 분석 모드가 필요합니다.
| 메트릭 | 유형 | 측정 내용 |
|---|---|---|
| 비적합 개수 | 개수 | 허용 목록 밖의 값을 가진 레코드 |
| 비적합률 | 백분율 | 허용 목록 밖의 레코드의 비율 |
| 변형 개수 | 개수 | 필드에서 발견된 총 고유값 수 |
| 지배적 값 | 목록 | 빈도 개수와 함께 가장 빈번한 상위 N개의 값 |
필드 유형 적용 범위
DQS는 다음 Salesforce 필드 유형에 대해 일관성 검사를 지원합니다.
| 필드 유형 | 일관성 초점 |
|---|---|
| String (Text) | 약어, 철자, 대소문자 |
| TextArea | 자유 텍스트 표준화 |
| Picklist | 실제 값을 예상 옵션과 비교 검증 |
| 도메인 표준화, 형식 일관성 | |
| Phone | 형식 표준화 (지역 코드, 구분 기호) |
| URL | 프로토콜 및 경로 일관성 |
두 가지 분석 모드
DQS는 두 가지 일관성 분석 모드를 제공합니다.
**적합성 검사(Conformance Check)**는 “필드 값이 허용 목록과 일치하는가?”라는 질문에 답합니다. 2가지 기본 메트릭을 생성하며 빠른 적합성 감사에 필요한 필수 사항을 다룹니다.
**고급 적합성 분석(Advanced Conformance Analysis)**은 더 깊이 파고듭니다. 비적합 개수, 변형 감지, 지배적 값 분포를 포함한 6가지 메트릭을 모두 생성합니다. 단순한 적합성 점수가 아닌 값 분산의 전체 상황을 이해해야 할 때 이 모드를 사용하십시오.
| 비즈니스 요구 | 권장 모드 |
|---|---|
| 빠른 적합성 감사 또는 기준선 검사 | 적합성 검사 |
| 데이터 마이그레이션 정리 | 고급 (변형 개수가 가져온 혼란을 드러냄) |
| AI 준비 평가 | 고급 (지배적 값이 AI가 학습할 내용을 보여줌) |
| 지속적인 데이터 거버넌스 | 적합성 검사로 시작하고, 더 깊은 분석이 필요할 때 고급으로 이동 |
일관성 구성
DQS는 일관성을 위한 네 가지 구성 입력을 제공합니다. 각각은 전역 수준(모든 필드에 적용)에서 설정할 수 있으며 개별 필드 수준에서 재정의할 수 있습니다.
| 설정 | 제어 내용 |
|---|---|
| 예상 값(Expected Values) | DQS가 “적합”으로 취급하는 값의 목록. 이 목록에 없는 모든 필드 값은 비적합으로 플래그 지정됩니다. 필수: 스캔 실행 전에 최소 하나의 값을 정의해야 합니다. |
| 대소문자 구분(Case Sensitive) | 값 매칭이 대소문자를 고려하는지를 제어합니다. 비활성화(기본값)하면 “Premium”, “PREMIUM”, “premium”이 모두 허용 값 “Premium”과 일치합니다. 활성화하면 정확한 대소문자 일치만 계산됩니다. |
| 상위 N(Top N) | 반환할 지배적 값의 수(1~100). 지배적 값 출력의 크기를 제어합니다. 기본값: 5. |
| 최소 빈도(Min Frequency) | 지배적 값 출력에 포함되기 위해 값이 나타나야 하는 최소 횟수(1~1,000). 노이즈를 추가하는 극히 드문 값을 필터링합니다. 기본값: 1. |
팁: 허용 값 목록을 정의하기 전에 필드에서 가져오기(Import from Field)를 사용하여 데이터에 실제로 어떤 값이 있는지 확인하십시오.
필드에서 가져오기: 발견 우선 구성
일관성의 일반적인 과제는 예상할 값을 아는 것입니다. 데이터에 무엇이 포함되어 있는지 모르면 허용 값을 정의할 수 없습니다.
필드에서 가져오기가 이를 해결합니다. 실제 필드 데이터를 조회하고, 빈도별로 값을 그룹화하고, 결과를 체크리스트로 표시합니다.
작동 방식:
- 예상 값 구성을 여십시오.
- 필드에서 가져오기를 클릭하십시오. DQS가 실시간 데이터를 조회하고 빈도 순으로 정렬된 고유값을 반환합니다.
- 체크리스트를 검토하십시오. 각 값은 이를 포함하는 레코드 수를 보여줍니다.
- 올바르다고 생각하는 값에 체크하십시오. 잘못되었거나, 잘못된 형식이거나, 자리 표시자인 값은 체크하지 마십시오.
- 선택 항목 추가를 클릭하십시오. 체크된 값이 허용 값 목록을 채웁니다.
예시: Rating__c 필드에 대해 일관성을 구성합니다. 필드에서 가져오기가 다음을 반환합니다.
| 값 | 레코드 |
|---|---|
| Hot | 284 |
| Warm | 198 |
| Cold | 156 |
| Very High | 23 |
| 240 km/h | 12 |
| N/A | 8 |
처음 세 가지 값이 실제 등급입니다. 그것들을 체크합니다. “Very High”는 데이터 입력 오류입니다. “240 km/h”는 명백히 잘못된 필드 데이터입니다. “N/A”는 자리 표시자입니다. 그것들은 체크하지 않습니다. 스캔이 실행되면 해당 43개의 레코드가 비적합으로 표시되고, 허용 값 목록은 데이터에 실제로 포함된 내용을 기반으로 구축됩니다.
이 워크플로는 전통적인 “먼저 추측하고 나중에 수정” 접근 방식을 역전시킵니다. 먼저 발견하고, 그런 다음 표준을 정의합니다.
일반적인 일관성 문제
국가 및 주 변형
Salesforce 데이터에서 가장 일반적인 불일관성입니다. 표준화 없이 “United States”와 같은 단일 개념이 5개 이상의 고유값으로 나타납니다. 보고서가 분산됩니다. 필터가 레코드를 놓칩니다. 지역 규칙이 실패합니다.
해결책: 모든 주소 필드에 Salesforce State 및 Country Picklists를 활성화하십시오. DQS를 사용하여 기존의 비적합 값을 찾고 정리하십시오.
거버넌스 없는 자유 텍스트 필드
선택 목록 제약이 없는 텍스트 필드는 시간이 지남에 따라 변형을 축적합니다. Industry, Job Title, Lead Source, Department 필드는 자유 텍스트로 구현될 때 빈번한 위반자입니다.
해결책: 높은 가치의 자유 텍스트 필드를 선택 목록으로 변환하십시오. 선택 목록 옵션을 정의하기 전에 현재 값 분포를 확인하기 위해 필드에서 가져오기를 사용하십시오.
통합에서 생성된 변형
외부 시스템과 API는 Salesforce UI 유효성 검사를 우회하는 레코드를 씁니다. 마케팅 자동화 플랫폼은 표준이 “Information Technology”인 반면 “Info Technology”를 씁니다. 이러한 변형들이 조용히 축적됩니다.
해결책: 통합 레이어에 값 매핑 규칙을 적용하십시오. 제어하지 않는 데이터 소스에서의 새로운 변형을 포착하기 위해 정기적인 일관성 스캔을 실행하십시오.
대소문자 불일관성
사용자들이 서로 다른 레코드에 “Active”, “active”, “ACTIVE”를 입력합니다. 대소문자 구분 매칭이 비활성화되면 DQS는 세 가지 모두를 적합으로 계산합니다. 하지만 필드는 여전히 원시 데이터에 세 가지 다른 철자를 포함합니다.
해결책: 사용 사례에 대소문자가 중요한지 결정하십시오. 표시 지향 필드의 경우 데이터 정리를 통해 대소문자를 표준화하십시오. 매칭 목적으로는 DQS 구성에서 대소문자 구분을 비활성화하십시오.
모범 사례
스캔 전 표준 정의
첫 번째 스캔 실행 전에 각 제한된 필드에 대한 예상 값을 문서화하십시오. 명확한 표준 없이는 측정할 기준선이 없습니다.
| 필드 | 표준 | 이유 |
|---|---|---|
| Country | ISO 3166-1 alpha-2 코드 (US, CA, DE) | 업계 표준, 간결함 |
| Industry | 15-값 사용자 정의 분류 체계 | 보고 카테고리와 일치 |
| Lead Source | 마케팅에서 정의한 8개 소스 | 캠페인 추적과 일치 |
알 수 없는 필드에 발견 워크플로 사용
사전 정의된 표준이 없는 필드의 경우 먼저 필드에서 가져오기를 사용하십시오. 데이터가 사실상의 표준이 무엇인지 알려주도록 하십시오. 가장 높은 빈도를 가진 값이 종종 표준적인 값으로서의 올바른 선택입니다.
시간에 따른 적합성 추적
단일 적합성 점수는 스냅샷입니다. 여러 스캔에 걸쳐 점수를 추적하여 초기에 저하를 감지하고, 정리 진척도를 측정하고, 새로운 변형을 도입하는 데이터 소스를 파악하십시오.
변형 개수를 조기 경고 신호로 사용
스캔 간에 변형 개수를 모니터링하십시오. 스캔 간에 12개에서 28개의 고유값으로 급증하는 필드는 새로운 변형 소스가 있는 것입니다. 문제가 규모화되기 전에 조사하십시오.
비즈니스 영향에 따라 우선순위 지정
모든 필드에 100% 적합성이 필요한 것은 아닙니다. 보고를 구동하는 필드(Country, Industry), 자동화에 공급되는 필드(Status, Stage), 또는 AI 및 Agentforce에 데이터를 제공하는 필드에 집중하십시오.
다음 단계
이제 다섯 가지 데이터 품질 차원을 모두 완료했습니다. 학습을 계속하십시오.
- 다음: Agentforce 준비 - AI 특정 데이터 요구 사항에 대해 알아보기
- 이전: 적시성 - 데이터 신선도 및 현재성 측정
- 개요: 다섯 가지 차원 - 모든 차원을 함께 검토
- 실행: AI 준비 평가 - 일관성 점수 및 더 많은 것 확인