고유성: 구성 시나리오

이 시나리오가 다루는 내용

이 페이지는 DQS 고유성 분석의 세 가지 실제 구성을 안내합니다. 각 시나리오는 특정 비즈니스 문제를 다루고, 사용할 정확한 설정을 보여주며, 결과를 읽는 방법을 설명합니다.

이 워크스루는 주요 고유성 문서의 개념을 기반으로 합니다. 고유성 메트릭, 진단 계층, 또는 기본 고유성과 고급 고유성 분석의 차이가 새로운 경우 먼저 그것을 읽으십시오.

시나리오 1: Lead에 대한 이메일 중복 제거 감사

문제

마케팅팀이 Salesforce를 통해 육성 캠페인을 실행합니다. 오픈률이 하락하고 있으며 이메일 플랫폼이 “중복 전송” 수가 늘고 있다고 보고합니다: 같은 사람이 같은 이메일을 두 번 받습니다. 중복 관리 규칙은 정확한 일치 레코드를 포착하지만 부분 중복은 통과합니다. 같은 이메일 주소를 가진 같은 사람의 두 Lead 레코드가 모두 캠페인을 받습니다. 구체적인 숫자가 필요합니다: 얼마나 많은 Lead 이메일 주소가 여러 레코드에 걸쳐 공유됩니까?

구성

간단한 중복 탐지 확인입니다. Email 필드를 대상으로 Lead 오브젝트에서 기본 고유성 모드를 사용하십시오.

설정	값	이유
분석 모드	기본 고유성	분포 또는 상용구 분석이 아닌 중복 비율과 별개 수가 필요
대소문자 구분	끄기	이메일 주소는 대소문자를 구분하지 않습니다. “[email protected]”과 “[email protected]”은 같은 주소입니다.
공백 포함	켜기	Lead의 빈 이메일은 정량화할 가치가 있는 문제입니다. 공백을 포함하면 모든 빈 이메일 레코드가 하나의 “공백” 값을 공유하고, 고유성 비율이 낮아져 격차가 가시화됩니다.

대소문자 구분 끄기가 이메일에 대한 기본값이자 올바른 선택입니다. 두 레코드가 “[email protected]”과 “[email protected]”을 저장한다면 그것들은 같은 주소입니다. 대소문자 구분을 활성화하면 그것들을 별개로 계산하여 중복을 숨깁니다.

샘플 결과

기본 메트릭:

메트릭	값
고유성 비율	74%
별개 수	18,500

평가된 전체 Lead 레코드: 25,000.

결과 읽기

헤드라인부터 시작하십시오: 74% 고유성. 즉, 이메일 주소의 26%가 둘 이상의 Lead 레코드에 나타납니다. 25,000개의 Lead 중 18,500개의 별개 이메일 주소만 있습니다. 6,500개 레코드의 격차는 공유 이메일 주소입니다.

실제에서 26% 중복 이메일의 모습. 일부는 정당합니다: 같은 회사의 여러 contact에 걸쳐 공유되는 [email protected] 또는 [email protected]과 같은 부서 주소. 대부분은 다른 소스에 의해 생성된 중복 Lead입니다. 웹 양식이 하나의 Lead를 생성합니다. 목록 가져오기가 다른 것을 생성합니다. 영업 담당자가 명함에서 세 번째를 생성합니다. 세 가지 모두 같은 이메일 주소를 가집니다.

공백 포함 켜기가 전체 그림을 보여줍니다. 공백 포함을 활성화하면 이메일 주소가 없는 Lead가 모두 단일 “공백” 값을 공유합니다. 25,000개의 Lead 중 2,000개에 이메일이 없다면 이 2,000개 레코드는 서로 중복으로 계산됩니다. 이것은 공백을 제외하는 것과 비교하여 고유성 비율을 낮추지만 정직한 숫자를 제공합니다. 캠페인은 25,000개가 아닌 최대 18,500개의 별개 주소에 도달할 수 있습니다.

기본 고유성이 여기서 충분한 이유. 질문은 “얼마나 많은 이메일이 중복됩니까?”입니다. 고유성 비율과 별개 수가 그 질문에 답합니다. 중복 제거 프로젝트를 시작할지 결정하는 데 엔트로피나 희귀도가 필요하지 않습니다. 나중에 분포 패턴을 이해하려면 (정확히 두 번 나타나는 이메일 vs 열 번 나타나는 이메일), 전체 그림을 위해 고급 고유성 분석으로 전환하십시오.

다음에 할 일

이메일 캠페인을 위한 실제 도달 가능한 청중으로 별개 수 (18,500)를 사용하십시오. 공유 이메일이 있는 레코드에 대한 중복 제거 프로젝트의 범위를 정하십시오. 이메일 주소별로 그룹화된 Lead를 내보내서 중복을 병합하거나 삭제하십시오. 정리 후 스캔을 다시 실행하고 시간에 따른 고유성 비율을 추적하십시오. 스캔 간에 하락하면 새로운 중복 소스가 나타난 것입니다: 목록 가져오기, 중복 방지 로직이 없는 웹 양식, 또는 기존 항목을 확인하지 않고 레코드를 생성하는 통합.

시나리오 2: Account의 산업 필드 분포

문제

데이터팀이 Industry별로 고객을 그룹화하는 Account 세분화 모델을 구축했습니다. 모델은 타겟 세그먼트를 만들기 위해 24개의 산업 선택 목록 값을 사용합니다. 하지만 세그먼트가 고르지 않습니다: 두 세그먼트가 전체 Account의 70%를 포함하는 반면 나머지 22개 세그먼트가 30%를 분할합니다. 데이터 과학팀은 Industry 필드에 모델 문제가 아닌 분포 문제가 있다고 의심합니다. 필드의 값 분포가 진정으로 치우쳐져 있는지 확인하고 지배적인 값을 식별해야 합니다.

구성

Account 오브젝트의 Industry 필드를 대상으로 고급 고유성 분석 모드를 사용하십시오. 값이 어떻게 분산되어 있는지에 대한 질문에 답하기 위해 분포 메트릭 (엔트로피, 최대 빈도, 희귀도)이 필요합니다.

설정	값	이유
분석 모드	고급 고유성 분석	분포 분석을 위해 엔트로피, 최대 빈도, 희귀도 필요
대소문자 구분	끄기	선택 목록 값은 제어됩니다. 대소문자 구분은 여기서 관련이 없습니다.
공백 포함	끄기	빈 Industry 값은 완전성 문제이지 고유성 문제가 아닙니다. 입력된 값의 분포에 집중하기 위해 제외하십시오.

공백 포함 끄기가 이 시나리오에서 올바른 선택입니다. 기존 데이터가 범주에 걸쳐 어떻게 분산되어 있는지 분석하고 있습니다. 계산에 공백을 추가하면 세분화 질문에 답하지 않고 분포 메트릭을 왜곡할 것입니다. Account에 Industry 값이 얼마나 없는지 알고 싶다면 완전성 분석을 실행하십시오.

샘플 결과

기본 메트릭:

메트릭	값
고유성 비율	0.16%
별개 수	24

고급 메트릭:

메트릭	값
엔트로피	2.18
최대 빈도	5,200
희귀도	0%

평가된 전체 Account 레코드: 15,000.

결과 읽기

고유성 비율 (0.16%)은 예상되며 여기서 관련이 없습니다. Industry는 15,000개 레코드에 걸쳐 24개 값을 가진 선택 목록입니다. 거의 모든 값이 수백 개의 레코드에 의해 공유됩니다. 선택 목록 필드에서 낮은 고유성 비율은 정상입니다. 이 메트릭이 이 분석의 요점이 아닙니다.

별개 수 (24)는 선택 목록이 온전함을 확인합니다. 24개의 구성된 값이 모두 데이터에 나타납니다. 불량 자유 텍스트 항목이 존재하지 않습니다. 일관성 관점에서 데이터가 깨끗합니다.

엔트로피 (2.18)은 치우침을 보여줍니다. 24개의 별개 값에 대한 최대 엔트로피는 log2(24) = 4.58입니다. 실제 엔트로피는 2.18입니다. 정규화된 점수는 2.18 / 4.58 = 0.48입니다. “지배적인” 분포의 0.7 임계값보다 훨씬 낮습니다. 몇 가지 값이 대부분의 레코드를 보유합니다. 데이터 과학팀의 의심이 확인됩니다: 세분화 문제는 모델이 아닌 데이터에 있습니다.

정규화된 엔트로피 해석 방법:

정규화 (실제 / 최대)	해석
0.9 이상	균등 분포: 값이 균일하게 분산됨
0.7에서 0.9	중간 치우침: 일부 값이 다른 것보다 더 많이 나타남
0.7 미만	지배적: 소수 값이 대부분의 레코드 보유

귀하의 점수 0.48은 “지배적인” 범위에 있습니다.

최대 빈도 (5,200)는 지배적인 값을 식별합니다. 하나의 산업 값이 15,000개 레코드 중 5,200개, 즉 데이터셋의 34.7%에 나타납니다. 빠른 확인 결과 “Technology”임을 알 수 있습니다. 두 번째로 일반적인 값이 나머지 집중의 대부분을 담당할 것입니다. 두 가지 값이 함께 팀이 관찰한 70% 클러스터링을 차지합니다.

희귀도 (0%)는 롱 테일이 없음을 확인합니다. 24개의 별개 값 중 모두 두 번 이상 나타납니다. 싱글톤 값이 존재하지 않습니다. 이것은 잘 제어된 선택 목록 필드에서 예상됩니다. 자유 텍스트 필드에서는 오타와 일회성 항목을 포착하기 위해 희귀도를 원하겠지만, 선택 목록에서는 0% 희귀도가 정상입니다.

세분화 평결: 24개 범주 모델은 실제로 2개 범주 시스템입니다. “Technology”와 하나의 다른 산업이 데이터셋을 지배합니다. 나머지 22개 범주는 레코드의 30%를 공유하여 각 범주에 평균 약 200개 레코드를 줍니다. 일부 세그먼트는 의미 있는 분석에 너무 작습니다.

다음에 할 일

엔트로피와 최대 빈도를 데이터 과학팀에 제시하십시오. 숫자가 분포 문제를 확인합니다. 두 가지 옵션: (1) 실제 분포를 반영하는 더 적고 광범위한 범주를 사용하도록 세분화 모델을 재설계하십시오. 22개의 더 작은 산업을 4-5개의 거시 범주로 그룹화하십시오. (2) Industry 데이터를 보강하십시오. “Technology”의 집중이 담당자들이 레코드 생성 중에 기본값으로 선택하기 때문에 부풀려졌다면 이 5,200개 레코드의 상당 부분이 다른 산업에 속하는지 조사하십시오. 주기적인 스캔을 실행하고 시간에 따른 엔트로피를 추적하십시오. 잘못 분류된 레코드를 수정함에 따라 엔트로피가 더 건강한 분포를 향해 상승합니다.

시나리오 3: AI 준비를 위한 Case 설명 상용구 탐지

문제

귀사는 지원팀을 위한 AI 기반 Case 요약을 평가하고 있습니다. AI 도구가 Case의 Description 필드를 읽고 케이스를 다음에 받는 에이전트를 위한 요약을 생성합니다. 투자하기 전에 AI가 유용한 요약을 생성하기에 충분한 원본 내용이 case 설명에 있는지 평가해야 합니다. 필드는 케이스의 95%에 입력되어 있으므로 완전성은 우려가 아닙니다. 우려는 지원 에이전트가 모든 케이스에 표준 템플릿을 복사하여 붙여넣는다는 것입니다.

구성

Case 오브젝트의 Description 필드를 대상으로 고급 고유성 분석 모드를 사용하십시오. 내용 독창성을 평가하기 위해 상용구 메트릭이 필요합니다.

설정	값	이유
분석 모드	고급 고유성 분석	상용구 탐지 활성화 (상용구 비율, 상용구 백분율, 상용구 레코드 수)
대소문자 구분	끄기	템플릿 탐지는 대소문자에 의존하지 않음
공백 포함	끄기	빈 설명은 완전성 문제입니다. 존재하는 내용의 품질에 집중하기 위해 제외하십시오.

공백 포함 끄기는 여기서 의미가 있습니다. 존재하는 내용을 평가하는 것이지 누락된 내용을 계산하는 것이 아닙니다. 빈 설명이 있는 케이스의 5%는 완전성 분석으로 이미 처리됩니다.

샘플 결과

기본 메트릭:

메트릭	값
고유성 비율	97%
별개 수	29,100

고급 메트릭:

메트릭	값
엔트로피	14.8
상용구 비율	42%
상용구 백분율	68%
상용구 레코드 수	20,400

평가된 전체 Case 레코드: 30,000.

결과 읽기

고유성 비율 (97%)은 건강해 보이지만 오해를 불러일으킵니다. 각 케이스에는 고유한 케이스 번호, 고객 이름, 날짜가 포함되어 있기 때문에 거의 모든 케이스 설명이 기술적으로 다릅니다. 필드는 기본 중복 확인을 통과합니다. 하지만 “고유한”이 “원본”을 의미하지 않습니다.

상용구 비율 (42%)이 진짜 이야기를 말합니다. 케이스 설명 전반의 텍스트 내용의 42%가 반복적이거나 템플릿화되어 있습니다. 에이전트들은 표준 오프닝 (“지원에 연락해 주셔서 감사합니다. 케이스 번호는…”), 표준 클로징 (“추가 질문이 있으시면 주저하지 마시고 연락해 주세요.”), 표준 진단 체크리스트를 모든 케이스에 붙여넣습니다. 케이스별 세부 사항이 중간을 채우지만 모든 설명의 거의 절반이 복사-붙여넣기 내용입니다.

상용구 백분율 (68%)은 문제가 얼마나 광범위한지를 보여줍니다. 케이스 레코드의 68%에 템플릿화된 텍스트가 포함됩니다. 즉, 30,000개의 케이스 중 20,400개입니다. 상용구는 소수 에이전트나 한 팀에 한정되지 않습니다. 지원 프로세스에 내재화된 시스템적 패턴입니다.

상용구 레코드 수 (20,400)가 범위 숫자입니다. AI에 데이터를 공급하기 전에 템플릿을 정리하는 데 필요한 노력을 추정해야 한다면 이것이 시작점입니다. 20,400개 레코드에 AI가 패턴으로 배울 내용이 포함되어 있지만 그 패턴은 고객 문제가 아닌 귀하의 템플릿입니다.

AI 준비성 평결: AI 요약 도구는 케이스의 68%에서 템플릿화된 내용을 처리할 것입니다. 에이전트들이 이미 마음속으로 알고 있는 표준 구절을 요약하는 것을 배울 것입니다. 원본 내용이 있는 32%의 케이스에서는 AI가 잘 수행할 것입니다. 상용구가 있는 68%에서 요약은 에이전트들이 이미 외우고 있는 표준 구절을 반영할 것입니다.

엔트로피 (14.8)는 높으며 텍스트가 문자 수준에서 다양함을 확인합니다. 이것은 97% 고유성 비율과 일치합니다: 각 설명이 다릅니다. 중복 문제가 동일한 값이 아니기 때문에 엔트로피가 여기서 관련 메트릭이 아닙니다. 문제는 달리 고유한 텍스트 내의 반복된 내용 패턴입니다. 그것이 정확히 상용구 메트릭이 포착하도록 설계된 것입니다.

다음에 할 일

상용구 비율 (42%)과 상용구 백분율 (68%)을 AI 프로젝트 이해관계자에게 제시하십시오. 숫자가 케이스를 만들어줍니다: AI 프로젝트는 배포 전에 내용 품질 개선 단계가 필요합니다. 상용구를 줄이기 위한 세 가지 접근 방식:

템플릿을 제거하십시오. 에이전트들이 표준 오프닝과 클로징을 붙여넣는다면 이러한 요소들을 케이스 레이아웃 또는 화면 흐름에 내재화하여 설명 필드를 오염시키지 않도록 하십시오. 그러면 설명이 케이스별 정보만 포착합니다.
효과적인 설명에 대해 에이전트를 교육하십시오. 고품질 설명의 예시 (원본인 32%에서)를 공유하고 템플릿 없는 항목이 더 나은 AI 요약을 생성하는 이유를 설명하십시오.
과거 데이터에서 상용구를 제거하십시오. 기존 케이스를 AI에 공급하기 전에 설명 필드에서 알려진 템플릿 패턴을 제거하는 텍스트 처리 작업을 실행하십시오.

각 개선 주기 후에 스캔을 다시 실행하십시오. 이 필드의 기본 AI 준비성 메트릭으로 상용구 비율과 상용구 백분율을 추적하십시오. 목표: AI 요약 도구를 배포하기 전에 상용구 백분율 30% 미만, 상용구 비율 20% 미만.

구성 선택

이 표를 사용하여 고유성 분석에 맞는 시작점을 선택하십시오.

필요한 것…	시작점	핵심 설정
식별자 필드 (이메일, 전화, Account 이름)의 중복 값 감사	기본 고유성	대소문자 구분: 끄기, 공백 볼륨 표시를 위해 공백 포함: 켜기
구체적인 레코드 수로 중복 제거 프로젝트 규모 결정	기본 고유성	전체 레코드와 고유 값 사이의 격차를 계산하기 위해 별개 수 사용
선택 목록 또는 범주형 필드의 값 분포 분석	고급 고유성 분석	엔트로피 (최대에 대해 정규화), 최대 빈도, 희귀도 검토
AI 프로젝트 전에 텍스트 필드에서 템플릿 내용 탐지	고급 고유성 분석	상용구 비율, 상용구 백분율, 상용구 레코드 수 검토
”건강한” 고유성 점수가 더 깊은 문제를 숨기는지 결정	고급 고유성 분석	엔트로피 (분포 치우침에 대해) 또는 상용구 비율 (내용 독창성에 대해)과 고유성 비율 페어링

8가지 고유성 메트릭, 세 가지 진단 계층, 구성 세부 사항에 대한 전체 참조는 주요 고유성 문서로 돌아가십시오.

자체 데이터 품질을 측정할 준비가 되었습니까? 고유성 점수 및 그 이상을 보려면 AI 준비성 평가를 받으십시오.