一貫性とは
一貫性は、データ値が合意された標準に準拠しているかを測定します。フィールドは、すべてのレコードが同じ概念に対して同じ用語を使うときに一貫しているといえます。同じ意味を持つが異なる表現のバリエーションが存在するときに一貫性が損なわれます。
「USA」「United States」「US」はすべて同じ国を指しています。Salesforceにとっては3つの異なる値です。Countryでグループ化したレポートは1行ではなく3行を生成します。「USA」でフィルタする自動化は「United States」を含む230件のレコードを見落とします。
準拠率 =(準拠するレコード / 全レコード)× 100
Accountレコード1,000件のうち850件のCountry値が許容値リストに一致すれば、Countryの準拠率は85%です。残り15%には標準化が必要なバリエーションが含まれます。
一貫性が重要な理由
レポート
一貫性のないデータはレポートを分断します。Countryフィールドに同じ国の5つの異なる綴りが含まれていると、Countryでグループ化したレポートは1行ではなく5行を表示します。合計は正しいですが、グルーピングは誤っています。これらのレポートに基づく経営ダッシュボードは誤解を招くストーリーを伝えます。
自動化
Salesforceの自動化は値の完全一致に依存します。Country = "USA"でフィルタするワークフローは「United States」や「US」を含むレコードを見落とします。自動化は一致するレコードで正しく動作しますが、それ以外はすべて無言でスキップします。
AIとAgentforce
AIモデルは各バリエーションを別の概念として扱います。「USA」と「United States」はモデルの視点では2つの異なる国になります。Agentforceはフィールド値を使って応答を生成します。一貫性のない値は一貫性のないAI出力を生みます。
| システム | 一貫性の影響 |
|---|---|
| レポート | 分断されたグルーピング、誤解を招く合計 |
| ワークフロー | フィルタが非一致のバリエーションを見落とす |
| 重複ルール | バリエーションが正しいマッチングを妨げる |
| Agentforce | 一貫性のないフィールド値が信頼できないAI応答を生む |
DQSによる一貫性の測定方法
DQSは次の診断的な問いを軸として6つの一貫性指標を算出します。「フィールド値は標準に準拠しているか、準拠していない場合は代わりに何をしているか」
これらの指標は診断フローのようなものです。各ステップが問題の異なる層を明らかにします。
ステップ1:どの程度一貫しているか
準拠率は看板となる指標です。フィールド値が定義した許容値のいずれかに一致するレコードの割合を計算します。ダッシュボードに掲載する数字がこれです。
Accountオブジェクトでスキャンを実行します。Countryフィールドは準拠率72%を示します。つまりAccountの28%が許容リスト外の国値を含んでいるということです。テリトリー割り当てルール、地域別ダッシュボード、ローカライゼーションロジックはすべて不完全なデータで動作しています。
他の一貫性指標はすべて、準拠していない28%がどのような姿をしているかを説明するために存在します。
ステップ2:規模はどの程度か
率は深刻度を示し、件数は作業量を示します。2つの指標が規模の問いに答えます。
| 指標 | 示す内容 |
|---|---|
| 準拠件数 | 許容値に一致するレコードの数。カバレッジレポートに使います。 |
| 非準拠件数 | 許容値の外にあるレコードの数。クレンジングプロジェクトの規模把握に使います。 |
この2つの数字は常に総レコード数と一致します。準拠件数が720、非準拠件数が280であれば、評価されたレコードはちょうど1,000件です。
**例:**データスチュワードはIndustryフィールドをクレンジングする必要があります。非準拠件数は3,400件です。これでプロジェクトの範囲を把握し、リソースを割り当て、標準化の現実的なタイムラインを設定できます。
ステップ3:データはどれほど分断されているか
Variant Countは、全レコードにわたってフィールドで見つかる異なる値の数を測定します。「人々がこのデータをどれほど多くの異なる方法で表現しているか」という問いに答えます。
この指標はスキーマ健全性の指標として機能します。5つの異なる値を持つCountryフィールドはおそらくよく管理されています。47の異なる値を持つCountryフィールドは、準拠率をチェックする前から深刻な分断を示しています。
| フィールド | 総レコード数 | Variant Count | 評価 |
|---|---|---|---|
| Country | 1,000 | 5 | よく管理されており、おそらく一貫している |
| Country | 1,000 | 47 | 高度に分断されており、標準化が必要 |
| Industry | 500 | 12 | 妥当で、おそらく選択リストで制約されている |
| Industry | 500 | 89 | 自由入力のカオス、即座に注意が必要 |
**例:**組織監査中に、LeadのLead_Source__cをスキャンします。Variant Countは34を返します。マーケティングチームは8つのLead Sourceを定義しました。残りの26のバリアントは、誤表記、略称、インテグレーションからのアドホック入力です。選択リストはUIで技術的に徹底されていますが、API作成レコードはそれをバイパスします。
ステップ4:実際の値は何か
Dominant Valuesは、フィールド内で頻度の高い上位N個の値を、それぞれの頻度件数とともに返します。データが実際にどのような姿かを示します。期待されるものではなく、実際の姿を示します。
| 順位 | 値 | 件数 | 割合 |
|---|---|---|---|
| 1 | United States | 450 | 45% |
| 2 | USA | 230 | 23% |
| 3 | US | 180 | 18% |
| 4 | U.S.A. | 45 | 4.5% |
| 5 | United States of America | 15 | 1.5% |
この表は3つのことを明らかにします。第1に、事実上の標準:「United States」が45%で、ほとんどのユーザーが入力するものです。第2に、一般的なバリエーション:「USA」と「US」がさらに41%を占めます。第3に、ロングテール:「U.S.A.」と「United States of America」は稀ですが存在します。
**例:**あなたのチームは国の値をISOコード(「US」)に標準化すべきか、正式名称(「United States」)に標準化すべきかで議論しています。Dominant Valuesは、すでにレコードの45%が「United States」を使っていることを示します。その値に標準化するにはレコードの55%を変更する必要があります。「US」に標準化するには82%を変更する必要があります。データがより安価な道筋を教えてくれます。
率と件数がペアである理由
準拠指標は率(準拠率)とその逆(非準拠率)に加えて、両方の絶対件数として提供されます。これは意図的なものです。
- 率はダッシュボード、経営層向けレポート、トレンド追跡のためのものです。「準拠率が今四半期で72%から94%に改善した」
- 件数はプロジェクト計画、作業量見積もり、クレンジング範囲設定のためのものです。「修正すべき非準拠レコードが3,400件ある」
進捗の伝達には率を使いましょう。作業計画には件数を使いましょう。
指標リファレンス
基礎指標
次の2つの指標は、一貫性分析の基盤を成します。準拠率と一致するレコード数を示します。
| 指標 | タイプ | 測定内容 |
|---|---|---|
| 準拠率 | パーセンテージ | 許容値に一致するレコードの割合 |
| 準拠件数 | 件数 | 許容値に一致するレコードの数 |
高度指標
次の4つの指標は「一致するか」を超えて、「非一致データはどのような姿か」を問います。Advanced Conformance Analysisモードが必要です。
| 指標 | タイプ | 測定内容 |
|---|---|---|
| 非準拠件数 | 件数 | 許容リスト外の値を持つレコード |
| 非準拠率 | パーセンテージ | 許容リスト外のレコードの割合 |
| Variant Count | 件数 | フィールド内で見つかる異なる値の総数 |
| Dominant Values | リスト | 頻度件数付きの上位N個の最も頻度の高い値 |
フィールドタイプのカバレッジ
DQSは次のSalesforceフィールドタイプで一貫性チェックをサポートします。
| フィールドタイプ | 一貫性の焦点 |
|---|---|
| String(Text) | 略称、綴り、大文字小文字 |
| TextArea | 自由入力の標準化 |
| Picklist | 期待されるオプションに対する実際の値の検証 |
| ドメイン標準化、フォーマット一貫性 | |
| Phone | フォーマット標準化(市外局番、区切り文字) |
| URL | プロトコルとパスの一貫性 |
2つの分析モード
DQSには2つの一貫性分析モードがあります。
Conformance Checkは「フィールド値は許容リストに一致するか」という問いに答えます。2つの基礎指標を生成し、簡易な準拠監査に必要な要素をカバーします。
Advanced Conformance Analysisはさらに深く掘り下げます。非準拠件数、バリアント検出、主要値分布を含む6指標すべてを生成します。準拠スコアだけでなく、値の分断の全体像を理解する必要がある場合にこのモードを使います。
| ビジネスニーズ | 推奨モード |
|---|---|
| 簡易準拠監査またはベースラインチェック | Conformance Check |
| データ移行クレンジング | Advanced(Variant Countがインポートされたカオスを明らかにする) |
| AI対応度評価 | Advanced(Dominant ValuesがAIが学習する内容を示す) |
| 継続的データガバナンス | Conformance Checkから始め、深い分析の準備ができたらAdvancedへ |
一貫性の設定
DQSは一貫性に対して4つの設定入力を提供します。それぞれグローバルレベル(すべてのフィールドに適用)で設定し、個別フィールドレベルでオーバーライドできます。
| 設定 | 制御内容 |
|---|---|
| Expected Values | DQSが「準拠」として扱う値のリスト。このリストにないフィールド値は非準拠としてフラグされます。必須:スキャン実行前に少なくとも1つの値を定義する必要があります。 |
| Case Sensitive | 値マッチングが大文字小文字を区別するかを制御します。無効(デフォルト)にすると、「Premium」「PREMIUM」「premium」はすべて許容値「Premium」に一致します。有効にすると、正確な大文字小文字の一致のみが数えられます。 |
| Top N | 返すDominant Valuesの数(1〜100)。Dominant Values出力のサイズを制御します。デフォルト:5。 |
| Min Frequency | 値がDominant Values出力に含まれるために必要な最小出現回数(1〜1,000)。ノイズを生む極めて稀な値をフィルタします。デフォルト:1。 |
**ヒント:**まずImport from Fieldを使って、許容値リストを定義する前にデータに実際にどのような値が存在するかを確認しましょう。
Import from Field:発見優先の設定
一貫性に関する一般的な課題は、どの値を期待するかを知ることです。データに何が含まれているかわからなければ、許容値を定義できません。
Import from Fieldがこれを解決します。実際のフィールドデータをクエリし、値を頻度でグループ化し、結果をチェックリストとして表示します。
動作方法:
- Expected Values設定を開きます。
- Import from Fieldをクリックします。DQSは実データをクエリし、頻度でソートされた異なる値を返します。
- チェックリストを確認します。各値には含まれるレコード数が表示されます。
- 正しいと考える値をチェックします。誤った、不正な、またはプレースホルダの値はチェックしないままにします。
- Add Selectedをクリックします。チェックした値が許容値リストに追加されます。
例:Rating__cフィールドの一貫性を設定します。Import from Fieldは次を返します。
| 値 | レコード数 |
|---|---|
| Hot | 284 |
| Warm | 198 |
| Cold | 156 |
| Very High | 23 |
| 240 km/h | 12 |
| N/A | 8 |
最初の3つの値が実際のレーティングです。それらをチェックします。「Very High」はデータ入力エラーです。「240 km/h」は明らかに誤ったフィールドのデータです。「N/A」はプレースホルダです。これらはチェックしないままにします。スキャンを実行すると、それらの43件のレコードが非準拠として表示され、許容値リストはデータが実際に含むものから構築されます。
このワークフローは、従来の「まず推測し、後で修正する」アプローチを逆転させます。まず発見し、それから標準を定義します。
よくある一貫性の問題
国と州のバリエーション
Salesforceデータで最も一般的な不一致です。標準化なしでは、「United States」のような単一の概念が5つ以上の異なる値として現れます。レポートは分断されます。フィルタはレコードを見落とします。テリトリールールは失敗します。
**対処法:**すべての住所フィールドでSalesforceのState and Country Picklistsを有効にします。DQSを使って既存の非準拠値を見つけクレンジングします。
ガバナンスのない自由入力フィールド
選択リストの制約がないテキストフィールドは、時間とともにバリエーションを蓄積します。Industry、Job Title、Lead Source、Departmentフィールドは自由入力として実装されているとよく問題になります。
**対処法:**価値の高い自由入力フィールドを選択リストに変換します。Import from Fieldを使って、選択リストオプションを定義する前に現在の値の分布を確認します。
インテグレーションによるバリエーション
外部システムやAPIは、SalesforceのUI検証をバイパスしてレコードを書き込みます。マーケティング自動化プラットフォームが「Info Technology」と書き込む一方で、標準は「Information Technology」です。これらのバリエーションは無言で蓄積されます。
**対処法:**インテグレーションレイヤーで値マッピングルールを適用します。定期的な一貫性スキャンを実行し、制御できないデータソースからの新しいバリエーションを捕捉します。
大文字小文字の不一致
ユーザーは異なるレコードに「Active」「active」「ACTIVE」を入力します。大文字小文字を区別しないマッチングを無効にしていると、DQSはすべて3つを準拠として数えます。しかしフィールドには生データとして3つの異なる綴りが含まれています。
**対処法:**用途にとって大文字小文字が重要かを判断します。表示用のフィールドでは、データクレンジングを通じて大文字小文字を標準化します。マッチング目的では、DQS設定で大文字小文字の区別を無効にします。
ベストプラクティス
スキャン前に標準を定義する
最初のスキャンを実行する前に、制約のある各フィールドの期待値をドキュメント化します。明確な標準がなければ、測定するベースラインがありません。
| フィールド | 標準 | 根拠 |
|---|---|---|
| Country | ISO 3166-1 alpha-2コード(US、CA、DE) | 業界標準、コンパクト |
| Industry | 15値のカスタム分類 | レポートカテゴリと一致 |
| Lead Source | 8つのマーケティング定義ソース | キャンペーン追跡と整合 |
未知のフィールドには発見ワークフローを使う
事前定義された標準のないフィールドでは、まずImport from Fieldを使いましょう。データに事実上の標準が何かを教えてもらいます。最も頻度の高い値は、正規の値として正しい選択であることがよくあります。
準拠率を時系列で追跡する
単一の準拠スコアはスナップショットです。複数のスキャンにわたってスコアを追跡し、劣化を早期に検出し、クレンジングの進捗を測定し、新しいバリエーションを生み出すデータソースを特定しましょう。
Variant Countを早期警告として使う
スキャン間でVariant Countをモニタリングしましょう。スキャン間で12から28の異なる値にジャンプするフィールドには、新しいバリエーション源があります。問題が拡大する前に調査しましょう。
ビジネスインパクトで優先順位をつける
すべてのフィールドに100%の準拠率が必要なわけではありません。レポート(Country、Industry)、自動化(Status、Stage)、AIとAgentforceへのデータ供給を駆動するフィールドに焦点を当てましょう。
次のステップ
これで5つのデータ品質次元すべてを完了しました。学びを続けましょう。
- 次へ:Agentforce準備 - AI固有のデータ要件について学ぶ
- 前へ:適時性 - データの鮮度と最新性を測定する
- 概要:5つの次元 - すべての次元をまとめて復習する
- アクション:AI対応度診断 - 一貫性スコアなどを確認する