PII Detection | DQS Resources

PII Detectionとは

PII Detectionは、設定可能な正規表現パターンを使ってテキストフィールドから個人を特定できる情報をスキャンします。Salesforceデータに関する3つの問いに答えます。

データには保護が必要なPIIが含まれているか
データセットはどれほど露出しているか
どのフィールドに機密情報が保持されているか

DQSは、すべてのテキストフィールドにわたってPII露出の種類と密度をプロファイルします。パターンベースの検出を使います。正規表現パターンがフィールド値とマッチし、SSN、クレジットカード、メール、電話番号、その他の識別子をフラグします。

3つの特性が検出の動作を定義します。

**決定論的。**同じ入力は毎回同じ結果を生みます。
**透明性。**DQSが適用するすべてのパターンを確認できます。ブラックボックスのスコアリングはありません。
**オンプラットフォーム。**検出は完全にSalesforce内で動作します。データが組織を離れることはありません。

重要な理由

**コンプライアンス。**GDPR、CCPA、HIPAA、PCI DSSはすべて、PIIの特定と保護を義務付けています。見つけていないものは保護できません。自動検出は、スコープ内のすべてのテキストフィールドにわたって露出のインベントリを提供します。

**AI対応。**Agentforceや他のAIシステムにデータを供給する前に、どのフィールドにPIIが含まれているかを知る必要があります。学習データや取得インデックス内の未検出のPIIは、下流のフィルタでは完全には防げない露出を生みます。

**データガバナンス。**テキストフィールドは時間とともにPIIを蓄積します。エージェントがメールスレッドをCaseコメントに貼り付けます。顧客が検証のためにSSNを提供します。インテグレーションが連絡先詳細を説明フィールドに書き込みます。検出がなければ、このPIIは保護されないまま残ります。

DQSによるPIIの検出方法

DQSはPII Detectionを段階的な診断として実行します。各ステップは前のステップの上に積み上がります。

ステップ1：PIIの問題があるか

Records with PIIは、少なくとも1つのパターンがマッチしたレコードの絶対数を示します。これが範囲把握の数字です。

たとえば、Standardプリセットを使ってCaseコメントをスキャンします。Records with PIIは847と返ります。つまりAI学習用にデータを安全に使ったり、第三者の分析と共有したりする前に、847件のケースレコードをレビューする必要があるということです。

ステップ2：どれほど深刻か

PII Exposure Rateは、パターンマッチを含むスキャン対象レコードの割合を示します。率は件数にコンテキストを与えます。

1,000件中847件は84.7%の露出で、プロセス変更が必要な組織的問題です。500,000件中847件は0.17%で、的を絞ったクレンジングで対処できる個別事案です。

ステップ3：どのようなPIIか

パターン設定自体が、どのタイプがスキャンされたかを示します。各パターンにはカテゴリがあります。Financial、Contact、Technical、またはIdentityです。どのパターンがマッチをトリガーしたかをレビューすることで、クレジットカードの漏洩、メールアドレスの露出、SSNの混入のいずれに対処しているかがわかります。

8つの検出パターン

DQSは、4つのカテゴリに分類された8つの事前定義された正規表現パターンを同梱しています。

Financial

パターン	マッチする内容	誤検出リスク
Social Security Number	NNN-NN-NNNNフォーマットの米国SSN	低。ハイフン付きフォーマットは識別性が高い。
Credit Card Number	オプションのスペース/ハイフン付きの13〜16桁の数字列	中。長い数字列（注文番号、追跡ID）が誤ってマッチすることがある。
IBAN	国際銀行口座番号（ISO 13616フォーマット）	低。国コード＋チェック桁のプレフィクスは識別性が高い。

Contact

パターン	マッチする内容	誤検出リスク
Email Address	標準的な[email protected]フォーマット	低。@記号の構造は識別性が高い。
US Phone Number	米国/カナダのフォーマット：(NNN) NNN-NNNN、NNN-NNN-NNNN、+1バリアント	中。区切り文字付きの10桁の数字が電話以外のデータにマッチすることがある。
International Phone	+国コードで始まるE.164スタイルの番号	低。+プレフィクスは強いシグナル。

Technical

パターン	マッチする内容	誤検出リスク
IP Address	IPv4ドット区切り10進数（NNN.NNN.NNN.NNN）	低〜中。ソフトウェアのバージョン番号が主な誤検出源。

Identity

パターン	マッチする内容	誤検出リスク
Date of Birth	米国日付フォーマットMM/DD/YYYYまたはMM-DD-YYYY	高。米国フォーマットのあらゆる日付にマッチする。フィールドレベルのターゲティングと組み合わせるのが最適。

**DQSは正規表現のみのパターンマッチングを使います。**検出はフォーマットベースであり、コンテキストベースではありません。チェックサム検証（クレジットカードのLuhn、IBANのmod-97）、キーワード近接度のブースティング、MLベースの信頼度スコアリングはありません。すべてのマッチは二値です。パターンがマッチしたかしなかったかです。これにより検出は完全に監査可能で決定論的になりますが、誤検出リスクの高いフィールドではマッチをレビューする必要があります。

規制カバレッジ

8つのパターンはすべて主要なプライバシー・セキュリティフレームワークに基づいています。

パターン	NIST 800-122	GDPR	CCPA	PCI DSS	HIPAA	ISO 27701
SSN	X	X	X		X	X
Credit Card	X	X	X	X		X
Email	X	X	X		X	X
US Phone		X	X		X	X
Intl Phone		X	X		X	X
IP Address		X	X		X	X
IBAN		X				X
Date of Birth	X	X	X		X	X

これらはGoogle Cloud DLP、AWS Macie、Microsoft Purviewが組み込みパターンとして検出するのと同じ識別子タイプです。違いは、クラウドDLPツールが多層検出（正規表現＋チェックサム＋キーワード近接度＋ML）を使うのに対し、DQSは正規表現のみのマッチングを使うことです。これはよりシンプルで完全に透明ですが、信頼度スコアリングは提供しません。

3つの検出プリセット

プリセットにより、どのパターンを有効にするかをワンクリックで設定できます。

プリセット	パターン	数	使用場面
Standard	SSN、Credit Card、Email、US Phone	4	一般的なPII監査。最も一般的な4タイプを、管理可能な誤検出率でカバーします。これがデフォルトです。
Critical	SSN、Credit Card	2	金融コンプライアンスチェック。個人情報盗難と決済カード露出の最小スキャンです。ほぼゼロの誤検出で素早い結果が必要なときに使います。
Extended	8パターンすべて	8	フルスキャン。IBAN、IP Address、Date of Birth、International Phoneを含みます。最大限のカバレッジと引き換えに誤検出率が高くなります。初回監査やコンプライアンス評価に最適です。

事前定義された8つのパターンを超えて、カスタム正規表現パターンを追加することもできます。カスタムパターンは保存前にサーバー側で検証されます。有効な正規表現であればすべて機能します。

指標リファレンス

基礎指標

指標	タイプ	返される内容
Records with PII	件数（整数）	少なくとも1つのパターンがマッチしたレコードの数。いくつのパターンがマッチしたか、内部にいくつマッチがあるかにかかわらず、レコードは1回だけカウントされます。

高度指標

指標	タイプ	返される内容
PII Exposure Rate	パーセンテージ	PIIマッチを含むスキャン対象レコードの割合。レポートやダッシュボード向けの看板となる露出数値です。

フィールドタイプのカバレッジ

指標	String	TextArea	Email	Phone	EncryptedString	LongTextArea	Html
Records with PII	X	X	X	X	X
PII Exposure Rate		X				X	X

Records with PIIはすべてのテキストフィールドタイプに広く網を張ります。PII Exposure RateはPII密度が意味を持つ長いテキストフィールドに焦点を当てます。メール正規表現にマッチする255文字のStringフィールドは単一のデータポイントです。15件のSSNマッチを含む32,000文字のLongTextAreaは異なる物語を伝えます。

2つの分析モード

DQSはPII Detectionを2つのモードで実行します。

PII Scanは、設定したパターンを使って選択したすべてのフィールドを処理し、Records with PIIを返します。このモードは「PIIの問題があるか」に答えます。データ移行やAIプロジェクトの前の迅速な監査に使います。

PII Detection AnalysisはRecords with PIIに加えてPII Exposure Rateを追加します。露出率は生の件数にコンテキストを与え、「847件のレコードがPIIを含む」を「データセットの12.3%が露出している」に変えます。コンプライアンスレポートと継続的なガバナンスにこのモードを使います。

PII Detectionの設定

入力	制御内容
Detection Patterns	8つの事前定義されたパターンのうちどれを有効にするか。プリセットを選ぶか、個別パターンを切り替えます。
Custom Patterns	サーバー側で検証される任意の正規表現パターン。事前定義パターンと並行して追加されます。
Per-Field Overrides	異なるフィールドに異なるパターンセット。フィールドごとにグローバル設定を上書きします。

フィールドタイプ別のパターン選択

異なるフィールドには異なるパターンセットが必要です。Emailフィールドには設計上メールアドレスが含まれています。メールパターンでスキャンすると100%のマッチを生みますが、これは想定内であり問題ではありません。Case Descriptionフィールドは自由入力で、あらゆるPIIタイプが現れ得ます。期待されるものと問題を示すものに基づいてパターンを設定しましょう。

設定例：

**Emailフィールド：**SSNとCredit Cardのみスキャン（メールマッチは想定内）
**DescriptionとNotesフィールド：**StandardまたはExtendedプリセットを使用（自由入力は何でも含み得る）
**短いテキストフィールド（Subject、Title）：**Criticalプリセットのみ使用（誤検出への許容度が低い）

よくある問題

問題	原因	対処法
Emailフィールドで100%のPIIマッチ率	メールパターンがフィールドの意図したコンテンツとマッチ	そのフィールドのオーバーライドからメールパターンを削除するか、PIIスキャンからフィールドを除外
Date of Birthで誤検出が多い	DOBパターンが米国フォーマットのあらゆる日付（会議日、期限）にマッチ	生年月日が既知のリスクであるフィールドにのみDOBパターンを適用するようフィールドレベルオーバーライドを使う
既知のPIIがあるのにマッチがない	SSN正規表現はハイフン付きフォーマット（NNN-NN-NNNN）のみにマッチし、連続する9桁の数字にはマッチしない	データ内の特定フォーマットにカスタムパターンを追加する。例：フォーマットされていないSSN向けの`\b\d{9}\b`（誤検出リスクが高い）

ベストプラクティス

**自由入力テキストフィールドではStandardプリセットから始めましょう。**Extendedに拡大する前に初回スキャンを実行してベースラインを理解しましょう。
**フィールドごとに検出をチューニングするためにフィールドレベルオーバーライドを使いましょう。**グローバルパターンは広く網を張ります。フィールドごとのオーバーライドはノイズを排除します。
**まず非構造化テキストフィールドをスキャンしましょう。**Description、Comments、Notesフィールドは、コピーペーストやemail-to-caseを通じてPIIが蓄積する場所です。構造化フィールド（Email、Phone）には設計上PIIが含まれます。
**誤検出率の高いパターン（DOB/生年月日）では、確認済みPIIとして扱う前にマッチをレビューしましょう。**これらのパターンはSSNやEmailより多くの誤検出を生みます。
**Records with PII（絶対数）とPII Exposure Rate（割合）を組み合わせて全体像を得ましょう。**件数はクレンジングの作業量を設定します。率はそれが組織的問題か個別事案かを示します。

次のステップ

Agentforce準備：完全な導入チェックリスト
Agentforce準備：完全な導入対応ガイド