PII Detectionとは
PII Detectionは、設定可能な正規表現パターンを使ってテキストフィールドから個人を特定できる情報をスキャンします。Salesforceデータに関する3つの問いに答えます。
- データには保護が必要なPIIが含まれているか
- データセットはどれほど露出しているか
- どのフィールドに機密情報が保持されているか
DQSは、すべてのテキストフィールドにわたってPII露出の種類と密度をプロファイルします。パターンベースの検出を使います。正規表現パターンがフィールド値とマッチし、SSN、クレジットカード、メール、電話番号、その他の識別子をフラグします。
3つの特性が検出の動作を定義します。
- **決定論的。**同じ入力は毎回同じ結果を生みます。
- **透明性。**DQSが適用するすべてのパターンを確認できます。ブラックボックスのスコアリングはありません。
- **オンプラットフォーム。**検出は完全にSalesforce内で動作します。データが組織を離れることはありません。
重要な理由
**コンプライアンス。**GDPR、CCPA、HIPAA、PCI DSSはすべて、PIIの特定と保護を義務付けています。見つけていないものは保護できません。自動検出は、スコープ内のすべてのテキストフィールドにわたって露出のインベントリを提供します。
**AI対応。**Agentforceや他のAIシステムにデータを供給する前に、どのフィールドにPIIが含まれているかを知る必要があります。学習データや取得インデックス内の未検出のPIIは、下流のフィルタでは完全には防げない露出を生みます。
**データガバナンス。**テキストフィールドは時間とともにPIIを蓄積します。エージェントがメールスレッドをCaseコメントに貼り付けます。顧客が検証のためにSSNを提供します。インテグレーションが連絡先詳細を説明フィールドに書き込みます。検出がなければ、このPIIは保護されないまま残ります。
DQSによるPIIの検出方法
DQSはPII Detectionを段階的な診断として実行します。各ステップは前のステップの上に積み上がります。
ステップ1:PIIの問題があるか
Records with PIIは、少なくとも1つのパターンがマッチしたレコードの絶対数を示します。これが範囲把握の数字です。
たとえば、Standardプリセットを使ってCaseコメントをスキャンします。Records with PIIは847と返ります。つまりAI学習用にデータを安全に使ったり、第三者の分析と共有したりする前に、847件のケースレコードをレビューする必要があるということです。
ステップ2:どれほど深刻か
PII Exposure Rateは、パターンマッチを含むスキャン対象レコードの割合を示します。率は件数にコンテキストを与えます。
1,000件中847件は84.7%の露出で、プロセス変更が必要な組織的問題です。500,000件中847件は0.17%で、的を絞ったクレンジングで対処できる個別事案です。
ステップ3:どのようなPIIか
パターン設定自体が、どのタイプがスキャンされたかを示します。各パターンにはカテゴリがあります。Financial、Contact、Technical、またはIdentityです。どのパターンがマッチをトリガーしたかをレビューすることで、クレジットカードの漏洩、メールアドレスの露出、SSNの混入のいずれに対処しているかがわかります。
8つの検出パターン
DQSは、4つのカテゴリに分類された8つの事前定義された正規表現パターンを同梱しています。
Financial
| パターン | マッチする内容 | 誤検出リスク |
|---|---|---|
| Social Security Number | NNN-NN-NNNNフォーマットの米国SSN | 低。ハイフン付きフォーマットは識別性が高い。 |
| Credit Card Number | オプションのスペース/ハイフン付きの13〜16桁の数字列 | 中。長い数字列(注文番号、追跡ID)が誤ってマッチすることがある。 |
| IBAN | 国際銀行口座番号(ISO 13616フォーマット) | 低。国コード+チェック桁のプレフィクスは識別性が高い。 |
Contact
| パターン | マッチする内容 | 誤検出リスク |
|---|---|---|
| Email Address | 標準的な[email protected]フォーマット | 低。@記号の構造は識別性が高い。 |
| US Phone Number | 米国/カナダのフォーマット:(NNN) NNN-NNNN、NNN-NNN-NNNN、+1バリアント | 中。区切り文字付きの10桁の数字が電話以外のデータにマッチすることがある。 |
| International Phone | +国コードで始まるE.164スタイルの番号 | 低。+プレフィクスは強いシグナル。 |
Technical
| パターン | マッチする内容 | 誤検出リスク |
|---|---|---|
| IP Address | IPv4ドット区切り10進数(NNN.NNN.NNN.NNN) | 低〜中。ソフトウェアのバージョン番号が主な誤検出源。 |
Identity
| パターン | マッチする内容 | 誤検出リスク |
|---|---|---|
| Date of Birth | 米国日付フォーマットMM/DD/YYYYまたはMM-DD-YYYY | 高。米国フォーマットのあらゆる日付にマッチする。フィールドレベルのターゲティングと組み合わせるのが最適。 |
**DQSは正規表現のみのパターンマッチングを使います。**検出はフォーマットベースであり、コンテキストベースではありません。チェックサム検証(クレジットカードのLuhn、IBANのmod-97)、キーワード近接度のブースティング、MLベースの信頼度スコアリングはありません。すべてのマッチは二値です。パターンがマッチしたかしなかったかです。これにより検出は完全に監査可能で決定論的になりますが、誤検出リスクの高いフィールドではマッチをレビューする必要があります。
規制カバレッジ
8つのパターンはすべて主要なプライバシー・セキュリティフレームワークに基づいています。
| パターン | NIST 800-122 | GDPR | CCPA | PCI DSS | HIPAA | ISO 27701 |
|---|---|---|---|---|---|---|
| SSN | X | X | X | X | X | |
| Credit Card | X | X | X | X | X | |
| X | X | X | X | X | ||
| US Phone | X | X | X | X | ||
| Intl Phone | X | X | X | X | ||
| IP Address | X | X | X | X | ||
| IBAN | X | X | ||||
| Date of Birth | X | X | X | X | X |
これらはGoogle Cloud DLP、AWS Macie、Microsoft Purviewが組み込みパターンとして検出するのと同じ識別子タイプです。違いは、クラウドDLPツールが多層検出(正規表現+チェックサム+キーワード近接度+ML)を使うのに対し、DQSは正規表現のみのマッチングを使うことです。これはよりシンプルで完全に透明ですが、信頼度スコアリングは提供しません。
3つの検出プリセット
プリセットにより、どのパターンを有効にするかをワンクリックで設定できます。
| プリセット | パターン | 数 | 使用場面 |
|---|---|---|---|
| Standard | SSN、Credit Card、Email、US Phone | 4 | 一般的なPII監査。最も一般的な4タイプを、管理可能な誤検出率でカバーします。これがデフォルトです。 |
| Critical | SSN、Credit Card | 2 | 金融コンプライアンスチェック。個人情報盗難と決済カード露出の最小スキャンです。ほぼゼロの誤検出で素早い結果が必要なときに使います。 |
| Extended | 8パターンすべて | 8 | フルスキャン。IBAN、IP Address、Date of Birth、International Phoneを含みます。最大限のカバレッジと引き換えに誤検出率が高くなります。初回監査やコンプライアンス評価に最適です。 |
事前定義された8つのパターンを超えて、カスタム正規表現パターンを追加することもできます。カスタムパターンは保存前にサーバー側で検証されます。有効な正規表現であればすべて機能します。
指標リファレンス
基礎指標
| 指標 | タイプ | 返される内容 |
|---|---|---|
| Records with PII | 件数(整数) | 少なくとも1つのパターンがマッチしたレコードの数。いくつのパターンがマッチしたか、内部にいくつマッチがあるかにかかわらず、レコードは1回だけカウントされます。 |
高度指標
| 指標 | タイプ | 返される内容 |
|---|---|---|
| PII Exposure Rate | パーセンテージ | PIIマッチを含むスキャン対象レコードの割合。レポートやダッシュボード向けの看板となる露出数値です。 |
フィールドタイプのカバレッジ
| 指標 | String | TextArea | Phone | EncryptedString | LongTextArea | Html | |
|---|---|---|---|---|---|---|---|
| Records with PII | X | X | X | X | X | ||
| PII Exposure Rate | X | X | X |
Records with PIIはすべてのテキストフィールドタイプに広く網を張ります。PII Exposure RateはPII密度が意味を持つ長いテキストフィールドに焦点を当てます。メール正規表現にマッチする255文字のStringフィールドは単一のデータポイントです。15件のSSNマッチを含む32,000文字のLongTextAreaは異なる物語を伝えます。
2つの分析モード
DQSはPII Detectionを2つのモードで実行します。
PII Scanは、設定したパターンを使って選択したすべてのフィールドを処理し、Records with PIIを返します。このモードは「PIIの問題があるか」に答えます。データ移行やAIプロジェクトの前の迅速な監査に使います。
PII Detection AnalysisはRecords with PIIに加えてPII Exposure Rateを追加します。露出率は生の件数にコンテキストを与え、「847件のレコードがPIIを含む」を「データセットの12.3%が露出している」に変えます。コンプライアンスレポートと継続的なガバナンスにこのモードを使います。
PII Detectionの設定
| 入力 | 制御内容 |
|---|---|
| Detection Patterns | 8つの事前定義されたパターンのうちどれを有効にするか。プリセットを選ぶか、個別パターンを切り替えます。 |
| Custom Patterns | サーバー側で検証される任意の正規表現パターン。事前定義パターンと並行して追加されます。 |
| Per-Field Overrides | 異なるフィールドに異なるパターンセット。フィールドごとにグローバル設定を上書きします。 |
フィールドタイプ別のパターン選択
異なるフィールドには異なるパターンセットが必要です。Emailフィールドには設計上メールアドレスが含まれています。メールパターンでスキャンすると100%のマッチを生みますが、これは想定内であり問題ではありません。Case Descriptionフィールドは自由入力で、あらゆるPIIタイプが現れ得ます。期待されるものと問題を示すものに基づいてパターンを設定しましょう。
設定例:
- **Emailフィールド:**SSNとCredit Cardのみスキャン(メールマッチは想定内)
- **DescriptionとNotesフィールド:**StandardまたはExtendedプリセットを使用(自由入力は何でも含み得る)
- **短いテキストフィールド(Subject、Title):**Criticalプリセットのみ使用(誤検出への許容度が低い)
よくある問題
| 問題 | 原因 | 対処法 |
|---|---|---|
| Emailフィールドで100%のPIIマッチ率 | メールパターンがフィールドの意図したコンテンツとマッチ | そのフィールドのオーバーライドからメールパターンを削除するか、PIIスキャンからフィールドを除外 |
| Date of Birthで誤検出が多い | DOBパターンが米国フォーマットのあらゆる日付(会議日、期限)にマッチ | 生年月日が既知のリスクであるフィールドにのみDOBパターンを適用するようフィールドレベルオーバーライドを使う |
| 既知のPIIがあるのにマッチがない | SSN正規表現はハイフン付きフォーマット(NNN-NN-NNNN)のみにマッチし、連続する9桁の数字にはマッチしない | データ内の特定フォーマットにカスタムパターンを追加する。例:フォーマットされていないSSN向けの\b\d{9}\b(誤検出リスクが高い) |
ベストプラクティス
-
**自由入力テキストフィールドではStandardプリセットから始めましょう。**Extendedに拡大する前に初回スキャンを実行してベースラインを理解しましょう。
-
**フィールドごとに検出をチューニングするためにフィールドレベルオーバーライドを使いましょう。**グローバルパターンは広く網を張ります。フィールドごとのオーバーライドはノイズを排除します。
-
**まず非構造化テキストフィールドをスキャンしましょう。**Description、Comments、Notesフィールドは、コピーペーストやemail-to-caseを通じてPIIが蓄積する場所です。構造化フィールド(Email、Phone)には設計上PIIが含まれます。
-
**誤検出率の高いパターン(DOB/生年月日)では、確認済みPIIとして扱う前にマッチをレビューしましょう。**これらのパターンはSSNやEmailより多くの誤検出を生みます。
-
**Records with PII(絶対数)とPII Exposure Rate(割合)を組み合わせて全体像を得ましょう。**件数はクレンジングの作業量を設定します。率はそれが組織的問題か個別事案かを示します。
次のステップ
- Agentforce準備:完全な導入チェックリスト
- Agentforce準備:完全な導入対応ガイド