Skip to main content

PII Detection

DQSが使う8つのPII検出パターン、一般的なスキャンシナリオ向けの3つのプリセット、そしてパターンベースの検出の設定方法について解説します。

PII Detectionとは

PII Detectionは、設定可能な正規表現パターンを使ってテキストフィールドから個人を特定できる情報をスキャンします。Salesforceデータに関する3つの問いに答えます。

  • データには保護が必要なPIIが含まれているか
  • データセットはどれほど露出しているか
  • どのフィールドに機密情報が保持されているか

DQSは、すべてのテキストフィールドにわたってPII露出の種類と密度をプロファイルします。パターンベースの検出を使います。正規表現パターンがフィールド値とマッチし、SSN、クレジットカード、メール、電話番号、その他の識別子をフラグします。

3つの特性が検出の動作を定義します。

  1. **決定論的。**同じ入力は毎回同じ結果を生みます。
  2. **透明性。**DQSが適用するすべてのパターンを確認できます。ブラックボックスのスコアリングはありません。
  3. **オンプラットフォーム。**検出は完全にSalesforce内で動作します。データが組織を離れることはありません。

重要な理由

**コンプライアンス。**GDPR、CCPA、HIPAA、PCI DSSはすべて、PIIの特定と保護を義務付けています。見つけていないものは保護できません。自動検出は、スコープ内のすべてのテキストフィールドにわたって露出のインベントリを提供します。

**AI対応。**Agentforceや他のAIシステムにデータを供給する前に、どのフィールドにPIIが含まれているかを知る必要があります。学習データや取得インデックス内の未検出のPIIは、下流のフィルタでは完全には防げない露出を生みます。

**データガバナンス。**テキストフィールドは時間とともにPIIを蓄積します。エージェントがメールスレッドをCaseコメントに貼り付けます。顧客が検証のためにSSNを提供します。インテグレーションが連絡先詳細を説明フィールドに書き込みます。検出がなければ、このPIIは保護されないまま残ります。

DQSによるPIIの検出方法

DQSはPII Detectionを段階的な診断として実行します。各ステップは前のステップの上に積み上がります。

ステップ1:PIIの問題があるか

Records with PIIは、少なくとも1つのパターンがマッチしたレコードの絶対数を示します。これが範囲把握の数字です。

たとえば、Standardプリセットを使ってCaseコメントをスキャンします。Records with PIIは847と返ります。つまりAI学習用にデータを安全に使ったり、第三者の分析と共有したりする前に、847件のケースレコードをレビューする必要があるということです。

ステップ2:どれほど深刻か

PII Exposure Rateは、パターンマッチを含むスキャン対象レコードの割合を示します。率は件数にコンテキストを与えます。

1,000件中847件は84.7%の露出で、プロセス変更が必要な組織的問題です。500,000件中847件は0.17%で、的を絞ったクレンジングで対処できる個別事案です。

ステップ3:どのようなPIIか

パターン設定自体が、どのタイプがスキャンされたかを示します。各パターンにはカテゴリがあります。Financial、Contact、Technical、またはIdentityです。どのパターンがマッチをトリガーしたかをレビューすることで、クレジットカードの漏洩、メールアドレスの露出、SSNの混入のいずれに対処しているかがわかります。

8つの検出パターン

DQSは、4つのカテゴリに分類された8つの事前定義された正規表現パターンを同梱しています。

Financial

パターンマッチする内容誤検出リスク
Social Security NumberNNN-NN-NNNNフォーマットの米国SSN低。ハイフン付きフォーマットは識別性が高い。
Credit Card Numberオプションのスペース/ハイフン付きの13〜16桁の数字列中。長い数字列(注文番号、追跡ID)が誤ってマッチすることがある。
IBAN国際銀行口座番号(ISO 13616フォーマット)低。国コード+チェック桁のプレフィクスは識別性が高い。

Contact

パターンマッチする内容誤検出リスク
Email Address標準的な[email protected]フォーマット低。@記号の構造は識別性が高い。
US Phone Number米国/カナダのフォーマット:(NNN) NNN-NNNN、NNN-NNN-NNNN、+1バリアント中。区切り文字付きの10桁の数字が電話以外のデータにマッチすることがある。
International Phone+国コードで始まるE.164スタイルの番号低。+プレフィクスは強いシグナル。

Technical

パターンマッチする内容誤検出リスク
IP AddressIPv4ドット区切り10進数(NNN.NNN.NNN.NNN)低〜中。ソフトウェアのバージョン番号が主な誤検出源。

Identity

パターンマッチする内容誤検出リスク
Date of Birth米国日付フォーマットMM/DD/YYYYまたはMM-DD-YYYY高。米国フォーマットのあらゆる日付にマッチする。フィールドレベルのターゲティングと組み合わせるのが最適。

**DQSは正規表現のみのパターンマッチングを使います。**検出はフォーマットベースであり、コンテキストベースではありません。チェックサム検証(クレジットカードのLuhn、IBANのmod-97)、キーワード近接度のブースティング、MLベースの信頼度スコアリングはありません。すべてのマッチは二値です。パターンがマッチしたかしなかったかです。これにより検出は完全に監査可能で決定論的になりますが、誤検出リスクの高いフィールドではマッチをレビューする必要があります。

規制カバレッジ

8つのパターンはすべて主要なプライバシー・セキュリティフレームワークに基づいています。

パターンNIST 800-122GDPRCCPAPCI DSSHIPAAISO 27701
SSNXXXXX
Credit CardXXXXX
EmailXXXXX
US PhoneXXXX
Intl PhoneXXXX
IP AddressXXXX
IBANXX
Date of BirthXXXXX

これらはGoogle Cloud DLP、AWS Macie、Microsoft Purviewが組み込みパターンとして検出するのと同じ識別子タイプです。違いは、クラウドDLPツールが多層検出(正規表現+チェックサム+キーワード近接度+ML)を使うのに対し、DQSは正規表現のみのマッチングを使うことです。これはよりシンプルで完全に透明ですが、信頼度スコアリングは提供しません。

3つの検出プリセット

プリセットにより、どのパターンを有効にするかをワンクリックで設定できます。

プリセットパターン使用場面
StandardSSN、Credit Card、Email、US Phone4一般的なPII監査。最も一般的な4タイプを、管理可能な誤検出率でカバーします。これがデフォルトです。
CriticalSSN、Credit Card2金融コンプライアンスチェック。個人情報盗難と決済カード露出の最小スキャンです。ほぼゼロの誤検出で素早い結果が必要なときに使います。
Extended8パターンすべて8フルスキャン。IBAN、IP Address、Date of Birth、International Phoneを含みます。最大限のカバレッジと引き換えに誤検出率が高くなります。初回監査やコンプライアンス評価に最適です。

事前定義された8つのパターンを超えて、カスタム正規表現パターンを追加することもできます。カスタムパターンは保存前にサーバー側で検証されます。有効な正規表現であればすべて機能します。

指標リファレンス

基礎指標

指標タイプ返される内容
Records with PII件数(整数)少なくとも1つのパターンがマッチしたレコードの数。いくつのパターンがマッチしたか、内部にいくつマッチがあるかにかかわらず、レコードは1回だけカウントされます。

高度指標

指標タイプ返される内容
PII Exposure RateパーセンテージPIIマッチを含むスキャン対象レコードの割合。レポートやダッシュボード向けの看板となる露出数値です。

フィールドタイプのカバレッジ

指標StringTextAreaEmailPhoneEncryptedStringLongTextAreaHtml
Records with PIIXXXXX
PII Exposure RateXXX

Records with PIIはすべてのテキストフィールドタイプに広く網を張ります。PII Exposure RateはPII密度が意味を持つ長いテキストフィールドに焦点を当てます。メール正規表現にマッチする255文字のStringフィールドは単一のデータポイントです。15件のSSNマッチを含む32,000文字のLongTextAreaは異なる物語を伝えます。

2つの分析モード

DQSはPII Detectionを2つのモードで実行します。

PII Scanは、設定したパターンを使って選択したすべてのフィールドを処理し、Records with PIIを返します。このモードは「PIIの問題があるか」に答えます。データ移行やAIプロジェクトの前の迅速な監査に使います。

PII Detection AnalysisはRecords with PIIに加えてPII Exposure Rateを追加します。露出率は生の件数にコンテキストを与え、「847件のレコードがPIIを含む」を「データセットの12.3%が露出している」に変えます。コンプライアンスレポートと継続的なガバナンスにこのモードを使います。

PII Detectionの設定

入力制御内容
Detection Patterns8つの事前定義されたパターンのうちどれを有効にするか。プリセットを選ぶか、個別パターンを切り替えます。
Custom Patternsサーバー側で検証される任意の正規表現パターン。事前定義パターンと並行して追加されます。
Per-Field Overrides異なるフィールドに異なるパターンセット。フィールドごとにグローバル設定を上書きします。

フィールドタイプ別のパターン選択

異なるフィールドには異なるパターンセットが必要です。Emailフィールドには設計上メールアドレスが含まれています。メールパターンでスキャンすると100%のマッチを生みますが、これは想定内であり問題ではありません。Case Descriptionフィールドは自由入力で、あらゆるPIIタイプが現れ得ます。期待されるものと問題を示すものに基づいてパターンを設定しましょう。

設定例:

  • **Emailフィールド:**SSNとCredit Cardのみスキャン(メールマッチは想定内)
  • **DescriptionとNotesフィールド:**StandardまたはExtendedプリセットを使用(自由入力は何でも含み得る)
  • **短いテキストフィールド(Subject、Title):**Criticalプリセットのみ使用(誤検出への許容度が低い)

よくある問題

問題原因対処法
Emailフィールドで100%のPIIマッチ率メールパターンがフィールドの意図したコンテンツとマッチそのフィールドのオーバーライドからメールパターンを削除するか、PIIスキャンからフィールドを除外
Date of Birthで誤検出が多いDOBパターンが米国フォーマットのあらゆる日付(会議日、期限)にマッチ生年月日が既知のリスクであるフィールドにのみDOBパターンを適用するようフィールドレベルオーバーライドを使う
既知のPIIがあるのにマッチがないSSN正規表現はハイフン付きフォーマット(NNN-NN-NNNN)のみにマッチし、連続する9桁の数字にはマッチしないデータ内の特定フォーマットにカスタムパターンを追加する。例:フォーマットされていないSSN向けの\b\d{9}\b(誤検出リスクが高い)

ベストプラクティス

  1. **自由入力テキストフィールドではStandardプリセットから始めましょう。**Extendedに拡大する前に初回スキャンを実行してベースラインを理解しましょう。

  2. **フィールドごとに検出をチューニングするためにフィールドレベルオーバーライドを使いましょう。**グローバルパターンは広く網を張ります。フィールドごとのオーバーライドはノイズを排除します。

  3. **まず非構造化テキストフィールドをスキャンしましょう。**Description、Comments、Notesフィールドは、コピーペーストやemail-to-caseを通じてPIIが蓄積する場所です。構造化フィールド(Email、Phone)には設計上PIIが含まれます。

  4. **誤検出率の高いパターン(DOB/生年月日)では、確認済みPIIとして扱う前にマッチをレビューしましょう。**これらのパターンはSSNやEmailより多くの誤検出を生みます。

  5. **Records with PII(絶対数)とPII Exposure Rate(割合)を組み合わせて全体像を得ましょう。**件数はクレンジングの作業量を設定します。率はそれが組織的問題か個別事案かを示します。

次のステップ