非構造化テキスト内の個人を特定できる情報の識別・匿名化・置換
ご自身のデータをご自身の方法で
弊社では、最新のTransformerアーキテクチャーを適用し、完全にコンテキストに基づいてPIIをピックアップしており、半構造化データおよび非構造化データに対して特に効果的となっています。
Private AIのデータ、セキュリティ、機械学習チームは次のことを行うことができます:
- ASRトランスクリプト、チャットログ、電子カルテなどのデータにおの精度を達成。
- データの完全な所有権を保持:データは弊社と共有されることはなく、お客様のインフラから離れることもありません(大手クラウドプロバイダーとは異なり、弊社の利用規約ではこれを保証しています)。
- 52の言語でのテキストの識別および匿名化(増加中)。
- エンティティのオン/オフの切り替え、ブロックリストまたは許可リストの追加、GDPR、LGPD、HIPAAなどのプライバシー規制への準拠など、広範囲にわたる出力の設定。
- Private AIが使用するフューショット学習技術で開発されたカスタムのエンティティタイプ。
専門家による構築:
専門家による構築:
仕組み
Private AIはオンプレミスの単一コンテナで展開されるため、あらゆるデータワークフローに弊社の強力な匿名化機能を簡単に追加することができます。コンテナはREST API経由でアクセスでき、チームのニーズに応じて簡単にカスタマイズできます。
PII識別化
プライバシーは機械学習モデルに留まらない
Private AIは、52の言語にわたって、個人を特定できる情報(PII)の50以上の異なるエンティティタイプを検出します。文脈を意識したML(機械学習)モデルを使用することで、従来のエンティティ検出を超え、さまざまな種類の直接識別子/間接識別子を識別します。
何がPIIであり、何がPIIでないかの判断は複雑なものですが、Private AIのプライバシー専門家チームによって、GDPR、CPRA、HIPAAなどの主要な法規制に準拠して弊社のシステムが動作することが保証されています。
Private AIは、あらゆるデータフローやデータベースでPIIをスクリーニングするフィルターとして簡単に実装できます。
{
"result": "Hi [NAME_1], [NAME_2] this side. It's been a while since we last met in [LOCATION_CITY_1].",
"result_fake": null,
"pii": [
{
"marker": "NAME_1",
"text": "John",
"best_label": "NAME",
"stt_idx": 3,
"end_idx": 7,
"labels": {
"NAME": 0.8446
}
},
{
"marker": "NAME_2",
"text": "Grace",
"best_label": "NAME",
"stt_idx": 9,
"end_idx": 14,
"labels": {
"NAME": 0.8399
}
},
{
"marker": "LOCATION_CITY_1",
"text": "Berlin",
"best_label": "LOCATION_CITY",
"stt_idx": 63,
"end_idx": 69,
"labels": {
"LOCATION_CITY": 0.8778,
"LOCATION": 0.8512
}
}
],
"api_calls_used": 1,
"output_checks_passed": true
}
テキストの非識別化
人間よりも高い精度での匿名化
Private AIは、検出されたすべてのPIIを一意の識別子(例:NAME_1、CVV_3、CREDIT_CARD_2など)に置き換えて、匿名化されたトランスクリプトまたは非識別化データを作成することができます。また、PIIをマスク文字に置き換えることも可能となります。弊社の資料で詳細をご確認ください。
唯一無二の精度
- 唯一無二の精度
- 50以上のエンティティタイプ
- 52の言語(増加中)
- 毎秒70,000語の処理
- サードパーティからのアクセスなし
- 正規表現なし
- リアルタイムの匿名化
- GDPR、HIPAA、CPRAなどの準拠
合成PII生成
プライバシー保護なしにTransformerは使用しない
PIIが削除された後、Private AIは合成PIIを生成し、発見されたすべてのPIIを周囲の文脈に合った偽データに置き換えることができます。
合成PIIジェネレーターは元のデータを見ることがないため、機密データの漏洩を防ぐことができます。敵対者はまずどのPIIが本物であるかを特定しなければならないため、結果として表示されるテキストは再識別リスクをさらに低減したものとなります。
本番データを取得し、すべてのPIIを合成データに置き換えることで、元データからのデータシフトを最小限に抑えることが可能となります。MLモデルの作成時には特に有用です。
トークン化&仮名化
必要に応じたPII削除の可逆
Private AI のトークン化機能を使用して、PIIを暗号化されたトークンに置き換えます。トークン化は仮名化とも呼ばれ、データの有用性を維持しながら機密情報を保護するものです。
可逆的なトークン化により、元のデータが簡単に復元できます。資料とアクセスについては、弊社までお問い合わせください。