非構造化テキスト内の個人を特定できる情報の識別・匿名化・置換

ご自身のデータをご自身の方法で

弊社では、最新のTransformerアーキテクチャーを適用し、完全にコンテキストに基づいてPIIをピックアップしており、半構造化データおよび非構造化データに対して特に効果的となっています。

Private AIのデータ、セキュリティ、機械学習チームは次のことを行うことができます:

専門家による構築:

専門家による構築:

仕組み

Private AIはオンプレミスの単一コンテナで展開されるため、あらゆるデータワークフローに弊社の強力な匿名化機能を簡単に追加することができます。コンテナはREST API経由でアクセスでき、チームのニーズに応じて簡単にカスタマイズできます。

PII識別化

プライバシーは機械学習モデルに留まらない

Private AIは、52の言語にわたって、個人を特定できる情報(PII)の50以上の異なるエンティティタイプを検出します。文脈を意識したML(機械学習)モデルを使用することで、従来のエンティティ検出を超え、さまざまな種類の直接識別子/間接識別子を識別します。

何がPIIであり、何がPIIでないかの判断は複雑なものですが、Private AIのプライバシー専門家チームによって、GDPR、CPRA、HIPAAなどの主要な法規制に準拠して弊社のシステムが動作することが保証されています。

Private AIは、あらゆるデータフローやデータベースでPIIをスクリーニングするフィルターとして簡単に実装できます。

				
					
{
  "result": "Hi [NAME_1], [NAME_2] this side. It's been a while since we last met in [LOCATION_CITY_1].",
  "result_fake": null,
  "pii": [
    {
      "marker": "NAME_1",
      "text": "John",
      "best_label": "NAME",
      "stt_idx": 3,
      "end_idx": 7,
      "labels": {
        "NAME": 0.8446
      }
    },
    {
      "marker": "NAME_2",
      "text": "Grace",
      "best_label": "NAME",
      "stt_idx": 9,
      "end_idx": 14,
      "labels": {
        "NAME": 0.8399
      }
    },
    {
      "marker": "LOCATION_CITY_1",
      "text": "Berlin",
      "best_label": "LOCATION_CITY",
      "stt_idx": 63,
      "end_idx": 69,
      "labels": {
        "LOCATION_CITY": 0.8778,
        "LOCATION": 0.8512
      }
    }
  ],
  "api_calls_used": 1,
  "output_checks_passed": true
}
				
			
2.0 Sliders-JA_before2.0 Sliders - JA_after

テキストの非識別化

人間よりも高い精度での匿名化

Private AIは、検出されたすべてのPIIを一意の識別子(例:NAME_1、CVV_3、CREDIT_CARD_2など)に置き換えて、匿名化されたトランスクリプトまたは非識別化データを作成することができます。また、PIIをマスク文字に置き換えることも可能となります。弊社の資料で詳細をご確認ください。

唯一無二の精度 

合成PII生成

プライバシー保護なしにTransformerは使用しない

PIIが削除された後、Private AIは合成PIIを生成し、発見されたすべてのPIIを周囲の文脈に合った偽データに置き換えることができます。

合成PIIジェネレーターは元のデータを見ることがないため、機密データの漏洩を防ぐことができます。敵対者はまずどのPIIが本物であるかを特定しなければならないため、結果として表示されるテキストは再識別リスクをさらに低減したものとなります。


本番データを取得し、すべてのPIIを合成データに置き換えることで、元データからのデータシフトを最小限に抑えることが可能となります。MLモデルの作成時には特に有用です。

2.0 Sliders-JA-creditbefore2.0 Sliders-JA_creditafter
2.0 Sliders-medical_before2.0 Sliders_medical_after

トークン化&仮名化

必要に応じたPII削除の可逆

Private AI のトークン化機能を使用して、PIIを暗号化されたトークンに置き換えます。トークン化は仮名化とも呼ばれ、データの有用性を維持しながら機密情報を保護するものです。

可逆的なトークン化により、元のデータが簡単に復元できます。資料とアクセスについては、弊社までお問い合わせください。

無料で試す

Download the Free Report

Request an API Key

Fill out the form below and we’ll send you a free API key for 500 calls (approx. 50k words). No commitment, no credit card required!

Language Packs

Expand the categories below to see which languages are included within each language pack.
Note: English capabilities are automatically included within the Enterprise pricing tier. 

French
Spanish
Portuguese

Arabic
Hebrew
Persian (Farsi)
Swahili

French
German
Italian
Portuguese
Russian
Spanish
Ukrainian
Belarusian
Bulgarian
Catalan
Croatian
Czech
Danish
Dutch
Estonian
Finnish
Greek
Hungarian
Icelandic
Latvian
Lithuanian
Luxembourgish
Polish
Romanian
Slovak
Slovenian
Swedish
Turkish

Hindi
Korean
Tagalog
Bengali
Burmese
Indonesian
Khmer
Japanese
Malay
Moldovan
Norwegian (Bokmål)
Punjabi
Tamil
Thai
Vietnamese
Mandarin (simplified)

Arabic
Belarusian
Bengali
Bulgarian
Burmese
Catalan
Croatian
Czech
Danish
Dutch
Estonian
Finnish
French
German
Greek
Hebrew
Hindi
Hungarian
Icelandic
Indonesian
Italian
Japanese
Khmer
Korean
Latvian
Lithuanian
Luxembourgish
Malay
Mandarin (simplified)
Moldovan
Norwegian (Bokmål)
Persian (Farsi)
Polish
Portuguese
Punjabi
Romanian
Russian
Slovak
Slovenian
Spanish
Swahili
Swedish
Tagalog
Tamil
Thai
Turkish
Ukrainian
Vietnamese

Rappel

Testé sur un ensemble de données composé de données conversationnelles désordonnées contenant des informations de santé sensibles. Téléchargez notre livre blanc pour plus de détails, ainsi que nos performances en termes d’exactitude et de score F1, ou contactez-nous pour obtenir une copie du code d’évaluation.

99.5%+ Accuracy

Number quoted is the number of PII words missed as a fraction of total number of words. Computed on a 268 thousand word internal test dataset, comprising data from over 50 different sources, including web scrapes, emails and ASR transcripts.

Please contact us for a copy of the code used to compute these metrics, try it yourself here, or download our whitepaper.