通話やチャットのトランスクリプトは乱雑としたものであることが多く、適切に匿名化するのが最も難しいデータのひとつです。
従来のソリューションでは対応できていません。
手動による匿名化は、時間がかかり、コストがかかり、不正確であることが知られています。正規表現のような自動化されたシステムは、より速く、より安価ですが、通話トランスクリプトの前後関係や記録内の多くのタイプミスのような特異なデータを処理することはできません。また、独自のAIシステムを構築するには、多くの時間、費用、労力がかかるため、実績のあるソリューションを購入する方が良い選択であることは間違いないでしょう。
Private AIは、トランスフォーマーアーキテクチャの最新の技術を活用して、トランスクリプトから個人情報(PII、PHI、PCIなどという非常に高い精度で抽出します。弊社のウェブデモでお試しください。
正規表現、ディクショナリ、ルールベースのシステムはありません。
当システムは、流暢でない言葉、絵文字、インターネットスラングなど、トランスクリプトやチャットログでの特異性に対して最適化されており、リクエストに応じて顧客による正規表現をサポートしています。
機密性の高い健康情報を含む雑多な会話データで構成されたデータセットでテスト。詳細や、精度、F1スコアにおけるパフォーマンスについては、ホワイトペーパーをダウンロードしてください。評価コードをご希望の場合は、弊社までご連絡ください。
ご自身のデータでお試しください:
「弊社は音声文字起こしAPIを提供しており、クレジットカード、SSN、その他の個人的な財務情報や健康情報の匿名化を、可能な限り高い精度で行う必要がありました。Private AIはそれを迅速かつ簡単に実現してくれました。現在、弊社の精度は飛躍的に向上し、クライアントも満足しています。」
Fill out the form below and we’ll send you a free API key for 500 calls (approx. 50k words). No commitment, no credit card required!
Expand the categories below to see which languages are included within each language pack.
Note: English capabilities are automatically included within the Enterprise pricing tier.
French
Spanish
Portuguese
Arabic
Hebrew
Persian (Farsi)
Swahili
French
German
Italian
Portuguese
Russian
Spanish
Ukrainian
Belarusian
Bulgarian
Catalan
Croatian
Czech
Danish
Dutch
Estonian
Finnish
Greek
Hungarian
Icelandic
Latvian
Lithuanian
Luxembourgish
Polish
Romanian
Slovak
Slovenian
Swedish
Turkish
Hindi
Korean
Tagalog
Bengali
Burmese
Indonesian
Khmer
Japanese
Malay
Moldovan
Norwegian (Bokmål)
Punjabi
Tamil
Thai
Vietnamese
Mandarin (simplified)
Arabic
Belarusian
Bengali
Bulgarian
Burmese
Catalan
Croatian
Czech
Danish
Dutch
Estonian
Finnish
French
German
Greek
Hebrew
Hindi
Hungarian
Icelandic
Indonesian
Italian
Japanese
Khmer
Korean
Latvian
Lithuanian
Luxembourgish
Malay
Mandarin (simplified)
Moldovan
Norwegian (Bokmål)
Persian (Farsi)
Polish
Portuguese
Punjabi
Romanian
Russian
Slovak
Slovenian
Spanish
Swahili
Swedish
Tagalog
Tamil
Thai
Turkish
Ukrainian
Vietnamese
Testé sur un ensemble de données composé de données conversationnelles désordonnées contenant des informations de santé sensibles. Téléchargez notre livre blanc pour plus de détails, ainsi que nos performances en termes d’exactitude et de score F1, ou contactez-nous pour obtenir une copie du code d’évaluation.
Number quoted is the number of PII words missed as a fraction of total number of words. Computed on a 268 thousand word internal test dataset, comprising data from over 50 different sources, including web scrapes, emails and ASR transcripts.
Please contact us for a copy of the code used to compute these metrics, try it yourself here, or download our whitepaper.