Content
データのトークナイゼーション
データトークナイゼーションとは何ですか?
データトークナイゼーションは、機密データ(PIIなど)を保存時に非識別化するのに有効な、形式を保持した可逆的データマスキング技術です。データトークン化はデータ形式を保持するため、識別を解除したデータをそのままデータストアに保存できます。
元の値を必要としないアプリケーションはトークン化された値をそのまま使用でき、元の値へのアクセスが許可されたアプリケーションはトークンから元の値を取り出して使用できます。
なぜトークナイゼーションを気にする必要があるのですか?
データの生成または取り込み中の早い段階でデータをトークン化すると、データ侵害が発生した場合に機密データが漏洩するリスクがなくなります。これにより、データには機密情報や PII 情報が含まれないため、風評リスクと修復コストが大幅に削減されます。
トークナイゼーション、GDPR、Schrems II、PCI-DSS、HIPAA、CCPA など、増え続けるデータ プライバシー規制へのコンプライアンスを維持するのに役立ちます。
トークナイゼーション り、サードパーティや地域を超えてデータをシームレスに共有することもできます。
トークナイゼーションのさまざまな方法にはどのようなものがありますか?
トークナイゼーションには、Vaulted と Vaultless の 2 つのアプローチがあります。
保管されたトークナイゼーションでは、元のトークンと同じ形式でトークンが生成されます。元の値 (暗号化された形式) とそのトークンの間のマッピングを、可逆性のためにセカンダリ データベースに保存します。これにより、元の値を取得できるようになります。
ただし、セカンダリ データベースがあるため、ボールト アプローチにはデータ量の増加に伴うパフォーマンスとスケーラビリティの欠点があります。さらに、セカンダリ データベースには追加のインフラストラクチャと管理コストがかかります。
現在の最先端技術である Vaultless トークナイゼーションでは、対称キーを使用した形式保持暗号化(FPE)アルゴリズムを使用してデータをトークナイゼーションします。非トークナイゼーションは、同じ対称キーを使用して実行される単純な復号化操作です。現在、2 つの FPE アルゴリズム、AES FF1 および FF3-1 が NIST によって承認されています。 FF1 は FF3-1 よりも成熟していると考えられており、採用率が高くなります。
Fortanix は、NIST 標準の FF1 アルゴリズムを使用した Vaultless トークナイゼーションをサポートしています。
データベース暗号化に対するトークナイゼーションの利点は何ですか?
トークナイゼーション はフォーマットを保持し、移植可能です。これは、データを生成または取り込み時に一度トークナイゼーション (FF1 で暗号化) し、必要に応じて内部でコピーしたり外部で共有したりできることを意味します。
機密フィールドにアクセスする必要のないほとんどのアプリケーションは、トークナイゼーション されたデータをそのまま使用できます。ただし、機密フィールドにアクセスする必要がある少数のアプリケーションでは、トークナイゼーション されたデータをその場で復号して元の値を取得できます。
データベース暗号化では形式が保持されないため、このようなデータは読み取り操作のたびに復号化してマスクする必要があります。さらに、あるデータ ストアから次のデータ ストア、つまりトランザクション データベースから分析データベースにデータを移動するときに、データを復号化して再暗号化する必要があります。
トークナイゼーション には、アプリケーションまたは ETL パイプライン ノードでデータをトークン化するための事前のローコード開発が必要です。それでも、初期の労力が少ないため、データベース暗号化よりも大きな継続的なメリットが得られます。
機密データをトークン化するためのデータ ライフサイクルの最適なポイントはどこですか?
トークナイゼーション は早期に、理想的にはデータ生成またはデータ取り込みの段階で実行します。生成アプリケーションでのトークナイゼーション により、最高のセキュリティとパフォーマンスが提供されます。ただし、アプリケーションの数が増えると、コンプライアンスを管理することが困難になる可能性があります。ストリーミングまたはバッチ取り込み中に ETL/ELT パイプラインで実行されるトークナイゼーション は適切に実行され、コンプライアンスを制御するのが簡単です。データ生成アプリケーションを更新することなく実装できます。
もう 1 つのオプションは、データ ストアでサポートされているユーザー定義関数を使用してデータ ストアの書き込み時にトークナイゼーション することです。これは透明性のあるアプローチであり、管理が容易です。ただし、低遅延トランザクション データベースのパフォーマンスに影響を与える可能性があります。
カードのトークナイゼーションとは何ですか?
トークナイゼーションにより、クレジット カードやデビット カードの詳細などの機密の支払い情報が保護されます。これには、16 桁のカード番号、カード所有者名、有効期限、セキュリティ コードなどの元の機密データが、「トークン」と呼ばれる固有の代替物に置き換えられることが含まれます。
カード所有者のデータは、元の情報と意味のある相関関係を持たない一連の乱数に変換されます。これにより、不正アクセスを取得する可能性のある人にとって、トークン化されたデータは無意味になります。トークナイゼーションは、データを読み取り不可能な形式に変換する暗号化と同様に機能しますが、トークン化は元に戻せないという重要な違いが 1 つあります。データがトークン化されると、元の形式に戻すことはできません。
トークナイゼーションは、定期的な支払いや販売者が開始するトランザクションなど、機密データを保存する必要がある場合に特に役立ちます。これは、販売者が顧客のカードのトークンを保持できるようにすることで、チェックアウト プロセスを高速化するために使用され、顧客が購入のたびに情報を入力する必要性を減らします。
トークナイゼーション の大きな利点の 1 つは、Payment Card Industry Data Security Standard (PCI DSS) などのセキュリティ標準に準拠していることです。トークン化されたクレジット カード データは、これらの標準に違反することなく、組織の安全な環境内に保存できます。
トークナイゼーションではデータの元の形式と長さが維持されるため、企業は大幅な中断なしに既存のプロセスでトークン化されたデータを使用し続けることができます。
トークナイゼーションのセキュリティ上の利点は明らかです。加盟店はカードの詳細を保持しないため、消費者のカード情報に対する保護層がさらに追加されます。トークン化は義務ではありませんが、支払い取引中に消費者データを保護するために不可欠なサービスとして強く推奨されます。
カードのトークナイゼーションはどのように機能しますか?
このプロセスには、セキュリティと使いやすさを確保するためのいくつかの手順が含まれます。
データ収集: ステージ 1 では、顧客が支払いカードの詳細を入力し、販売者は 16 桁のカード番号、カード所有者名、有効期限、セキュリティ コード (CVV/CVC) などの機密データを収集します。
トークンの生成: 収集されたカード データは、信頼できるサードパーティが提供するトークン化サービス、または販売者の支払いゲートウェイによって管理されるトークナイゼーションサービスに転送されます。このサービスは、特定のカード データに固有のトークンを生成します。
トークン ストレージ: トークンは販売者のシステムまたはデータベースに保存されます。同時に、元の機密カード データは直ちに破棄されるか、非常に安全でコンプライアンスに準拠したシステムに保存されます。
送信: トークンは販売者に返され、今後の取引に使用できます。権限のないユーザーがデータベースにアクセスした場合、トークンから元のカード データをリバース エンジニアリングすることはできません。
取引: 販売者はその後の取引でカード データの代わりにトークンを使用します。トークンは、元のカード データと同様に、支払いプロセスを通じて送信されます。
承認: 決済処理業者または支払いゲートウェイはトークンを受け取り、それを使用してカード発行会社に承認をリクエストします。カード発行会社がトークンを認識すると、決済プロセッサはトランザクションを実際のカード データとして処理します。
復号化と支払い: 支払いネットワークはトークンを復号化し、元のカード データを使用して取引を完了します。販売者は、実際のカードの詳細に直接アクセスすることなく、支払いの承認を受け取ります。
トークナイゼーションによりオンライン決済はどのように安全になるのでしょうか?
トークナイゼーションにより、クレジット カードを直接使用する場合と比較して、オンライン支払いがどのように安全になるかは次のとおりです。
データの漏洩:
クレジット カード: 番号、有効期限、CVV が販売者に公開されるリスクがあります。このデータは安全でない状態で保存され、送信中に傍受される可能性があり、侵害の可能性があります。
トークナイゼーション: 機密性の高いカード データをランダムなトークンに置き換えます。実際のカード情報は送信または保存されないため、データ漏洩のリスクが大幅に軽減されます。
ランダム化:
クレジット カード: クレジット カード番号は、カード発行会社に基づいて予測可能なパターンに従います。攻撃者はこの予測可能性を悪用し、カード番号を推測することができます。
トークナイゼーション: トークンはランダムであり、固有のパターンがないため、攻撃者がトークンから元のデータを推測したり、リバース エンジニアリングしたりすることが非常に困難になります。
動的トークン:
クレジット カード: 承認が必要ないため、権限のないユーザーがカード データを支払い取引に悪用する可能性があります。
トークナイゼーション
: 動的トークンは、特定のトランザクションまたは限られた時間枠内でのみ有効です。これにより、傍受したトークンの不正な再利用が防止されます。
一元化されたセキュリティ:
クレジット カード: 販売者がクレジット カード データを直接管理すると、規制基準を満たさないさまざまなレベルの保護が発生する可能性があります。
トークナイゼーション: 決済処理業者または専用のトークン化サービスは、一元化されたセキュリティの専門知識を提供し、より高いレベルの保護を提供できる可能性があります。
コンプライアンス:
クレジット カード: 実際のクレジット カード データを保存する場合、販売者は厳格な PCI DSS 準拠基準を遵守できません。
トークナイゼーション: 実際のカード所有者のデータは保存されないため、すべてのコンプライアンスの要件を満たします。
ネットワークトークナイゼーションとは何ですか?
ネットワーク トークナイゼーションは、Mastercard、Visa、American Express、Maestro、Rupay、Union Pay、Discover などのネットワークによって提供される支払いセキュリティ アプローチです。主要な口座番号 (PAN) などの機密カード データを固有のトークンに置き換えて、取引中のセキュリティを強化します。
トークナイゼーション
カード ブランドはこれらのトークンを生成し、常に更新します。物理的なデビット カードまたはクレジット カードが詐欺の疑いによりロックされた場合でも、ネットワーク トークンにより、ユーザーの支払い資格情報がリアルタイムで最新の状態に保たれます。その結果、情報が古いために顧客が取引を拒否されるケースが少なくなります。これにより、定期的なトランザクション中のユーザーの満足度がサポートされます。販売者は、セキュリティが強化され、拒否が減り、コストが削減され、チェックアウト エクスペリエンスが向上します。
特定の時点で PAN を置き換える PCI トークナイゼーションとは異なり、ネットワーク トークナイゼーションは支払いプロセス全体に影響します。ネットワーク トークンはドメイン固有であり、単一のデバイス、販売者、チャネル、またはトランザクション タイプに関連付けられています。これは、特定のデバイス、販売者、チャネル、または取引の種類に限定されることを意味します。
銀行業におけるデータトークン化とは何ですか?
銀行におけるデータトークン化とは、クレジットカード番号や口座番号などの機密データを、トークンと呼ばれるランダムな文字列に置き換えることを指します。このトークン自体には意味のある価値はありませんが、安全なシステム内で元のデータと紐づいています。もし誰かがトークンを盗んでも、そのトークンを実際の情報に戻す安全なシステムへのアクセスがなければ無意味です。
銀行はオンラインやモバイル決済の取引中に顧客データ(個人識別情報、PII)を保護するためにデータトークン化を利用しています。これにより、実際のデータが露出したり、盗まれる可能性のあるシステムに保存されたりするリスクが低減されます。
ブロックチェーンにおけるトークン化とは何ですか?
ブロックチェーンにおけるデータトークン化とは、お金、不動産、芸術作品、または会社の株式をデジタルトークンに変換し、それをブロックチェーン上で保管・取引することを指します。各トークンは、その資産の所有権や権利を表しています。
例えば、100万ドルの不動産を1,000個のトークンに分割し、1トークンあたり1,000ドルの価値を持たせることができます。ユーザーは従来の仲介業者を介さずにトークンを購入、販売、または譲渡することが可能です。すべての取引はブロックチェーンに記録されるため、透明性が高く改ざんが困難です。
この方法により、取引が迅速になり、中間業者を排除し、通常は分割や売却が難しい資産へのアクセスが広がります。
データサイエンスにおけるデータのトークン化とは何ですか?
データトークナイゼーションは、データサイエンスにおいてテキストを簡素化し、機械が読み取れるようにする手法です。単語、時には文字やサブワードを「トークン」と呼ばれる小さな単位に分割し、コンピュータが言語データを理解し処理できるようにします。
これは自然言語処理の最初のステップの一つであり、生のテキストをモデルやアルゴリズムが扱いやすい構造化された形に変換します。例えば、「Alps are beautiful」という文は「Alps」「are」「beautiful」の三つの部分にトークン化されます。このように構造化された部分が、機械によるさらなる解析、翻訳、機械学習モデルの訓練に役立ちます。
フォーマット保持型データトークナイゼーションとは何ですか?
フォーマット保持データトークナイゼーションは、機密データを非機密のトークンに置き換えつつ、正確なフォーマット、長さ、データ型の特性を維持します。例えば、16桁のクレジットカード番号は別の16桁の番号に変わります。
フォーマット保持暗号化(FPE)は、FF1やFF3-1のような暗号アルゴリズムを用いて、別の保管庫を必要とせずにデータを数学的に変換する方法や、フォーマットに準拠したランダムトークンを生成し、安全なデータベースにマッピングを保存する保管庫ベースのシステムがあります。
APIデータのトークン化はどのように機能しますか?
APIデータのトークン化は、ユーザー名、パスワード、クレジットカード番号などの機密情報を、APIを通じて送信する前に非機密のトークンに置き換える方法です。このトークンは代理として機能し、識別やアクセスに使用できますが、誰かに傍受されても実際の意味はありません。
本物のデータは、ボールトと呼ばれる保護されたシステム内に安全に保管されるか、フォーマット保持暗号化によって同じ形式のまま暗号文に変換され、既存のデータ構造やアプリケーションとの互換性が保たれます。
必要に応じて、システムはトークンを元の値にマッピングします。アプリやサービスはこれを使って処理できます。
データのトークン化でPCI準拠要件を満たすにはどうすればよいですか?
データトークナイゼーションは、正しく実施すればPCI DSS準拠の負担を軽減できます。以下は、押さえておくべき重要なポイントです。
1. 強力で非可逆なトークンを使用する
トークンは元のカード番号に似ていてはいけません。システム外では無意味でランダムである必要があります。万が一盗まれても、元のデータを逆算したり特定したりできないようにしなければなりません。
2. カードデータは安全なボールトに保管するか、フォーマット保持暗号化を使用する
実際のカード情報(PAN、CVVなど)は、安全な環境に保管する必要があります。暗号化、アクセス制御、監視が施されたボールト内に保護するか、暗号鍵を用いたフォーマット保持暗号化で保護します。ボールトベースのトークナイゼーションでは、トークンと元データを結びつけられるのはボールトだけです。一方、フォーマット保持暗号化は適切な暗号鍵を使うことで、別途保管せずに数学的に元に戻せます。
3. アクセス権を管理する
トークンボールトおよび元データを要求するシステムへのアクセスを制限します。アクセスは特定の役割に限定し、詳細にログを記録するべきです。これによりリスクが減り、監査時にも役立ちます。
4. セグメンテーションでPCIの範囲を縮小する
主要システムがトークンのみを扱い、生のカードデータに触れない場合、それらのシステムをPCI DSSの範囲から除外できます。ただし、データトークナイゼーションのプロセスが確実かつ文書化されていることが前提です。
5. トークンの活動を監視・監査する
トークンやボールトへのアクセスに関するアラートやログを設定します。定期的なレビューで不正利用を早期に発見でき、コンプライアンスチェック時にも必要とされます。
6. PCI準拠のベンダーと連携する
サードパーティのデータトークナイゼーションプロバイダーを利用する場合は、PCI DSS準拠を証明できることを確認してください。言葉だけでなく、書類や認証を必ず求めましょう。
データのトークン化は、送信中の支払いカード情報をどのように保護しますか?
支払いカードのデータが顧客の電話から決済処理業者など別のシステムに移動する際、そのデータは傍受や盗難のリスクにさらされます。データトークナイゼーションは、データ送信前に実際のカード番号をトークンに置き換えることで、そのリスクを軽減します。このトークンは、送信中に誰かに盗まれても実際の価値を持ちません。
取引が開始されると、システムは安全なプロセスを用いてカード番号を即座にトークンに変換します。このトークンがカードデータの代わりにネットワークを通じて送信されます。たとえ誰かがメッセージを傍受しても、得られるのは実際のカードに紐づかないランダムな文字列だけです。
実際のカードデータは、フォーマット保持暗号化やネットワークを通過しない安全な保管庫によって保護されます。適切な暗号鍵や保管庫の権限を持つ信頼されたシステムだけが、必要なときにトークンを実際のデータに戻すことができます。データトークナイゼーションは、暗号変換や保管庫ベースの保存を用いて、取引のあらゆる段階で機密カード情報を安全に保ちます。
データクレンジングにおけるデータトークン化の利点は何ですか?
データのトークン化は、テキストを通常は単語単位の小さな部分に分割することで、テキストのクリーンアップを助けます。これにより、句読点や余分なスペース、意味を持たない一般的な単語(例えば「the」や「and」など)を取り除きやすくなります。テキストがトークンに分解されると、すべて小文字にしたり、スペルを修正したりすることが可能になり、大きな未構造テキストのままでは難しい作業が簡単になります。
また、トークン化はデータ内のパターンや問題を見つけるのにも役立ちます。例えば、繰り返されるフレーズや欠落している単語、異常な用語を、テキストがすでにトークン形式になっていることでより簡単に発見できます。トークン化されたテキストは、多くの機械学習ツールが入力として期待する形式でもあるため、このようにクリーンアップすることでデータを分析に適した状態に整えられます。
なぜデータマイニングでデータのトークン化が行われるのですか?
データトークナイゼーションは、データマイニングにおいてテキストデータを分析用に準備するのに役立ちます。レビューやメール、ソーシャルメディアの投稿などの生のテキストは非構造化されており、機械にとって理解しにくいものです。これらをトークン(単語やフレーズ)に分割することで、そのデータを構造化します。これにより、大量のテキストを検索、カウント、比較し、パターンを見つけることが可能になります。
テキストがトークン化されると、パターンを検出したり、類似した文書をグループ化したり、頻出語を見つけたり、結果を予測したりするモデルを適用できるようになります。例えば、顧客が製品について何を言っているかを知りたい場合、データトークナイゼーションは重要な単語を抽出し、ノイズを無視するのに役立ちます。
スパムの識別、顧客の感情の追跡、フィードバックのトピック別分類などのモデルを構築できます。また、キーワード分析、トピックモデリング、感情検出の第一歩でもあります。データトークナイゼーションがなければ、ほとんどのテキストデータはあまりにも散らかっていて、洞察を得るためのマイニングが困難です。
データマスキングとデータトークナイゼーションの違いは何ですか?
データマスキングは、機密データを架空でありながらリアルに見える値に置き換えることで、永続的に変更または隠蔽します。例えば、マスクされたクレジットカード番号は「4567-XXXX-XXXX-1234」のように見えます。形式は保持しつつ内容を混乱させるため、元のデータを復元することはできません。これはテスト、開発、分析などの非本番環境向けに設計された一方向の変換です。
データトークナイゼーションは一方で、機密データを非機密のプレースホルダートークンに置き換え、必要に応じて元のデータにマッピング可能です。例えば、クレジットカード番号は「tok_abc123xyz」や、形式保持トークナイゼーションの場合は「8732-9456-2847-1093」となります。重要なのは、トークナイゼーションは可逆的であり、適切なキーやボールトアクセスを持つ認可システムが元データを取得できる点です。
特徴 | データマスキング | データトークナイゼーション |
---|---|---|
目的 | テスト、トレーニング、内部利用のために実データを隠す | セキュリティとコンプライアンスのために機密データを置き換える |
出力 | 形式を保持する場合もあればしない場合もある | 元データとは無関係なランダム文字列、システム互換性のため正確な形式を維持 |
可逆性 | 通常は不可逆 | 認可時に可逆 |
利用ケース | 実データを公開せずに開発、QA、分析を行う | 安全な決済処理、PCI準拠 |
データ保存 | マスクされたデータはシステム内に残る | 実データは安全なボールトに別途保存される |
セキュリティレベル | マスキングは機密データを破壊しリスクを排除 | トークナイゼーションはリスクを安全なキーやボールト管理に移転 |
例 | 4567-XXXX-XXXX-1234 | TKN-abcd1234xyz または 8732-9456-2847-1093 |
規制上の利用 | 非本番環境での利用が多い | PCI DSSの範囲を縮小するため本番システムで使用 |
カードオンファイルデータのトークン化とは何ですか?
カードオンファイルのデータトークン化は、企業が将来の利用のために顧客の支払い情報を保存する際に、保存された支払いカード番号をトークンに置き換える仕組みです。実際のカード番号(PAN)を保持する代わりに、システムは安全な保管庫にある実際のカードにリンクするトークンを保存します。
この方法は、Eコマースサイト、サブスクリプションサービス、モバイルアプリで一般的に使用されています。トークンはカード情報を保持する安全なシステムへのアクセスがなければ無意味であるため、カード所有者のデータを盗難から保護します。たとえトークンを保存するシステムが侵害されても、実際のカードデータは漏洩しません。
カードオンファイルのデータトークン化は、企業が実際のカード番号を保存しないため、PCI DSS準拠の負担軽減にも役立ちます。実際のカード番号は機微情報とみなされるためです。
データのトークン化は、クレジットカードを使うよりもオンライン決済をどのように安全にするのですか?
カード番号やCVVなどの機密データは、システムが完全に安全でない場合、オンライン取引中に傍受されたり盗まれたりする可能性があります。データトークン化は、カードデータがデバイスを離れたり加盟店のシステムに入る前にランダムなトークンに置き換えることで、そのリスクを防ぎます。
このトークンは代理として機能します。取引に使用できますが、それ自体には価値がありません。たとえハッカーがトークンを盗んでも、適切な暗号鍵や保管庫へのアクセスがなければカード番号に戻すことはできません。
実際のカードデータは、フォーマット保持暗号化や安全な保管庫で保護されており、決済システムとは別に管理されています。そのため、実際のカード情報をネットワーク上で共有したりデータベースに保存したりする代わりに、データトークン化によって隠されているため、攻撃者が金融情報を盗むのははるかに困難になります。