データ分類とは、企業のリスクエクスポージャーを発見し特定しやすくするために、データをカテゴリーに分類するセキュリティおよびサイバーレジリエンスのプロセスのことです。特定の属性、ポリシー、セキュリティレベル (秘、極秘、最高機密など) でデータを分類することで、組織が保持している情報を識別する方法、データを検索用に整理する方法、悪意ある行為者からデータを保護する方法、プライバシーポリシー、ランサムウェア、内部脅威を管理する方法、ビジネス目標を前進させるインサイトを獲得するためにデータを管理する方法、コンプライアンスやその他のビジネス要件を満たすためにそのデータについて報告する方法がシンプルになります。
これまで、データの分類 (タグ付け) は手作業あるいは正規表現などの限られたツールを使って行われていましたが、データ量の増大とサイバー攻撃の巧妙化と蔓延に伴い、組織は、人工知能 (AI)、特定の機械学習 (ML)、自然言語処理 (NPL) ベースのパターンマッチングを使って保護する必要のある機密データや規制データの識別を行うようになっています。これには多くの場合、悪意ある行為者が身代金の支払い対象とする、個人、健康、金融データが含まれます。
今日のビジネスでは、構造化データと非構造化データのどちらの形式でも大量のデジタル情報が生み出されています。その多くは特筆すべきものではありませんが、中にはミッションクリティカルなデータを悪用して金銭的利益を得ようとするサイバー犯罪者にとって非常に価値のあるものもあります。バックアップとリカバリ環境だけでなく企業の本番環境にある機密データには、知的財産 (IP)、顧客個人を識別できる情報 (PII)、サプライヤーとの契約、保護対象保健情報 (PHI)、ペイメントカード情報 (PCI) などが含まれる場合があります。包括的なデータ分類を実施している組織は、財務、業務、規制コンプライアンスといったあらゆる観点から組織にある潜在的なデータ漏洩に関わるすべての影響を把握することができます。
データ分類は、リスクの軽減、ガバナンス、コスト効率、競争上の理由から重要です。具体的には、データ分類を実践することで以下のことに役立ちます:
組織は、独自のデータ分類レベルを選択することも、他の会社が使用しているレベルを採用することもできます。重要なのは、データが不適切な者の手に渡った場合や、サイバー犯罪者によってダークウェブや一般のサイトに公開された場合に、そのデータがどのくらい組織に損害を与える可能性があるかに基づいてレベルを定義することです。
例えば商業環境における文書の分類で一般的なアプローチには、以下の4つのレベルのうち1つを使用するというものがあります:
同時に、事業体は多くの場合、データの分類を決定するために以下の3つの変数に着目します:
米国政府は国家の安全保障に害を及ぼす可能性のある機密情報に対して以下のデータ分類レベルを使用しており、国立公文書記録管理局によればこれには次の3つのレベルが含まれます:
これらの分類レベルを、以下のような政府が機密とみなす文書の閲覧に必要となるセキュリティクリアランスのレベルと混同してはいけません:
データを徹底的に分類する組織には、ビジネス面でもセキュリティ面でも多くの重要なメリットがあります。そのメリットは以下の通りです:
手作業によるデータ分類は面倒で時間もコストもかかるプロセスであるため、このプロセスを自動化する企業が増えています。
最新のデータ分類プロセスの主な手順には、次のようなものがあります:
サイバー攻撃が成功すると金銭や政治的な利益があるため、個人や国家によるランサムウェアなどのサイバー脅威は頻度も深刻度も増し続けています。Cohesityのデータセキュリティおよびデータ管理ソリューションが実現するデータ分類プロセスは、サイバーレジリエンスを強化します。
Cohesity DataHawkのクラウドサービスには、攻撃中に機密データが漏洩した可能性があるかどうか、そしていつ漏洩したのかを把握するためにデータの検索や分類を行う組織をサポートするデータ分類機能があります。具体的にCohesityでは、230以上の実証されたパターンと機械学習や自然言語処理をベースとした訓練技術に基づく非常に正確なスキャニングを使用し、一般的な個人データ、健康データ、金融データの組み合わせにわたって機密データやミッションクリティカルなデータを検索することができます。このソリューションはカスタムポリシーで規制要件や個人情報保護方針に対応します。