非構造化データとは、リレーショナルデータベース管理システムのようにあらかじめ定義されたデータモデルやスキーマに従って保存されていない情報のことで、NoSQLのような非リレーショナルデータベースにも当てはまります。世の中にあるデータの大半は非構造化データであり、テキスト、リッチメディア、動画、画像、 音声、モノのインターネット (IoT) デバイスのセンサーデータなどがそれに当たります。非構造化データは人間や、機械によっても作成される可能性があり、従来のデータ管理戦略で保存あるいは分析することは困難です。
企業が所有する資産で最も重要なものはデータという認識が強まっています。しかし、膨大な量の非構造化データから最大限の価値を引き出すことができている組織はほとんどありません。アナリストは、業務の過程で生成される、または取得されるすべてのデータの80%が非構造化データと推定しています。ネットワーク接続ストレージ (NAS) デバイスを使用した従来のファイルサービスアプローチで非構造化データを大規模に管理することは、データレプリケーション、物理的な制約、ガバナンスの課題があるために困難で、コストがかかることが分かっています。
組織は、適切なツールを使用すれば、非構造化データから大きな価値を引き出すことができます。例えば、企業はソーシャルメディアの投稿をマイニングして、自社ブランドに対する満足度を反映したデータを取得できます。病院の臨床医は、共通の (そして膨大な) ゲノム配列のリポジトリを共有して、研究に供することができます。
しかし、こうしたすべての非構造化データを、ファイルまたはオブジェクトとして、どこにどのように保存するかが、企業が直面する課題であり続けています。従来のNASインフラはパフォーマンス向上には役立ちますが、コストがかかり、スケールアウトできません。次世代スケールアウトNASは利用できますが、まだ広く普及しているわけではありません。ソフトウェア定義のオブジェクトストレージが導入され始めていますが、オブジェクトストレージに対応できるよう設計されたエンタープライズワークロードはあまり多くありません。このため、導入は遅々として進まず、難航しています。企業は、非構造化データを管理するための、よりスケーラブルで効率的な方法を必要としています。
非構造化データの例は以下のとおりです:
非構造化データのソースには、例えば以下のようなものがあります:
テキストファイル – 普段処理するほぼすべてのオフィスファイルは、非構造化データのソースです。これには、ワープロ文書、プレゼンテーション、PDFなど、あらかじめ定義された形式を持たないあらゆるものが含まれます。
リッチメディアファイル – 音声ファイルや動画ファイルは、構造化データモデルに収まりません。デジタル写真も同様です。これらのファイルはそれぞれ独自の形式を持つため、分析がさらに困難になります。
Eメール – Eメールの一部 (「宛先」、「送信元」、「件名」など) は半構造化データと見なされますが、Eメールの大半は非構造化テキストのソースとなります。
ソーシャルメディア – ソーシャルメディアも非構造化データのソースですが、Eメールと同様に、その一部は半構造化データと見なされます。
IoTデータ – デバイスセンサーは、従来の方法では分析が困難な非常に大量の非構造化ログファイルを生成します。
非構造化データは、会社のあらゆる職務で使用されています。財務 (請求書) マーケティング (写真) IT (IoTデータ) セールス (顧客とのEメール) カスタマーサービス (ソーシャルメディア)
状況は急速に変化していますが、現時点では、収集され保存される非構造化データの多くは手動で処理されています。例えば、Eメールであれば、たいていは人が読み、重要な情報を抽出し (コピーして別のEメールやアプリケーションに貼り付けるなど)、その内容に基づいて処置することで処理されます。
しかし、機械学習、マシンビジョン、自然言語処理などの進化するAIテクノロジーを活用すれば、この構造化されていない情報の多くを自動的に利用および分析でき、より迅速にビジネスインサイトが得られるようになります。
構造化データとは、ファイルまたはレコード内の決まった場所に保存されるデータのことです。通常はリレーショナルデータベース (RDBMS) に保存されますが、例えばNoSQLデータベースなどに保存されることもあります。構造化データは、テキストのこともあれば、日付、数値のこともあります。
非構造化データは、あらかじめ定義された方法で定義および保存されていないデータです。一般的に非構造化データはテキストで構成されていますが、数値、画像、音声が含まれる場合もあります。
データ分類とは、通常、ファイルの種類、コンテンツ、日付などのメタデータ (データに関するデータ) に基づいて、データを分析してバケットに分類するプロセスです。
非構造化データを機密性の高さなどで分類すれば、データをどこに保存し、誰がアクセスできるのかを決定することができ、ガバナンスポリシーに準拠した非構造化データ管理をより適切に実施できます。
ファイルは、構造化データのこともあれば、非構造化データのこのともあります。構造化データの一般的な例としては、スプレッドシートやSQLデータベースファイルがあります。ワープロ文書、プレゼンテーション、Eメールなどのその他のファイルは非構造化データです。テンプレートが使用されるたびに同じ情報を同じ方法で表示する請求書テンプレートなどのファイルは半構造化データと呼ばれます。これは、AIや機械学習モデルを使用せずにファイルから情報を抽出する方法があるためです。つまり、問題は、データがファイルに入っているかどうかではなく、データがそのファイル内にあらかじめ定義されたフォーマットで保存されているかどうかです。
非構造化データとは、あらかじめ定義されたデータモデルを持たない、またはあらかじめ定義された方法で整理されていない情報のことです。これは次のことを意味します:
全データの約80%は非構造化データであり、その割合は年々増加傾向にあります。
非構造化データの処理には、さまざまな手法があります。広く使われている方法には以下があります:
メタデータ分析 – この「データに関するデータ」は、非構造化データを分析する上で重要です。例えば、ブログ投稿 (非構造化テキスト) には、タイトル、作成者、URL、公開日、説明的なタグあるいはキーワード、さらにはカテゴリー名で構成されるメタデータが含まれます。メタデータは標準化されていないため、それぞれ独自の定義となります。
画像分析 – 画像には、ビジネス、財務、医療、科学上の理由から、抽出する価値のある非構造化型のデータが含まれています。新しいAIベースのシステムは、既知の画像と同様の特徴を持つ非構造化画像を分析し、照合することができます。例えば、光学式文字認識 (OCR) テクノロジーは、特定の画像の形状を言語の文字に一致させることにより、画像ファイル内のテキストを変換するものです。
自然言語処理 (NLP) – 非構造化テキストデータの分析を支援するAI/MLのサブセットです。NLPは、多くの手法を使用して意味を処理、抽出し、文法や意味論などの非構造化テキストを理解します。
データの視覚化 – データの視覚化とは、データをグラフの形式にして、閲覧者が見るだけでデータを理解して分析できるようにすることです。
Cohesityのソフトウェア定義のハイパースケールプラットフォームは、バックアップだけでなく、複数のアプリケーションワークロードからファイルやオブジェクトの形で非構造化データを単一のプラットフォームに統合することで、データ管理をシンプルにします。このプラットフォームのアーキテクチャは、NFS、SMB、S3オブジェクトストレージなどのさまざまなプロトコルをサポートする独自のグローバル分散ファイルシステムであるCohesity SpanFSをベースに構築されています。
Cohesityを使用すると、そのストレージを高パフォーマンスのデータにのみ使用し、アクセス頻度の低い非構造化データをCohesity SmartFilesにオフロードすることで、既存のNASへの投資を保護し、最適化することができます。ファイルとオブジェクトの管理に対する最新のアプローチであるSmartFilesによって、従来のハードウェアのフォークリフトアップグレードや、コストと時間のかかるインフラの手動更新を排除し、データセンターやクラウド、エッジのどこにあっても、すべての非構造化データを保護することができます。
Cohesity SmartFilesには、次の特徴もあります: