眠り続ける膨大な非構造化データ
本連載の第2回で解説したように、レイクハウスでは表形式の構造やデータ型が定義された「構造化データ」だけでなく、明確な構造が定義できない「非構造化データ」も扱うことができる。たとえば、画像や音声、動画、自然言語、センサーデータといったものが非構造化データだ。
クラウドストレージの登場により、あらゆる形式のデータを容量の制限無く保存可能となり、データレイクが普及した。その結果、非構造化データも様々な組織で蓄積されるようになっている。通説では、組織が持つデータのうち約8割が非構造化データであるとも言われている。つまり、構造化データをはるかに超える、天文学的な量の非構造化データが世界中の組織に蓄積されているということだ。
また、AI・機械学習の典型的なユースケースとして多くの読者が想起する自動運転やチャットボット、店舗内カメラでの顧客分析等のように、非構造化データには先進的でビジネス価値の高い活用事例も多い。
非構造化データの活用はなぜ難しいのか
その一方で非構造化データを実際に分析し、ビジネス価値へとつなげている組織は構造化データのそれに比べるとはるかに少ない。これには様々な要因があると思われるが、本稿では2つのポイントに注目したい。
1つ目のポイントは、分析以前に非構造化データの管理が難しいことだ。非構造化データは、表のレコードのようにインデックスや関連情報を直接付与することができない。そのため、ディレクトリ構造やファイルの命名規則を厳格にしなければ検索性を維持することが難しく、他の情報との紐付けもしにくい。この問題はデータの種類や量の増加にともなって顕在化し、分析したいデータにそもそも辿り着けない状況に陥ったり、他の非構造化データや構造化データとの組合せによる複合的な分析を困難にしたりする。
2つ目のポイントは、非構造化データはとても多様であるためユースケースの立案が難しいことだ。非構造化データは業界・企業によって多種多様であり、直感的に理解しやすい画像やテキストだけでなく、たとえば製薬業界における遺伝子情報等のように極めて特殊なものも多い。ドメイン知識がないとそもそも何のデータかを解釈することすら難しい場合もあり、反対にドメイン知識だけあっても、それらの非構造化データを機械学習モデルが分析可能な形に整えることは難しい。本連載の第1回では「ドメイン知識×データ&AI知識」を併せ持った人材の必要性に言及しているが、非構造化データにおいては特にその必要性が高い。しかし現実にはそうした人材は不足しているため、自組織が持つ非構造化データからビジネス価値の高いユースケースを立案することは困難な状況だ。
ここからは、まず1つ目のポイントに対してレイクハウスを活用したソリューションを述べた後、2つ目のポイントへの示唆として実際の組織における非構造化データの活用事例を紹介する。