SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

最新イベントはこちら!

Data Tech 2024

2024年11月21日(木)オンライン開催

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けの講座「EnterpriseZine Academy」や、すべてのITパーソンに向けた「新エバンジェリスト養成講座」などの講座を企画しています。EnterpriseZine編集部ならではの切り口・企画・講師セレクトで、明日を担うIT人材の育成をミッションに展開しております。

お申し込み受付中!

EnterpriseZine(エンタープライズジン)

EnterpriseZine編集部が最旬ITトピックの深層に迫る。ここでしか読めない、エンタープライズITの最新トピックをお届けします。

『EnterpriseZine Press』

2024年秋号(EnterpriseZine Press 2024 Autumn)特集「生成AI時代に考える“真のDX人材育成”──『スキル策定』『実践』2つの観点で紐解く」

Databricksと見る、データ×AIの世界

「非構造化データ」の活用が進まない2つの理由──企業に眠る、膨大な“金脈”を活かす糸口を探る

第6回:非構造化データからビジネスインパクトを生み出す

 連載最終回となる本稿では、高いビジネス価値を秘めながらも活用方法が浸透していない「非構造化データ」について、レイクハウス上での扱い方と実際の活用事例を解説する。

眠り続ける膨大な非構造化データ

 本連載の第2回で解説したように、レイクハウスでは表形式の構造やデータ型が定義された「構造化データ」だけでなく、明確な構造が定義できない「非構造化データ」も扱うことができる。たとえば、画像や音声、動画、自然言語、センサーデータといったものが非構造化データだ。

 クラウドストレージの登場により、あらゆる形式のデータを容量の制限無く保存可能となり、データレイクが普及した。その結果、非構造化データも様々な組織で蓄積されるようになっている。通説では、組織が持つデータのうち約8割が非構造化データであるとも言われている。つまり、構造化データをはるかに超える、天文学的な量の非構造化データが世界中の組織に蓄積されているということだ。

 また、AI・機械学習の典型的なユースケースとして多くの読者が想起する自動運転やチャットボット、店舗内カメラでの顧客分析等のように、非構造化データには先進的でビジネス価値の高い活用事例も多い。

画像を説明するテキストなくても可

非構造化データの活用はなぜ難しいのか

 その一方で非構造化データを実際に分析し、ビジネス価値へとつなげている組織は構造化データのそれに比べるとはるかに少ない。これには様々な要因があると思われるが、本稿では2つのポイントに注目したい。

 1つ目のポイントは、分析以前に非構造化データの管理が難しいことだ。非構造化データは、表のレコードのようにインデックスや関連情報を直接付与することができない。そのため、ディレクトリ構造やファイルの命名規則を厳格にしなければ検索性を維持することが難しく、他の情報との紐付けもしにくい。この問題はデータの種類や量の増加にともなって顕在化し、分析したいデータにそもそも辿り着けない状況に陥ったり、他の非構造化データや構造化データとの組合せによる複合的な分析を困難にしたりする。

 2つ目のポイントは、非構造化データはとても多様であるためユースケースの立案が難しいことだ。非構造化データは業界・企業によって多種多様であり、直感的に理解しやすい画像やテキストだけでなく、たとえば製薬業界における遺伝子情報等のように極めて特殊なものも多い。ドメイン知識がないとそもそも何のデータかを解釈することすら難しい場合もあり、反対にドメイン知識だけあっても、それらの非構造化データを機械学習モデルが分析可能な形に整えることは難しい。本連載の第1回では「ドメイン知識×データ&AI知識」を併せ持った人材の必要性に言及しているが、非構造化データにおいては特にその必要性が高い。しかし現実にはそうした人材は不足しているため、自組織が持つ非構造化データからビジネス価値の高いユースケースを立案することは困難な状況だ。

 ここからは、まず1つ目のポイントに対してレイクハウスを活用したソリューションを述べた後、2つ目のポイントへの示唆として実際の組織における非構造化データの活用事例を紹介する。

次のページ
レイクハウスで非構造データを管理する

この記事は参考になりましたか?

  • Facebook
  • X
  • Pocket
  • note
Databricksと見る、データ×AIの世界連載記事一覧

もっと読む

この記事の著者

阿部 直矢(アベ ナオヤ)

東京理科大学を卒業後、通信キャリアへ入社。その後、アカマイ・テクノロジーズでWebアプリケーションのパフォーマンス向上やセキュリティ対策等の提案活動に従事。2022年からDatabricksに参画。ソリューション・アーキテクトとして、主に通信業界のお客様へレイクハウスを活用したデータ基盤、データ分析...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この記事は参考になりましたか?

この記事をシェア

EnterpriseZine(エンタープライズジン)
https://enterprisezine.jp/article/detail/17572 2023/04/20 08:00

Job Board

AD

おすすめ

アクセスランキング

アクセスランキング

イベント

EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング