「AIで使える」にはデータレイクがあればいい?
谷川:本当に「AIで使える=AIレディ」にするにはどうするかに話を移していきます。企業のデータをAIレディにするには、改めてデータウェアハウスを整備した方がいいんじゃないかと思うんですが。
平井:データウエアハウスでは分析モデルが先に決まります。データの前処理まではデータウェアハウスもAIもほぼ一緒です。しかしインプリするタイミングが違います。AIだとデータサイエンティストやそれに近い人が試行錯誤しながらデータを作ります。この違いは大きく、データウェアハウスではないです。使えるデータがあっても、それだけではAIレディには十分ではないです。
谷川:ビジネス指標に対して何らかのAIを使うなら?
平井:経営的、経営判断的なものになれば、そうですね。
谷川:データレイクと呼ばれていたものがAIや機械学習のデータのソースになるでしょうか?
平井:私の印象だとデータレイクとは、もともとデータウェアハウスとの対比で出てきたものです。「データは倉庫よりも、湖に貯めておけ」と。とりあえず貯めておく貯水池です。またデータレイクは当初NoSQLのキーバリュー型データをためるものでしたが、最近ではファイルシステムのようにとらえられてきているという気がします。
谷川:データレイクを作っていてもAIレディにはならない?
平井:たぶん。今のデータレイクだと何の前処理もしていません。貯めてるだけです。
谷川:IBMの主張だとデータレイクはどうですか?
野間:一般的なデータレイクは「いろんな本を何でも置いておけるような大きな倉庫、レスポンスの良い倉庫を用意しました」で止まっています。IBMの考えは「自分に必要なデータをすぐに使えるように、図書館みたいに整理整頓されたものを作っていきましょう」です。これがIBMが考えるデータレイクのあるべき姿です。
谷川:それがエンタープライズデータカタログとなりますか?
野間:はい、そうなります。
谷川:具体的には何をするものでしょうか。
野間:例えば複数のデータソースがあったとして、元のソースは何か把握できるようにします。リレーショナルデータベースなのか、その表はどのような定義なのか、物理的な部分をカタログ化していくことができます。加えて、データを社内の業務で使う共通言語で紐付けすることができます。例えば工場Aで使う「プロダクトID」と、工場Bで使う「プロダクトID」は同じ用語でも意味合いが違うことがあります。そうした用語の定義や紐付けを行います。もう1つ、データの来歴管理もできます。例えば「この分析に使っているデータはどのデータソースから来て、このようなバッチ集計を経ていた」といった履歴が分かります。こうしてデータを利用するユーザーにわかりやすいデータリソースとして定義します。
谷川:先ほどの三澤さんの講演では自動的にメタタグをつけるとかおっしゃっていたような。手でやるならすごい手間だけど、楽になるのでしょうか。
野間:データを検索していく部分では自動化できます。しかし企業内の用語統一となると、そこは人が頑張らないといけません。ただし一度カタログを作っておけば、次に他の部門とコラボレーションする時に共通言語で進められるので、いろんな人が同じデータを参照して分析できるようになります。