生成AIで多種多様な「社内データ」を活用するには?データサイエンティストの手を煩わせない手法を解説
前編:AI活用を前提としたデータの運用〜データパイプラインとDataOps〜

本記事では、昨今の生成AIや大規模言語モデル(LLM)の進化と普及が進む現状を踏まえ、自社でのAI活用を一歩進めるための運用視点とそのインフラを解説します。企業で生成AIの活用や投資が増加することは様々な調査で予測されていますが、自社のユースケースに沿った活用を考える場合、社内のデータをどのように運用するかが重要です。活用したいデータを5W1Hの観点で整理してみると、様々な性質を持っていることが分かるでしょう。そうした多様なデータの効率的な運用を手助けするのが、データパイプラインという概念やDataOpsという手法です。前編では、データパイプラインやDataOpsが企業のAI活用をどのように加速させるかについて紹介します。
あらゆる人がAI利用できる今、次のステップ
2022年11月に「ChatGPT」が公開されてから、生成AIや大規模言語モデル(LLM)に関する話題は盛り上がりを見せています。2024年からは、NTTやNECによる生成AIサービスの提供や、ソフトバンクによる日本最大規模の学習量を持つ生成AIの完成などが予定されており、この盛り上がりはまだまだ続きそうです。
生成AIが登場する以前は、システムを作る側にも使う側にも特別な知識が必要とされ、一般に浸透しているとは言いがたい状況でした。現在では状況は一変し、特別な知識を必要とせずに、文字通りあらゆる人がAIを利用できるようになりました。そうした状況は調査結果にも表れており、ネットアップが2023年10月に発表した「データ複雑性レポート2023」では、約4分の3(72%)の企業が既に何らかの形で生成AIを活用していると回答をしています。

Q:あなたの組織ではAIをどのように活用していますか?
[クリックすると拡大します]
また、5社に3社以上(63%)がAIへの投資のために新たな予算を追加しており、ほぼ5社に2社(37%)が既存の取り組みから予算を再配分していると答えています。

(左)Q:AIへの投資予算の増額はどこから?
(右)Q:AIイニシアチブを考慮した場合、既存のストレージベンダーをAIに利用すると思いますか、それとも新たなベンダーが必要になると思いますか?
[クリックすると拡大します]
このように様々な企業で生成AIの検討や活用が進むことで、自社のビジネスに活用する上で以下の3つのパターンがあることも分かってきました。
- 独自モデルのスクラッチ開発:GPT-3.5、GPT-4のような大規模モデルを自社で独自に開発する活用方法。大量の高品質のデータ、コンピューティングリソースが必要となる
- 既存モデルのファインチューニング:公開されている既存モデルに特定のドメイン知識を獲得させることで、自社のユースケースに沿ったモデルに微調整する活用方法。スクラッチ開発よりも必要なデータやコンピューティングリソースは少ない
- 検索拡張生成(RAG)による自社データの参照:ベクトル化した自社データを既存モデルと組み合わせる活用方法。モデルの開発やファインチューニングは不要だが、自社データの収集やベクトルデータベースの構築などが必要となる
いずれの活用パターンでもAI活用を進める上で重要となるのが、AIで活用するデータとモデルをどのように運用していくかという観点です。そもそも、既存モデルも大量なデータを学習することで作られています。既存モデルだけでは実現できない自社のユースケースに沿ったAI活用を行う場合は自社のデータを活用する必要があるためです。
次頁からは、生成AIやLLMを念頭に一歩踏み込んだ活用をする際に重要となる運用観点での考え方とそのインフラについて解説します。
この記事は参考になりましたか?
- この記事の著者
-
脇 昌弘(ワキ マサヒロ)
ネットアップ合同会社 APAC AI事業開発リード/国内DXセンター長/Partner Manager - Tech Allianceアジア太平洋地域でのAI事業開発をリード。国内においてはDXセンター長として学術系、バイオ戦略系、映像系等の業界活動を推進ながらNVIDIA, Microsoft, ...
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です
-
井上 耕平(イノウエ コウヘイ)
ネットアップ合同会社 ソリューションアーキテクト部 ソリューションアーキテクト国内メーカーにて主に製造業向けのIoTの活用ソリューション開発に10年ほど従事。データの収集からAIやBIによるデータの利活用の領域で提案からデリバリーまで幅広く活動。NetAppにおいてはソリューションアーキテクトとして...
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です
この記事は参考になりましたか?
この記事をシェア