「RAG」に取り組む先進企業が直面している問題とは
コロナ禍で、ドキュメントのデジタル化はかなり進んだ。以前は紙のワークフローが中心で、捺印のためだけに出社することもあった。官民問わずに「これではまずい」と、デジタル化の機運が高まったことは記憶に新しい。デジタル化で効率的な情報管理ができるように見える一方、日常業務をこなす中では未だに“情報過多”に悩まされているのではないか。
日々のビジネス活動にともない情報は増える一方だ。数多のデジタル情報にアクセスできることは便利な反面、膨大なドキュメントを読み、必要な情報を探すことに多くの時間を奪われてしまっている。これは多くの人が体感していることだろう。だからこそ、負担を軽減するための手段として「生成AI」に期待が集まる。ある調査によれば、すべてのデータに占める構造化データの割合が2割であるのに対し、ドキュメントを含む非構造化データが8割と、圧倒的多数を占めるとも言われる。デジタル化が進んでも、非構造化データを活用できる準備はできていない。
「生成AIに特有の懸念として、『ハルシネーション』と『セキュリティ』の2つを口にしない企業はない」と話すのは、アドビの西山正一氏(デジタルメディア事業統括本部 常務執行役員 兼 CDO)。企業における生成AIの活用が進まない要因に、この2つがあると指摘する。特に無料利用できるコンシューマー向け生成AIサービスのほとんどで、これらの懸念があるため「ビジネス利用はできない」と判断せざるを得ない企業も少なくないだろう。しかし、一部には、独自で懸念を払拭しようとする企業も出てきた。その際、好まれるアプローチが「RAG」である。
RAGとは、既存のLLMに新しいデータを与え、追加学習で出力精度を高める手法だ。「良いアプローチだが、コストの問題が大きくなってきた」と西山氏。自社のビジネス文脈に即した結果を返すためには、常に新しいデータを与える“追加学習”を続けなければならない。たとえば、モデルの参照範囲を過去5年分と決めたとき、昨日までは対象だったデータでも今日は対象外となるデータも出てくる。そこに新たなデータが日々加わるとき、毎日データを入れ替えて追加学習を続けるのかと、疑問が生じても無理はない。
さらに、入出力の制御も必要になる。LLMに社内文書をデータとして与える場合、なんでも読ませるわけにはいかない。ドキュメントごとに機密レベルの見直し、分類が必須となる。また、学習用データとして与えても問題ない情報が明確になっても、「管理職は閲覧できても、一般社員には開示しない」というように、出力結果へのアクセス制御も欠かせない。このためのコストとコントロールの問題を考慮したとき、RAGを100%のソリューションとして肯定することは難しいだろう。