Googleの成り立ち、「データ」「機械学習」活用の歴史を振り返る
ヘネシー氏は「データ活用」がビジネスに対し、どのような影響を与えているかを理解するために、Googleや親会社であるAlphabetがどのようにして“データに焦点をあてた”企業になったのか。また、機械学習、ChatGPTで話題となった大規模言語モデル(LLM:Large Language Models)などの技術革新についても解説するとして創業当時を振り返った。
World Wide Web(WWW:ワールド・ワイド・ウェブ)が爆発的に広がった1990年代、Googleはまだ存在していなかった。もちろん、Webページの検索サービスは存在していたものの、ページに含まれる他ページへのリンク情報は活用されていなかったという。
1998年、スタンフォード大学に在学中のラリー・ペイジ氏とセルゲイ・ブリン氏はリンクの重要性に気づき、ページランク(Webページのランク付け)に関する論文を発表。これがGoogle検索の特許アルゴリズムのベースとなっている。他のWebページからリンクされている(参照されている)数が多いWebページは重要であるという洞察だ。
ページランクによってGoogleは、検索エンジンとして優れたものとなった。一方で、Webサイト運営者はGoogle検索結果の上位表示を目指し、アルゴリズムを研究。アルゴリズムの隙を突いて有用でないサイトを上位に表示させるテクニックなどが登場することに。そこでGoogleとしてはサービス品質を高めるため、継続的なアルゴリズム改善に取り組まなければならず、データに基づく発見と改善活動が展開されていったのだ。
以来、20数年の間にWWWは飛躍的に成長し、Google検索のアルゴリズムも変化していった。ヘネシー氏は「8~9年前、私たちはGoogle検索のコアテクノロジーとして機械学習を使用しました。機械学習により、検索プロセスにより多くの要素を折り込むことができたのです」と語り、その一例として検索広告を例に説明する。
たとえば、Googleで検索をすると検索結果だけでなく、広告も表示される。広告主はキーワードごとに設定された広告料金で入札。ユーザーが広告を表示しただけでは料金が発生せず、広告をクリックすることによって料金が発生する仕組みだ。そのため、たとえ入札額が高くてもクリックされなければ収益にはならないため、クリックする確率を推定する必要がある。そこで機械学習によるビッグデータ解析を実施してみると、品質の低い広告がユーザーを混乱させ、品質が高い広告のクリック率が高くなることがわかったという。ヘネシー氏は「私たちが予想していなかった教訓をエンジニアが発見したのです」と述べる。
また、Googleは電子メールサービス「Gmail」も提供している。電子メールについては多くの人々がスパム(迷惑メール)に悩まされており、同社では15年ほど前、それを防ぐためのスパムフィルターの導入を計画。どのメールがスパムで、どのメールがそうでないかをうまく検出するため「サポート・ベクター・マシン」という技術を開発した。大量のメッセージを取り込んで、スパム学習させる仕組みだ。このアルゴリズムでは、複雑な機械学習も利用されており、メール本文だけでなく宛先や履歴、返信先などさまざまな要素を考慮し、スパムかどうかを判別。現在では完全なフィルタリングが実現できていると自信をみせた。
スパム検出、レコメンデーションに機械学習を応用
ヘネシー氏は、機械学習がもたらした変革の1つとして「人工ニューラルネットワーク」を挙げた。これは、人間の脳の中で複雑な方法で接続される神経を模したものだ。たとえば、スパムフィルターの場合、メッセージの送信元や宛先、返信先、件名、本文を入力元として、最終的にスパムなのか、プロモーションなのか、フィッシングなのか、本当に重要なものかどうかを出力する。入力と出力の間には「隠れ層(中間層)」が複数あり、そこで情報の重み付けをして確率を高めていく。
一方、ニューラルネットワークにおける課題は、重み付けとネットワークの学習が必要なことだ。人手によって分類されたデータの集合値を用いて、出力結果を調整していかなければならない。ヘネシー氏は「人口ニューラルネットワークは、訓練データと比例する性能しかありません。賢い機械でもなく、常識や真実を見抜く力もありません。訓練データがゴミならば、予測結果もゴミになります。つまり、トレーニングセットが良くない場合には、うまく機能しないのです」と注意を促す。
そこで利用されている手法が「誤差逆伝播法(バックプロパゲーション)」と呼ばれるものだ。求める出力結果から遡って、トレーニングセットのすべての要素に対して正しい答えが得られるように重みを設定していく。ヘネシー氏は、この方法では大きな計算量・時間を必要とするが、うまく訓練できれば予測精度を高められるという。
続けてヘネシー氏は、機械学習が利用されている一例として、レコメンデーションシステムを紹介。ECサイトや動画配信サービスなどにおいて、ユーザーの活動履歴から、次に購入すべき商品や見るべき映画を推薦する仕組みだ。たとえば、Netflixでは大量の映像作品が配信されており、次に見るべきおすすめの作品を抽出するために大量の計算が必要となる。ワールドカップやオリンピックなど、イベント期間中は検索内容も大きく変化するため、時期に応じた素早い更新も必要になるという。