高度に進化したスクレイパーの実態
悪性のスクレイパーの中でも、プレミア商品やチケットなどの在庫確認、買い占めを狙うボットにおいては、サイト側が用意したボット対策を回避するために、より進化した高度な手法が用いられるようになってきている。
2024年に行われたAkamaiの最新調査では、世界中のWebトラフィックのうち42.1%がボットのアクセスによって発生し、そのうち65.3%が、一般的に悪性と考えられるボットに起因したものだと判明した。また、悪性ボットのうち37%が、(比較的検知と影響の緩和が容易な)スクリプトを使用して簡単に作られたボットであり、残りの63.1%が、標準的なボット検知を回避しようとする高度な技術が使用されたものだった。加えて、高度な技術を用いるボットのうち、47.6%が高度なスクリプトを使用したボットで、15.5%はヘッドレスブラウザを用いたボットだった。
近年、Chromeなどの主要なWebブラウザには、コマンドラインやスクリプトからブラウザの持つ機能を操れる「ヘッドレスモード」が備わっている。この機能と、「Selenium」などといったブラウザ操作の自動化ツールを組み合わせたヘッドレスブラウザが、ウェブスクレイピングによく用いられるようになってきた。
このようなスクレイパーは、サイト側からは一般的なWebブラウザを使っているように見える。そのため、これまでの一般的なボット検知ツールにおいて判別に使われていた、ブラウザやデバイスの特性を示すフィンガープリントや、クライアントサイドJavaScriptを用いた検知の仕組みだけでは、ボットか人間かの判定が難しくなってきている。これに加え、対象のサイトに合わせてボットの検知を巧妙に回避するための様々なプログラム上の工夫や調整が施され、より高度で洗練されたものに進化している。
こうしたスクレイパーの進化に対して、ボットによる被害を抑えたいサイト側でも、対策のさらなる高度化が求められている。
進化したスクレイパーへの対抗手段
このようなスクレイパーは、不正ログインボット対策用のソリューションでも検知が可能だ。これには、ログインページなどでブラウザに読み込まれるJavaScriptを用いて、ユーザーのマウス操作の軌跡などのデータから、ボットと人間を判定する手法が用いられている。
しかしスクレイパーの高度化に伴って、検知ポイントを増やしたり、誤検知を避けるための調整を加えたりといった、綿密なチューニングが必要なケースが増えてきている。また、ログインを伴わない(またはログイン前の)スクレイピングには、判定結果が甘くなるという課題もあった。
そこで、課題を克服し高度なスクレイパーを検知するために、専用に設計されたソリューションが新たに開発された。これまでのボット対策で得られたノウハウをもとに、HTTP, TLSなどプロトコルレベルでのフィンガープリントの評価や、ヘッドレスブラウザの検出能力の強化が図られている。また、ユーザーとサイトとのやりとりや、ページ遷移などのサイト上での一連のふるまいを、機械学習(ML)と多元的な統計分析手法を用いて、ユーザーのセッション中に繰り返し評価する仕組みになっている。これにより、従来のボット対策を回避しようとする高度なスクレイパーに対し、特有の動きを高精度に捉えることを可能にしている。一連の処理はバックグラウンドで行われるため、正規のユーザーに余計な操作やパフォーマンス上のストレスを与えることもない。
ただ、この仕組みでは、ユーザーのセッション中に得られる膨大なシグナルを、AIに繰り返し入力して評価する必要性が生じる。そのため、従来のようなCDN(コンテンツデリバリーネットワーク)のエッジサーバーとバックエンドのクラウドサーバーとの組み合わせでは、処理負荷とネットワーク上の距離遅延が課題となった。
そこで、ユーザートラフィックを受けるエッジ近傍で高度な分散コンピューティングを実現する「エッジネイティブアプリケーション」のアーキテクチャを採用した。高度なAIとアナリティクスのワークロードを世界中に分散配置することで、厳しいパフォーマンス要件の克服に成功している。その結果、高度なスクレイパーがサイトにアクセスしている最中にタイムリーに分析を行い、狙ったボットトラフィックの影響を緩和する措置を講じることが可能となった。
ディープラーニングなどの高度なAI技術を必要とする次世代のセキュリティ技術には、この例のような最新の分散型クラウドを用いた技術的なブレイクスルーも欠かせない要素となっていくだろう。