Azure SQL Data WarehouseでDBAなしでもデータ分析環境を実現
ゲオでは、2014年6月頃からクラウド化の検討を開始した。まずはAmazon Web ServicesのAmazon Redshiftが移行先候補に挙がった。検証した結果、Amazon Redshiftでも必要な性能が出ることが確認できた。ところが1つ問題があった。基幹システムのデータテーブル名・カラム名はすべて日本語で定義されており、分析環境においてもデータを直感的に把握しやすいので日本語のまま利用していた。しかし、Amazon Redshiftは、テーブル名などがマルチバイト文字に対応していなかったのだ。
数多くのデータ活用案件を手がける株式会社ブレインパッドで、ソリューション開発統括部長を務める安良岡史行氏も、マルチバイト文字の対応が必要になるケースはあると言う。
「SQL Serverなどを活用してアドホック分析を行う環境を構築する際には、カラム名などを日本語で定義できるかは重要な要件となる企業がたくさんあります。これができることが、分析の裾野を広げます」(安良岡氏)
ゲオでは2014年12月までに一通りの検証を終了するが、Amazon Redshiftの採用は一旦保留となる。その後2015年4月にMicrosoft Azure SQL Data Warehouseが提供されるとの情報をつかみ、それが新たな候補として浮上。2016年2月にプレビュー版が利用できるようになり、検証を行いAzure SQL Data Warehouseも性能要件は満たせることが確認される。とはいえこれもまた、その段階ではテーブル名などのマルチバイト文字サポートがなかった。
ところが2016年6月になり、Azure SQL Data Warehouseでマルチバイト文字の対応が行われることになった[1]。その時点でゲオが必要だった16テラバイトのデータ容量でコスト試算を行い、かなり安価になることも分かったため、Azure SQL Data Warehouseの採用は決定された。
当初、Oracle Exadataからの移行に際し、ゲオにはOracle Databaseのエンジニアしかいなかったこともあり苦労することもあった。特にAzure SQL Data Warehouseは、データと処理機能を複数のノードに分割する超並列処理分散データベース構成となっており、それに最適化するようテーブル設計などをやり直す必要があった。「移行先のベストを知っていた訳ではないので、ここには時間がかかりました」(吉村氏)。
現在は全国の1,800の店舗と、本部の1,000ユーザーと合わせ3,000ユーザーほどがBIサイトを利用している。吉村氏は当初、クラウドに移行すれば処理レスポンスは遅くなるだろうと予測していた。とはいえネットワーク帯域を十分に確保し、分析目的に応じたデータマートを置くなどの工夫で検索レスポンスは満足いくものが得られている。「人により使い方は違うと思いますが、それぞれの人が業務の中で達成したいことに対し、必要な情報をタイムリーに取り出せる状況になっていると思います」と吉村氏は言う。
ゲオではオンプレミスからクラウドに移行したことで、DBAのような専門技術者がいなくても十分にデータ分析環境が運用できている。「クラウドなのでビル定期メンテナンスの停電などの影響も一切受けません。オンプレミスで必要だった運用の手間がなくなったのは、大きなメリットです」(吉村氏)
またデータベースの容量も、増減について細かく気にする必要がなくなった。コストが上がるので利用上限は気にしなければならないが、容量が足りなくなりエラーになることがなくなったのも、クラウドならではのメリットだと吉村氏は語る。
ゲオの分析環境については、さらなるパフォーマンスチューニングとより高度なデータ分析をしていく予定だと言う。
「今後は現場にプッシュで有益な情報を提供することも考えています。たとえばリユースビジネスで商品を認識し、適正な買い取り価格を予測して査定現場に通知することも考えています。これには、機械学習やコグニティブサービスが活用できるのではと考えています」(吉村氏)
注
[1]: 2016年11月に、Amazon Redshiftもマルチバイト文字対応した。