質問しただけで、AIが“最適なSQL”を生成する時代に
TiDBは、NoSQLデータベースとリレーショナルデータベース、双方の特長を持つ分散型データベースだ。昨年開催されたデータベース技術カンファレンス「db tech showcase 2022 Tokyo」の来場者アンケートでは、「今後、利用してみたいデータベース製品」の1位にも選ばれている。
同製品はMySQLと互換性があり、ACIDトランザクションをサポート。リレーショナルデータベースと同様のデータ整合性と安定性を提供するNewSQLデータベースだ。水平方向に大きな拡張性を有しており、大規模なデータセットを高速に処理できる。行型の「TiKV」だけでなくカラム型のストレージエンジンである「TiFlash」もあり、OLTPとOLAPを1つのデータベースで両立するHTAP(Hybrid Transaction/Analytical Processing)に対応している。
この大規模データを高速に処理できるTiDBと、自然言語のさまざまな質問にスムーズな回答をすることで注目を集める「ChatGPT」技術を組み合わせ、データベースの検索領域でも新たな価値が提供できるとリュー氏は言う。
OpenAIのChatGPTで使われている自然言語処理モデル「GPT3」と、TiDBの技術を組み合わせた「Chat2Query」は、自然言語で問い合わせられた質問に応じた複雑なSQLクエリを瞬時に生成。TiDBのクラウドサービスであるTiDB Cloudに組み込まれており、ブラウザ上で自然言語による質問を投げかければ、その質問内容を理解しSQLクエリを自動で生成してくれる。
PingCAPでは、このChat2Queryを活用するデモをGitHubで公開している。
GitHubとリアルタイムに同期することで60億を超えるイベント情報をTiDBの1つのテーブルに格納。そこから質問に適した情報を素早く得られるようにしている。たとえば、「PingCAPとTiDBのトレンドは?」と質問すると、PingCAPのGitHubのURLを返すだけでなく、この質問の意図はスターを獲得している数が知りたいのかなどを、Chat2Queryの「思考(シンキング)フレームワーク」に基づいて処理。思考フレームワークで質問の意味を解釈し、最も適切と考えられる質問文に変換すると、それをデータベースに対するSQLとして生成する。実際に生成されたSQLを用いてデータを取得して、その結果をグラフでも表示するのだ。