「doccano」は、自然言語処理・機械学習に使われるラベル付きデータ(教師データ)の作成を容易にするツール(アノテーションツール)。テキスト分類、系列ラベリング、系列変換という3つの基本的なタスクで使用するデータを作成することができる。セットアップが容易であり、英語以外に日本語にも対応している。
機械学習・自然言語処理の研究・開発を行うためには教師データが欠かせない。教師データとは、問題と解答をセットにしたデータであり、機械学習モデルに与えることで正しい答えを学習させることができる。
しかし、教師データの作成には非常に手間がかかるという課題がある。TISが公開した機械学習で感情解析を行うためのデータセット「chABSA-dataset」においても、作成には多くの手間がかかった。そのため、その経験を元に今回「doccano」を開発しOSSとして公開したという。
■「doccano」の活用例
「doccano」を利用することで、作成に特に手間がかかる系列ラベリングのデータを簡単に作成できる。テキスト分類や系列変換は、Excelなどの帳票ツールでも作成が可能だが、系列ラベリングでは文字/単語単位でデータを作る必要があるため、帳票ツールのみでは作成が困難だ。系列ラベリングに「doccano」を活用すれば、対象の単語を選択し、ボタン、またはショートカットキーを押すだけでラベル付けが可能になる。
これまで手間だった自然言語処理・機械学習向けのデータ作成を容易にすることで、機械学習・自然言語処理を適用できる業務を拡大できるという。