テキスト分類タスク 事前学習モデルの構築と公開

ARISE analyticsの取り組みの一つに自然言語処理(NLP)技術を用いたテキスト分析があります。例えば、自由記述のアンケート(約10万件/月)を100以上のカテゴリに分類し分析するという案件が該当します。

NLPの分野では、2018年から転移学習の活用が進み、様々なNLPタスクにおいて精度の向上が報告されました。転移学習はあるデータセットで事前学習させたモデルを別のデータセットに転用する手法で、特に教師データ量が少ない状況で、精度向上を図るために用いられます。

ARISE analyticsが取り組む案件においても、テキスト用の教師データが大量に得られない状況が多いため、転移学習の効果を検証することになりました。しかし、日本語を扱える事前学習モデルはほとんど公開されていませんでした。

そこで、ARISE analyticsで日本語専用の事前学習モデルを構築し、転移学習の効果を確かめたうえで、モデルを公開することとしました。

詳細はこちらをご覧ください。