【JSAI2024】「J-NER:大規模言語モデルのための固有表現認識における拡張固有表現階層を考慮したベンチマークデータセット」についてポスター発表しました

はじめに

こんにちは、ARISE analyticsの渋谷と澁谷です。
弊社では、自己研鑽の一環として一部有志が研究活動を行っており、今年は人工知能学会 全国大会(JSAI2024)でポスター発表を行いました。本記事では私たちが行った「大規模言語モデルのための豊富な 固有表現を含んだ固有表現認識用データセットの構築」に関する研究内容を紹介します。

・データセット
sergicalsix/Japanese_NER_Data_Hub · Datasets at Hugging Face

背景

固有表現認識とは、テキストから特定のカテゴリー(ex.人名、国名)を識別・分類するタスクであり、言語モデルの文脈理解などに役立ちます。

以下は、「佐藤さんは日本に住んでいます。」という文章から「佐藤」を人名、「日本」を国名と識別する例です。ここでいう人名や国名などのカテゴリーを固有表現といいます。

上記の固有表現認識において、データセットの観点から2点課題がありました。

  • 日本語かつ広く使われているデータセットは、固有表現の種類が少ない。
  • 大規模言語モデル用の固有表現認識のデータセットが整備されていない。

そこで本研究の目的は、大規模言語モデルのための豊富な固有表現を含んだ固有表現認識用のデータセットの構築としています。

方法

先行研究である拡張固有表現階層を参考に157種類の固有表現を含んだデータセットであるJ-NERを作成しました。

J-NERは大規模言語モデルのための固有表現認識データセットであるため、取り扱う固有表現は大規模言語モデルの学習データに含まれていることが要求されます。

したがってJ-NERの固有表現はWikipediaにページが存在する単語のみとしました。

また入力分に指定した固有表現ラベルが存在している場合を正例、存在していない場合を負例としました。

J-NERでは各固有表現に対して正例と負例を5個ずつ存在するため、J-NERのデータ数は1570です。

評価

評価では、入力文に指定した種類の固有表現がある場合には、「その固有表現」を抽出して出力し、指定した種類の固有表現がない場合には 「なし」と出力するタスクを用いました。

(1)モデル間で評価指標の値にバラつきが見られたこと、(2)gemini-proやgpt-3.5は7B、13Bのモデルに比べてスコアが高いという他タスクとおおむね同じ結果が出ていること、(3)モデルの種類が同等の場合はパラメータサイズが大きいモデルの方がほぼ全てのスコアが大きいことから、J-NERはデータセットとして有効であることが示唆されました。

考察

正解率が高い2つのモデル(gpt-3.5-turbo-0125、gemini-pro)に おいて、誤答率が5割以上の固有表現ラベルについて調べた結果、誤答したラベルが異なっていることがわかりました。

上記より固有表現認識において、モデル間で異なる弱点を持っている可能性を示唆されました。これらの差異は学習データセットや学習方法によって生じた可能性が考えられます。

またモデルの正答率が高かった固有表現ラベル/低かった固有表現ラベルに関する他タスクとの相関分析などを実施すると、新たな示唆が生まれるかもしれません。

おわりに

以上、私たちが取り組んだ研究内容の紹介でした。
生成AI/LLMの注目度が高いということもあり、今回のポスター発表ではたくさんの方々と議論を行うことができ、とてもいい機会となりました。