はじめに
こんにちは、ARISE analyticsの秋元・太田・奥井です。
2024年6月に浜松市で行われた人工知能学会 全国大会(JSAI2024)でポスター発表を行いました。 本記事は、我々が発表した研究内容を報告します。
ポスターはこちら↓
背景
研究開発にあたって、特定の分野の研究内容や技術の潮流を把握するため、広く論文をサーベイすることはよくあると思います。 重要な論文・質の高い論文から重点的に読み進めたいところですが、どの論文を読むか判断するにあたって、引用数などの論文を評価する指標を参考にするでしょう。 しかし、学術論文の評価指標としては主に引用数に基づいた様々な指標が提案されている一方で、引用数が学術論文の質を正しく反映しているかどうかという点については議論の余地があります。 そこで、我々は研究活動において不可欠である論文の質を定量的に図る指標について、以下2点の内容の研究を行いました。
1.論文の質を測るにあたって引用数に基づいた指標の有用性を調査
2.(上記調査結果に基づき)定量的な評価を補完するための新たな評価指標の可能性を検討 これら二つの観点から論文の質を適切に評価する指標を見つけ出すことで、**日々の技術サーベイ・キャッチアップ業務を効率化しよう!**というのが今回の研究の主目的です。
データセットの構築
論文の質を定量的に測る指標を検討するにあたっては、そもそも質の高い論文は何かを明確に定義する必要があります。「質」と言っても捉え方は千差万別で、新規性(=特定領域において既存手法と大きく異なる手法を導入)を重視するのか、汎用性(特定の課題に限らず様々な課題で利用可能な手法)を重視するのか、目的によって異なるかと思います。今回は「研究領域においてブレイクスルーを起こした論文」を重視したく、多少決めではあるものの、「トップカンファレンスにおいて賞を受賞した論文」を「質の高い論文」と定義しています。端的に言うと、国際カンファレンスにおいて採択されており、なおかつ著名な審査員が数多な論文のなかから最も優れている論文として選んでいるのであれば、それすなわち質の高い論文であろう、という仮説です。 現在社内でもLLMの活用が増えていることを踏まえ、今回は自然言語処理系のカンファレンスに着目しました。4つのトップカンファレンスから2013年以降採択された論文約3万本のデータセット(論文名や著者名、ならびに後続の指標を計算するための引用情報など)をSemantic ScholarのAPIを用いて構築しています。このうち受賞した論文が約200本あり、これらを今回評価に使う正例として扱っています。
カンファレンス名 |
対象年 |
総論文数 |
受賞論文数 |
---|---|---|---|
ACL |
2013 – 2023 |
11,540 |
119 |
EMNLP |
2013 – 2023 |
11,731 |
53 |
NAACL |
2013, 2015, 2016, 2018, 2019, 2021, 2022 |
4,144 |
22 |
COLING |
2014, 2016, 2018, 2020, 2022 |
3,450 |
26 |
既存指標の調査
既存指標を評価するにあたっては、前述のデータセットに対して各指標を計算し、受賞有無との相関・因果関係を調査しました。既存指標が論文の質を測る定量評価手法として優れているのであれば、受賞論文に対する指標値が高くなるのではないか、という仮説の検証に該当します。既存指標は大きく分けて3つのカテゴリに分類ができます。
-
論文そのものに関連する指標(例:引用数)
-
著者に関連する指標(例:$h$-index)
-
掲載紙に関連する指標(例:JIF) 今回は2番の著者に関連する計13個の指標について調査をしています。
指標名 |
定義 |
---|---|
総論文数 |
著者の発表した総論文数 |
総被引用数 |
著者の論文の引用数の総和 |
h-index |
引用数がh以上であるものが、h以上あることを満たす最大値 |
h2-index |
引用数がh^2以上であるものが、h以上あることを満たす最大値 |
g-index |
引用数上位g番目までの論文の引用数の総和がgの2乗以上となる最大値 |
hg-index |
h-indexとg-indexの積の平方根 |
m-index |
h-index以上引用のある論文の引用数中央値 |
a-index |
h-index以上引用のある論文の引用数平均値 |
r-index |
h-index以上引用のある論文の合計引用数の平方根 |
i10-index |
引用数10本以上の論文数 |
hw-index |
[Egghe08]らの定義における主要論文の合計引用数の平方根 |
ar-index |
h-index以上引用のある論文を発表からの経過年数で割った値の総和の平方根 |
m-quotient |
h-indexと著者の活動期間(最初の論文発表時からの経過年数)の商 |
また、調査手法は各指標ならびに著者の受賞有無を比較した相関係数(図1)と、受賞有無に対する各指標のSHAP値(図2)を利用しています。
これらの分析からわかった重要な点としては、相関・因果共に ar-index と mq-quiotientの、時間軸を考慮した指標が最も受賞有無との関連性が高い点です。これら二つの指標は純粋な引用関係だけでなく、論文が発表されてどの程度期間が経ったのか($ar$-index)や著者の活動期間($m$-quotient)を内包しています。 $AR = \sqrt{\sum_{j=1}^h \frac{cit_j}{a_j}}$ ここではh-index以上引用された論文を対象にしており、引用数 citを論文投稿からの経過年数$a$で割ったものの総和を$ar$-indexと定義しています。また m-quotientは$M = h / n$と$h$-indexを著者の活動期間(初投稿論文からの経過年数)で割ったものとなっています。 つまり、同じ引用数を持つ論文であってもより短期間で引用数が多かった論文の方が評価値が高くなる動的な性質を持っており、これは直感的にも「質の高い論文」に対して抱くイメージに合っています。
提案手法
前述の既存指標の調査からも論文の定量的な質を測るにあたっては、論文の引用数のみに基づくのは不十分であることがわかります。そこで今回我々は論文の影響度を測るにあたって、グラフニューラルネットワーク(GNN)を活用することで引用ネットワークの情報と論文の内容を考慮した新しい指標を提案しました。 GNNは引用関係のようなグラフ構造のデータを用いるのに適した手法であり、SNS分析やレコメンドエンジンなど幅広く利用されており、先行研究においても引用レコメンドモデルの構築等に活用されています[Jeong20]。 今回はGNNを活用することで、引用ネットワークにおける特定の論文を「含む」場合と「含まない」場合の差分を計算し、その論文の影響度を算出しています(図3)。
ここでは「仮にこの論文が発表されなかったら、未来の引用情報はどのように変わるのだろうか」というような「What if」を定量的に測っているかたちです。 そのため上記を実現するにあたっては過去数年の引用グラフから次の年のグラフを予測するモデルを構築しました(図4)。具体的にはGCNを用いて入力のグラフをベクトル化し、GRUを用いて時系列の変化を学習することで未来のグラフのエッジを予測しています。引用グラフにおいては各論文をノード・引用関係をエッジとし、さらに論文のタイトルと要約をベクトル化しノードの特徴量として用いることで引用関係だけでなく論文内容についても考慮しました。 このようなモデルを活用することで特定論文を含む引用グラフを入力したケースと、含まない入力をしたケースの出力値を比較することができます。
本来であれば我々の新手法を既存指標の調査時と同様の手段を用いて評価をしたいところですが、今回は時間の都合上、先行研究で活用されているInfluential Citation Countと呼ばれる類似指標との比較にとどめています。検証した結果、Influence Citation Countとの正の相関を確認できたため、本指標が有効であることが示唆されました(図5)。
まとめと今後の展望
社内における「業務におけるサーベイを快適にしたい!」という思いから始まった本研究ですが、論文の定量評価とは奥が深く、難しい問題であることが本研究を通じてわかりました。一方で、興味を持ってポスター発表に来てくださる方も多く、論文の質を定量的に測る指標への関心が高いことを実感でき、取り組んでよかったと思いました。発表へのたくさんの質問やコメントもありがとうございました。 今回は評価指標にスコープを絞ったものの最終的なゴールは社内でのツールとしての活用であるため、今後は新指標の計算コストの削減を始めとした実活用に向けた改善とパイプライン構築について開発を進めていきたいと考えています。