【論文読み会】International Conference on Learning Represantation (ICLR)2022

こんにちは。Marketing Solution Division, Marketing Transformation Unitの田中です。

今回は前回のNeurIPS 2021 論文読み会に引き続き、第2回の論文読み会として社内で行われた、International Conference on Learning Represantation (ICLR) 2022 論文読み会のまとめをお届けいたします。

この論文読み会を開催するにあたって、前回と同様に社内で論文読み会に参加したい人を募り、各々が気になる論文を読んで共有する形をとりました。本記事では、発表者5名が紹介した論文について執筆させていただきます。

BEiT: BERT Pre-Training of Image Transformers

紹介者: 田中卓磨

■概要

BEiTはViTとBERTを組み合わせた、画像処理における自己教師あり表現学習モデルです。

具体的には、まず画像を離散的なVisual Tokenに変換します。加えて、ViTと同様に画像をパッチに分解した後、BERTのMasked Language Modelのように画像の一部をランダムにマスクし、マスクされた画像パッチに対応するtokenを他のtokenから予測するタスクを学習することで画像の表現を獲得していきます。

実験では、画像分類とセマンティックセグメンテーションにおいて、他手法と比較してBEiTが優位な結果を示しました。

【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx from ARISE analytics
(URL)BEiT: BERT Pre-Training of Image Transformers | OpenReview

PiCO: Contrastive Label Disambiguation for Partial Label Learning

紹介者:近藤真暉

■概要

Partial Label Learning(PLL:部分ラベル学習)を実現するための手法です。

対照学習の代表的な手法であるMoCo (CVPR2020) をベースに、スタックされたMomentum Embeddingを流用するPositive Sample Selectionと移動平均法を用いてクラスの代表ベクトルを更新するPrototype-based Label Disambiguationを導入することでPLLの高精度化を実現しました。

PLLでは、画像キャプションや動画の字幕といった情報を教師情報として扱うことが可能です。今回のPiCOの貢献により、他タスクのアノテーション流用によるモデルの高精度化が期待できます。

【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx from ARISE analytics

(URL) PiCO: Contrastive Label Disambiguation for Partial Label Learning | OpenReview

Analytic-DPM: an Analytic Estimate of the Optimal Reverse Variance in Diffusion Probabilistic Models

紹介者:伊藤光祐

■概要

ノイズを逐次的に加工していくことでデータを生成することができるDiffusion Probablistic Model (DPM)へ簡単に組み込むことが可能な手法を提案しています。既存手法の性能を向上させつつ、20~80倍の高速化を達成することができるという結果を示した論文です。

上記の結果は以下の2つの工夫により達成されています。

・これまで固定パラメータとすることが一般的であったDPMの各ステップで推定される分布の分散を、モデルの出力から解析的に最適な数値を算出するようにした。
・学習したステップから重要な部分だけを、主に手作業で抽出して、ステップ数を減らすことが一般的であったのを、動的計画法を用いたアルゴリズムで性能劣化を最小限に最適なステップを抽出することで高速化した。

今回の紹介スライドではこれらの工夫について解説を行っています。

【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in Diffusion Probabilistic Models.pptx from ARISE analytics

(URL)Analytic-DPM: an Analytic Estimate of the Optimal Reverse Variance in Diffusion Probabilistic Models | OpenReview

Pyraformer: Low-Complexity Pyramidal Attention for Long-Range Time Series Modeling and Forecasting

紹介者: 秋元祐介

■概要

本論文で提案されているPyraformerは、時系列解析において時間に依存するデータの特徴を正確にとらえるために、入力データから複数の異なる解像度の時系列データを再構築して予測を行うモデルです。

再構築された解像度の異なる時系列データは解像度間で木構造をもち、Pyraformerではこの木構造に対してAttention機構を適用することによって長期的な時間依存性を捉えることに成功しました。

また、既存手法と比較して計算量を大きく削減することに成功し、推論速度が向上しています。

実験結果では、ReformerやLongformerなど既存手法の精度を軒並み上回る性能を示しました。

【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Series Modeling and Forecasting.pptx from ARISE analytics
(URL)

Autoregressive Diffusion Models

紹介者:奥井恒

■概要

Autoregressive Diffusion Models (ARDM) は、自己回帰モデルと拡散モデルを一般化したモデルです。

本手法では拡散モデルのために開発された動的計画法を用いて、性能を大幅に低下させることなく、同時に複数のトークンを生成するために並列化することができます。本論文では、ARDMが離散拡散モデルと同等かそれ以上の性能を持ち、かつモデリングステップの効率性が高いという結果が示されています。

【論文読み会】Autoregressive Diffusion Models.pptx from ARISE analytics
(URL) Autoregressive Diffusion Models | OpenReview

おわりに

今回、Diffusion Model、Transformerの時系列解析・画像処理、PLLと幅広く様々な分野の論文が紹介され、会社全体として多くの知識を蓄積することができました。また、発表後にも聴講者から多くの質問をいただき、互いの論文への理解を深めることができました。

個人的にDiffusion Model はお絵描きAIで注目を集めていたため、今回紹介された新しい手法とともに基礎から学び直せる良い機会だと感じました。また、画像処理や時系列解析といった業務に応用しやすい分野の紹介が多かったため、案件に応じて実務で実装していきたいと思います。

今後とも第3回、第4回と国際学会の論文読み会を継続していき、最先端の技術をキャッチアップして業務に還元できるよう活動を続けていきたいと思います。

関連記事