ARISE analyticsの近藤です。
弊社では、KDDIグループを支えるためのAI技術開発を行っており、通信セキュリティ技術へのAI導入もミッションの一つです。今回、セキュリティ技術の動向把握を目的とし、弊社メンバー2名とともに2022年5月30日~6月2日に開催された ACM AsiaCCS 2022に参加してきました。
本記事では、AsiaCCSの概要およびいくつか研究をピックアップして紹介いたします。
ACM AsiaCCS 2022の概要
ACM AsiaCCSは、ACM SIGSAC(ASIA Conference on Computer and Communications Security)主催の年次カンファレンスのひとつです。コンピュータ・通信セキュリティに加え、暗号・情報セキュリティの話題を扱っています。
AsiaCCSの名前の通り、アジアの各都市で順番にで開催されています。2020年は台湾、2021年は香港開催となり、2022年度は、日本の長崎とバーチャルのハイブリッドで開催されました。日本での開催は2014年の京都開催以来です。参加者は全体で276名、うち現地参加者は85名でした。また、参加国は29か国、現地参加者は13か国でした。
今回の会場に用いられた出島メッセ長崎は2021年の11月に開館したばかりの建物で、この建物で国際会議が開催されるのは今回が初めてです。そのため、現地メディアの取材も入り大変盛り上がっていたようです(筆者はバーチャル参加だったため、現地の雰囲気を味わえず残念でした…)。
論文については463件投稿され、うち85件が採択されました(Acceptance Rate = 18.4%)。このうち、機械学習(Machine Learning)に関わるものは18件でした。
今回のプログラムは、採択論文から構成されたオーラルセッション・ポスターセッションに加え、3件の基調講演と6件のWorkshopsから成り立っていました。
基調講演では、差分プライバシーのためのデータ合成技術やセルラーネットワークのためのセキュリティ技術といったテーマが扱われていました。資料とレコーディングが公開されているため、気になった方はぜひご覧ください。
今回併設されたWorkshopsは、以下のトピックが扱われていました。うち半数は今回が初めての開催でした。いずれも重要な領域であるとともに、本カンファレンスが扱うテーマの幅広さを感じるものでした。
- APKC – The 9th ACM ASIA Public-Key Cryptography Workshop(公開鍵暗号)
- BSCI – The Fourth ACM International Symposium on Blockchain and Secure Critical Infrastructure(ブロックチェーンとインフラ)
- CPSS – The 8th ACM Cyber-Physical System Security Workshop(サイバーフィジカルセキュリティシステム)
- CySSS – The 1st Workshop on Cybersecurity and Social Sciences(サイバーセキュリティと社会科学)
- WDC – The 1st Workshop on Security Implications of Deepfakes and Cheapfakes(ディープフェイク)
- WoRMA – The 1st Workshop on Robust Malware Analysis(マルウェア解析)
オーラルセッション・ポスターセッションでは、バーチャル参加者はzoomミーティングにアクセスし、発表を聴講する形式でした。特設サイトも用意されており、発表後に資料やレコーディングが格納されるため、気になった発表を後からじっくり視聴することも可能になっていました。
ピックアップ研究紹介
本節では、AI領域の技術を用いて通信セキュリティの課題に取り組んでいる研究からいくつかピックアップして紹介します。なお、ASIACCSのProceedingsはOpen Accessとなっており、こちらからすべて閲覧可能です。本節で紹介した研究事例以外にも素晴らしい発表がたくさんありますので、ぜひご覧ください。
GraphTrack: A Graph-based Cross-Device Tracking Framework
著者:Binghui Wang , Tianchen Zhou , Song Li , Yinzhi Cao , Neil Gong
概要
グラフ構造を対象としたユーザトラッキング技術の一つです。ひとりのユーザが複数台のコンピュータ、スマートフォンを持つのが当たり前になっている中で、クロスデバイストラッキング(同一ユーザが保有しているデバイスを特定しデバイスを超えたユーザトラッキングを行う)を実現することが目的です。
クロスデバイストラッキングの課題自体はだいぶ前から存在するものの、検索履歴を用いたアプローチが主流でした。しかし、IPとドメインの相関関係を捉えきれないことや閲覧履歴とデバイスをうまく紐づけできない点が課題になっていました。
手法
本研究が提案するGraphTrackではIP、ドメイン、デバイス間の相互関係をグラフ化することで複雑な相関関係を捉えられるようにしました。IPアドレスとデバイスが対応付けられたIP-Device Graph、IPアドレスとアクセス先ドメインが対応付けられたDomain-Device Graphを構築し、ランダムウォーク(グラフをサンプリングする手法の一種。ランダムに選んだノードを起点とし、ランダムに隣接ノードを選択して移動することを繰り返し、サンプリングを行う)を用いることで特徴空間へデバイスに対応するノードの埋め込みを行います。つぎに、特徴空間内でデバイスノード間の距離計算を行い類似度判定を行うことで、同一ユーザが保有するデバイスか否かを判定します。
実験結果
実世界データセットで評価した結果、提案手法であるGraphTrack-IP/GraphTrack-IP-SUは既存手法に比べ高い性能でのクロスデバイストラッキングを実現できていることが確認できました。
感想
本手法はグラフ構造として扱うことで課題解決につなげるものであり、グラフ構造の懐の広さに感心しました。クロスデバイストラッキング自体はユーザデータの分析に用いられるものですが、セキュリティの観点でも複数デバイスの相関関係を算出し保有ユーザの関連性を見出すことはDDoS攻撃などのサイバー攻撃の防止・攻撃者特定に役立ちそうです。
Model Extraction Attacks on Graph Neural Networks: Taxonomy and Realisation
著者:Bang Wu,Xiangwen Yang,Shirui Pan,Xingliang Yuan
概要
GNNモデル抽出攻撃方法の分類及び実現方法の提案です。近年増加しているモデル抽出攻撃では、APIサービスの入出力をもとにモデルの抽出(複製)を行います。モデルはAPIサービスのコアとなる部分であり、貴重な知的財産であることからモデル抽出攻撃の防御の必要性が高まっています。
既存のモデル抽出攻撃は画像やテキストを対象としたものであり、グラフを対象としたものはありませんでした。そこで、本研究ではグラフを対象としたGNNモデル抽出攻撃方法を整理・実証し、防御方法の検討の足掛かりとすることを目的としています。
手法
今回の攻撃シナリオとしてFacebookやTwitterなどのSNSに対するGNNモデル抽出攻撃を想定します。このGNNモデルは、年齢や性別などの異なる属性を持つプロファイル情報から、ネットワーク内のユーザ(ノード)を予測できます。攻撃方法として、複数のユーザをハッキング・勧誘することで攻撃対象モデルへのクエリを実行できること、またSNSを通して追加情報を容易に収集できること、を考慮する必要があります。
このシナリオに基づき、GNNモデル抽出攻撃における攻撃対象をNode,Graph,Datasetに仮定することで、組み合わせによる攻撃パターンを整理しました。結果、7つの攻撃パターンに分類されることを確認しました。さらに、それぞれの攻撃パターンについて具体的なアルゴリズムの提案を行いました。
実験結果
Cora,Citeseer,Pubmedデータセットを対象に各攻撃パターンによる攻撃を行い、GNNモデル抽出を行いました。この結果、単純なMLPモデルよりもTarget Modelに近い性能が得られることが確認できました。
感想
深層学習は画像や自然言語を中心に普及した背景もあり、画像や自然言語モデルを対象としたモデル抽出攻撃は非常に有名です。そのため、これらのドメインを対象としたサービスを開発するときは脆弱性を作りこまないような留意が必要です。
グラフ構造を対象としたサービスはまだまだ普及途上ですが、交通インフラやECコマース、SNSなどを代表とするように、社会の様々なつながりはグラフ構造で表現可能です。今後グラフを対象としたAPIサービスが増えていくと思われることもあり、非常に重要な分析である印象を抱きました。なお、本研究の実装はgithubで公開されており追試可能です。
https://github.com/TrustworthyGNN/MEA-GNN
EVOLIoT: A Self-Supervised Contrastive Learning Framework for Detecting and Characterizing Evolving IoT Malware Variants
著者:Mirabelle Dib,Sadegh Torabi,Elias Bou-Harb,Nizar Bouguila,Chadi Assi
概要
マルウェア検知のタスクでは、未知の新種マルウェアや亜種マルウェアもカバーできる必要があるため、ラベルあるの教師あり学習ではカバーできません。そこで、本手法では自己教師あり学習によるラベルレスでのマルウェアの埋め込み表現を学習する手法としてEVOLIoTを提案しています。
手法
マルウェアが出力する命令(アセンブリコード)に対しBERTで意味ベクトルを抽出し、Contrastive Learningによる自己教師あり学習によりマルウェアの埋め込み表現を学習します。Contrastive Learning においてはPositive Pairの生成がポイントとなりますが、ここでは同一のアセンブリコードに対しBERTのDropout Maskだけ変えることでPositive Pairを取得しています。
実験結果
亜種マルウェアを含むデータセットに対し、埋め込み表現を獲得したうえでt-SNEによる定性評価および Mean Average Precision (MAP)による定性評価を行いました。定性評価では既存手法に比べてクラスタごとのまとまりが形成され、定量評価では既存手法に対し良好な性能が得られることが確認できました。
感想
今回のように未知のデータを扱わなければならないタスクにおいて、Contrasteive Learningを用いた自己教師あり学習は非常に有効なアプローチです。Positive Pairをいかにして生成するかがポイントですが、マルウェアのアセンブリコードをBERTに入力することで生成するアプローチには驚きでした。自然言語処理では広い領域で有効性が確認されているBERTですが、今回のようにマルウェアのアセンブリコードにも適用できることは大きな知見となりました。
おわりに
筆者はこれまで画像や動画、情報検索など機械学習と相性の良い領域の研究開発に取り組んでいました。今回初めてセキュリティ領域の国際会議に参加しましたが、セキュリティ分野が扱うテーマは非常に幅広く、これまで意識しなかったようなテーマが多くあることに驚きました。今後もセキュリティ領域を定期的にウォッチし、機械学習と相性の良い分野を見極めたうえで社会に役立つ技術開発を行っていきたいです。
最後になりましたが、ARISE analyticsではKDDIの通信データを対象とした技術開発に取り組んでいます。今回紹介した内容や、その他記事で触れている弊社の取り組みに興味がございましたらぜひお声がけください。