はじめに
ARISE analyticsの近藤です。
弊社では、KDDIグループを支えるためのAI技術開発を行っており、通信セキュリティ技術へのAI導入もミッションの一つです。今回、技術開発成果の共有を目的とし、2023年1月24日~1月27日に開催された 暗号と情報セキュリティシンポジウム(SCIS2023)で発表してきました(発表に関する情報はこちらから確認できます)。
本記事では、SCISの概要とともに、弊社から発表した内容を簡単に紹介いたします。
SCIS2023の概要
SCIS2023は、電子情報通信学会 情報セキュリティ研究専門委員会 (ISEC研)が主催のシンポジウムです。セキュリティ関連のシンポジウムとしては、コンピュータセキュリティシンポジウムに並んで国内最大級のシンポジウムになります。もともと暗号を中心に扱っていたシンポジウムですが、徐々に領域を広げていきセキュリティ領域も扱うようになりました。近年はAIセキュリティ・心理学・ネットワークセキュリティなどの新規テーマも扱われております。
今回はリーガロイヤルホテル小倉@北九州市で開催されました。余談ですが、最近は九州地方でセキュリティ系のシンポジウムが頻繁に開催されています。前回報告したAsiaCCS2022@長崎市に加え、今後の開催ではCSS2023@福岡市、SCIS2024@長崎市が予定されています。
今回の発表内容
今回、弊社からは以下のタイトルで発表しました。
タイトル:教師なしGNNによるIoTデバイスの異常通信検知の検討
論文著者:近藤 真暉(株式会社 ARISE analytics)、奥井 宣広(株式会社 KDDI総合研究所)
本発表は、IoTデバイスの通信データを対象とした異常検知を目的に、教師なしグラフニューラルネットワークを提案したものになります。
以下、概要を簡単に説明させていただきます。
背景・関連技術
本発表は、IoTデバイスの通信データを対象とした異常通信検知を目的としたものです。ここでいう異常通信とは、Miraiなどのマルウェア等によるサイバー攻撃によって発生する正常とは異なる通信を指します。これらを自動検知することで、セキュリティ対策を取りやすくすることが目的です。
ここで、機械学習を用いた異常通信検知はラベル情報を用いる教師あり学習とラベル情報を用いない教師なし学習に分かれます。しかし、サイバー攻撃は常にアップデートされるため、未知の通信にも対応できる教師なし異常通信検知の重要性が高まっています。
一方、近年グラフニューラルネットワーク(GNN)が注目を集めており、異常通信検知への適用で性能向上する事例も報告されはじめています(例:参考文献[1])。しかし、GNNを用いた異常通信検知は教師ありの手法がベースであり未知の異常に対して十分な検知精度が得られない可能性がありました。
そこで、本発表では、教師あり異常通信検知で性能が報告されているGNNを、教師なし異常通信検知に適用できるようにし、活用の幅を広げることを目指します。
提案手法
本手法は、GNNを用いた教師あり異常通信検知であり、IoTデータのオープンデータで高い性能が報告されているされているE-GraphSAGE[1]をベースに、Metric Learningを導入することで教師なしGNNを実現します。E-GraphSAGEはその名の通り、GraphSAGE[2]を拡張した手法です。ノードとエッジを入れ替える変換処理により、通信データをノードに格納できるようになるという利点があります(具体的な処理は手順①に記載いたします)。
手順① 通信データからのグラフ構築
まず、通信データをグラフ構造に変換します。今回は、[1]と同様の手法を用います。
まず、ホストとなる通信デバイスをノードに、ホスト間の通信をエッジとみなし、グラフ構造に変換します。これにより、グラフを用いた通信表現が可能になります。ただし、一般的なGNNはノードに特徴が含まれていることを前提としています。そのため、エッジに格納されている通信データを活用できません。そこで、右図のようにノードとエッジを入れ替えることで、通信データを特徴として格納できるようになります。これにより、通信量といった通信データをGNNで処理することが可能になります。
手順② ノード埋め込みモデルの学習
ここからはオリジナルの手法になります。本手順では、ノードを特徴ベクトルに変換するノード埋め込みモデルの学習を行います。
ポイントとなるのは、Metric Learningの導入です。Metric Learningは、ラベル情報を用いない教師なし学習による特徴表現学習手法であり、アンカー・ポジティブ・ネガティブを用います。アンカーに対し、ポジティブは近くなるよう、ネガティブは遠くなるように損失関数を設計し、学習を行うことで特徴表現学習が実現できます。
学習にあたり、ノードからk-hopサンプリングによりサブグラフを構築して特徴空間に埋め込むことを考え、アンカーノードから構築されたサブグラフとポジティブノードから構築されたサブグラフが似るように、ネガティブノードから構築されたサブグラフが似ないようにノード選択を行います。今回は、ランダムに選択されたアンカーノードに対し、隣接ノードをポジティブノード、遠くにあるノードをネガティブノードとして選択しました。
手順③ 異常検知モデルの学習
ノードの埋め込みにより得られた特徴を用い、異常検知モデルを学習します。組み合わせる異常検知モデルはどのようなものでも良いのですが、今回はMetric Learningと同様に距離計算ベースの手法であるkNNを採用しました。なお、埋め込みモデルの学習データと異常検知モデルの学習データは同一のものを用いています。
実験
オープンデータ(UNSW-NB15/The TON_IoT)を用い、提案手法の評価を行いました。
ここでは正常通信のみで構成された訓練データを用い、ノード埋め込みモデルおよび異常検知モデルの学習を行っています。また、評価は異常通信を含むテストデータを利用しています。
データセット | 異常通信の種類数 | 正常通信の割合(%) | 既存特徴の次元※1 | 訓練データの件数(正常通信のみ) | 検証データの件数(異常通信含む) | テストデータの件数(異常通信含む) |
UNSW-NB15[3] | 9 | 96.83 | 43 | 485,001 | 5,000 | 210,000 |
The TON_IoT[4] | 9 | 65.07 | 39 | 316,043 | 5,000 | 210,000 |
表:データセットの内訳
実験① 埋め込み特徴の可視化による特徴表現学習の定性評価
ノード埋め込みにより得られた特徴を、t-SNEで可視化しました。青色が正常通信、それ以外の色が異常通信を示します。可視化結果を見ると、同じ色によるまとまりが確認できており、提案手法により正常通信と異常通信を分離できるような特徴表現が学習できていることがわかります。
実験② オープンデータを用いた通信異常検知の定量評価
2値分類による通信異常検知の結果です。データセットごとのROCAUCと、2つのデータセットの平均を取った単純平均、2つのデータセットの差分をそれぞれ示しています。
今回の実験では、通信データの特徴表現として、①ノード埋め込み前の特徴(RAW)、②提案手法である埋め込み後の特徴(Uns. E-GraphSAGE)を用いました。また、特徴表現に対して組み合わせる異常検知アルゴリズムとして、提案手法であるkNNに加えAE(オートエンコーダ)、OCSVM(One-Class SVM)も検証します。
データセットごとにROCAUCを確認すると、UNSW-NB15ではRAW(AE)が0.981、The TON_IoTではRAW(kNN)が0.999と最も数字が良いことがわかりました。しかし、平均を確認すると、RAW(AE)が0.879、RAW(kNN)が0.978でした。また、差分もRAW(AE)が0.204、RAW(kNN)が0.042でした。
一方、提案手法であるUns. E-GraphSAGE(kNN)はUNSW-NB15が0.976、The TON_IoTが0.990であるものの、平均が0.983、差分が0.014であることが確認できました。
これらの結果は、本実験の範囲において、ノード埋め込み前の特徴(RAW)と異常検知アルゴリズムを組み合わせた場合、データセットごとのばらつきが大きく汎用性が低下していることを示唆しています。一方、提案手法はばらつきが少なく汎用性が向上していることが確認できました。
まとめ
本発表では、IoT通信データを対象とした異常検知のために、教師なしのGNNを提案しました。本発表のcontributionを以下に整理します。
- Metric Learning を用いた教師なし学習によるグラフの埋め込み手法の提案
- 異常通信検知向け公開データセットを用い、本手法により汎用的な性能が得られていることを確認
今後は提案手法を洗練させ、より使いやすい方法にアップデートしていきます。
おわりに
本記事では、SCISの概要とともに、弊社から発表した内容を簡単に紹介しました。本発表の内容は弊社で取り組んでいる技術開発成果の一部になります。弊社では本テーマ以外にもKDDIの通信データを対象とした技術開発に取り組んでいます。今回紹介した内容や、その他記事で触れている弊社の取り組みに興味がございましたら、ぜひお声がけください。
採用 | 株式会社ARISE analytics(アライズ アナリティクス)
参考文献
[1] Wai Weng Lo, Siamak Layeghy, Mohanad Sarhan, Marcus Gallagher, and Marius Portmann. E-GraphSAGE: A Graph Neural Network based Intrusion Detection System for IoT. NOMS 2022-2022 IEEE/IFIP Network Operations and Management Symposium, 2022.
[2] Will Hamilton, Zhitao Ying, and Jure Leskovec. Inductive Representation Learning on Large Graphs. Advances in neural information processing systems, 30, 2017.
[3] Nour Moustafa and Jill Slay. UNSW-NB15: a comprehensive data set for network intrusion detection systems (UNSW-NB15 network data set). In 2015 Military Communications and Information Systems Conference (MilCIS), pages 1–6, 2015.
[4] Abdullah Alsaedi, Nour Moustafa, Zahir Tari, Abdun Mahmood, and Adnan Anwar. TON_IoT Telemetry Dataset: A New Generation Dataset of IoT and IIoT for Data-Driven Intrusion Detection Systems. IEEE Access, 8:165130–165150, 2020.
おまけ
九州地方はおいしいごはんの宝庫ですが、小倉駅周辺にも沢山ありました。また社外発表でおいしいごはんを食べられるよう、技術開発に努めてまいります。