はじめに
ARISE analyticsでデータ基盤構築業務を主に行う「データアーキテクト」というキャリアトラックに所属しているエンジニアの田畑です。前年に引き続きSnowflakeのカンファレンスイベントであるSnowflake Data Cloud Summit 2024に参加させていただいたので、そちらの内容についてご報告したいと思います(前年の記事はこちらです)。
イベントの概要
今回のSummitは2024/6/3(月)~6/6(木)の間、アメリカ カリフォルニア州のサンフランシスコにて開催されました。
前回同様、各日程において、全体向けのキーノートセッションと、各参加者が希望するものに参加する個別セッション(その数なんと400以上!!)が用意されています。
個別セッションはどれも気になるものばかりで、会場を動き回り、途中参加、途中退出なども含めて、20セッションほど聴講しました。
また会場にはパートナー企業が商品デモや問い合わせ対応を行うブースを設けています。今年は前年以上に多くのパートナー企業のブースがあったように見受けられました。
来場者数は4日間で1万5,000人にも登ったとのこと。また日本からは250名ほどが参加、昨年度対比約2倍ほどとのことで、日本での注目度の高まりが伺えました。
特に気になったアップデート
今回特に気になったアップデートを、キーノートでも紹介されていた3つの柱ごとに紹介します。
「データ基盤の強化」に関するアップデート
「データ基盤の強化」は更にいくつかのカテゴリに細分化されて紹介されていたんですが、ここでは特に大々的に取り上げられていたガバナンス面におけるアップデートを紹介します。
Snowflakeにおいて、コンプライアンス、セキュリティ、プライバシー、相互運用性、アクセス機能で構成されるデータガバナンス関連の機能群をSnowflake Horizonと呼んでいます。その機能群においても、大変多くの機能についてアナウンスがありました。そのためか、Snowflake Horizonの新機能紹介のセッションは、Data Team(分析者やデータサイエンティストなど)向けのものとData Governer&Steward(データ管理者とスチュワード)向けのものに分かれていました。こちらについてもその一部の新機能を紹介します。
Trust Center
アカウント内部のセキュリティリスク(ex. MFAの設定漏れなど)とそれを解決するための推奨アクションを表示するUIを提供する機能であるTrust Center。こちらがもうじきGAになることがアナウンスされました。これまでは自力でのビューやダッシュボードの実装が必要だったものがマネージドな形で提供されるようになります!
Data Quality Monitoring
データにおける期待する品質(ex. nullの有無、ユニークな値の数、データ鮮度など)をテーブルごとに定義し、モニタリングすることを可能にする機能であるData Quality Monitoringについても間もなくGAされるというアナウンスがありました。品質チェックはビルドインのものもありますが、カスタムで作成することも可能です。モニタリングは手動実行・定期実行両方可能で、モニタリング結果はイベントテーブルで別途確認することが可能です。それを元にアラート設定なども仕込むことも可能になっています。
Iceberg Tableのサポート & Polaris Catalogの紹介
オープンフォーマットであるApache Iceberg形式でファイルストレージに保存されたファイルをIcebergテーブルとして取り扱うことを可能にする機能です。前回のSummitでも紹介されていた機能ですが、GAとなったことがアナウンスされました。これまでもストレージ上のファイルを外部テーブルとして扱うことはできましたが、外部テーブルとの大きな違いとしては、Icebergテーブルがトランザクションやバージョニング管理をサポートしている点が挙げられます。
加えてIceberg Tableを取り扱うカタログ機能をオープンソースで提供するPolaris Catalogが今回発表されました。これを利用することにより、同一のIceberg TableをSnowflake内だけでなく、他のエンジンからも操作可能となり、相互運用性を高めることができるようになります。
「エンタープライズAIの加速」に関するアップデート
Snowflakeにおいて、生成AI関連の機能群はSnowflake Cortexという名称で呼ばれています。今回のSummitでは、そのCortex関連の機能のアップデートも多く発表されてました。
Cortex Search
SnowflakeにおいてRAGを簡単に実装できる機能です。一般的にRAGを実装するにあたっては、抽出対象の情報をベクトル化し、専用のベクトルDBに保存した上で管理する手法が一般的ですが、この機能を使うことで、抽出対象としたいデータさえ用意すれば、ノーコードあるいは単一の関数でこれらを簡単に実装し、フルマネージドな状態で提供することができます。ちなみに、キーノートにおける本機能のデモは、誰でも簡単に実装できることを実証するため、なんとその場で一般の参加者からデモ担当を選んで実施されました。笑
Cortex Analyst
Snowflake内部のデータについて、自然言語で質問を投げると、回答に必要となるSQLを生成、実行し、求めるデータを返すAPIを提供する機能です。SQLの知識が無いユーザも簡単にデータにアクセスできるようになります。例えばStreamlitと組み合わせることで、チャット形式のアプリを容易に作成することも可能です。
どちらの機能も、どれだけ日本語に対応できるのかは、自分も含め日本からの参加者の多くが気にしていたところですが、機能としては非常に魅力的で、実際に触るのが待ち遠しいです。
「アプリケーションの構築と配布」に関するアップデート
Snowflake Native Apps with Snowpark Container Services
Snowflake Native AppsとSnowpark Container Servicesの統合がパブリックプレビューとなることがアナウンスされました。これによりプロバイダが開発したコンテナ化したアプリをNative Appsとして配布し、コンシューマのSnowflakeアカウント内で実行することが可能になります。これによりデータをSnowflakeの外に出すことなく、幅広い種類のアプリケーションで活用可能になります。dbtやRelationalAIなどのSaaSも早速マーケットプレイスにてアプリを展開することも発表されました。Snowflake内で実行するという特性上、Snowflakeの利用はしているものの、他のSaaSの導入ハードルは高い、というような企業において、導入ハードルを下げるブレイクスルーになる可能性があります。
Snowflake Notebooks
こちらはSummit前にパブリックプレビューとなっていたので、把握している人も多いと思いますが、SnowflakeのUIであるsnowsight上で、ノートブック形式のインターフェースを利用できるようになりました。本機能に関連するもの以外のセッションにおいても、社員によるデモなどでは頻繁にNotebooksが使われていて、その利便性はもちろん、Snowflakeとしても今後注力していきたいという意向を感じました。
pandas API
データを触る人であれば、ほとんどの人が一度は触ったことがあるであろうpandas。そのpandasのAPIで、Snowflakeの分散処理を実行できるようになります。pandasに慣れ親しんだ方がSnowflakeを使う上でのハードルが下がるのは勿論、pandasで実装されているワークフローをSnowflakeに移行するのも容易になるなどのメリットもあると考えられます。
おわりに
前年に引続き、今年も現地で参加させていただきましたが、非常に濃厚な4日間で、非常に良い経験になりました。4日間現地にて丸々参加することで、Snowflakeが今後進んでいく方向や、伝えたいメッセージをとても深く理解することができるという点は、前回も記載していましたが、間違いなく現地参加の一番のメリットかなと思います。また、前回同様、日本からの参加者を対象としたラップアップやディナー会が実施されたのですが、今回は、それに加えて1日目のSummit開始のタイミングで、日本からの参加者を対象としたつながり作りのイベントが設定されたり、3日目の夜にはSnowbashという参加者全体の懇親会が会場横の広場で開催されたりと、つながりを深める機会が更に増えたように感じました。同じSnowflakeというプロダクトに関わっている、かつ、国外のイベントに参加するほどの熱量を持ったユーザやパートナー企業の方との繋がりが生まれることも、現地参加のメリットなんじゃないかなと感じています。
また今回改めて、ARISEにおける成長やスキル習得の支援体制の手厚さを感じました。今回の出張も、社長が2つ返事でGOを出してくださり、チームの皆様も業務調整や不在時のフォローをしてくださりました(感謝!)今回の学びをしっかりと会社やチームに還元することで、この恩に報いたいと思います!
なお、ARISE analyticsでは大規模データ基盤構築を行うデータアーキテクト(リーダー職)を積極採用中です。Snowflakeをはじめとしたモダンなデータスタックを活用して、大量かつ多彩なデータを取り扱うデータ基盤構築と改善を通した顧客価値拡大を突き進めていきたい方は、ぜひこちらからご応募ください!!