技術情報

ARISE analyticsの技術関連活動


PySpark

  • PySparkで線形回帰モデルを作成する

    こんにちは、Customer Analytics Divisionの石川航作と申します。Customer Analytics Divisionはお客様が展開するサービスの改善を目的としたコンサルティング業務を行っております。このサービスは1,000万人以上の会員様にご利用頂いており、一般的なデータ分析でお馴染みのpandasやscikit-learnを用いて分析することは時間的制約から困難です。そこで、弊社では分散処理システムであるSparkとそのpython APIであるPySparkを用いて諸々の分析を行っております。...

  • オフライン環境でのVSCodeを使ったSpark開発環境構築

    皆さんこんにちは、Marketing Solution Divisionの伊藤です。私は2020年の4月に新卒として入社し、研修期間終了後に現在のチームに配属されました。現在は、KDDIの位置情報データを活用し、マーケティング対象の店舗に立ち寄りそうな顧客を予測するシステムを制作しております。 このプロジェクトでは、位置情報や顧客の個人情報という秘匿性が高い情報を扱うため、セキュリティの観点からインターネットから隔離された分析環境でシステムの開発環境を構築する必要がありました。さらに、システムの処理や開発方針決定のための分析にApache...

  • Scala×SparkのUDFとウィンドウ関数を使って緯度経度データから2点間の距離を求める

    こんにちは、Marketing Solution Divisionの鴨居です。私は位置情報を扱う分析ソリューションの開発チームに1年ほど在籍したのちに現在のチームに移籍しました。前チームではScala×Sparkで位置情報データの分析・ロジック開発を行っていました。この記事では、Scala×Sparkを使った位置情報データ分析の例をご紹介したいと思います。 背景...

  • sparkパラメータ最適化チューニング

    こんにちは。Customer Analytics Division所属データサイエンティスト兼データエンジニアの渡邉です。ARISE analyticsでは数百人のデータサイエンティストが活躍しています。一般的な分析環境は、データサイエンティストがそれぞれEMRを立て、その上のsparkで分析を走らせています。ただ、その分日々の分析費用も大きいものとなっています。そこで、sparkパラメータ最適化にトライしました。 spark最適パラメータ計算法 こちらのAWSの記事に従って計算しました。一部のパラメータについて、絵で説明したいと思います。 spark.executor.cores...

1
ご質問・お問い合わせは
こちらよりお送りください
採用
ARISE analyticsとは

PAGE TOP