技術情報

2021-12-10

PySpark

PySparkで線形回帰モデルを作成する

こんにちは、Customer Analytics Divisionの石川航作と申します。Customer Analytics Divisionはお客様が展開するサービスの改善を目的としたコンサルティング業務を行っております。このサービスは1,000万人以上の会員様にご利用頂いており、一般的なデータ分析でお馴染みのpandasやscikit-learnを用いて分析することは時間的制約から困難です。そこで、弊社では分散処理システムであるSparkとそのpython APIであるPySparkを用いて諸々の分析を行っております。...

2021-03-12

PySpark

オフライン環境でのVSCodeを使ったSpark開発環境構築

皆さんこんにちは、Marketing Solution Divisionの伊藤です。私は2020年の4月に新卒として入社し、研修期間終了後に現在のチームに配属されました。現在は、KDDIの位置情報データを活用し、マーケティング対象の店舗に立ち寄りそうな顧客を予測するシステムを制作しております。このプロジェクトでは、位置情報や顧客の個人情報という秘匿性が高い情報を扱うため、セキュリティの観点からインターネットから隔離された分析環境でシステムの開発環境を構築する必要がありました。さらに、システムの処理や開発方針決定のための分析にApache...

2020-11-11

PySpark

Scala×SparkのUDFとウィンドウ関数を使って緯度経度データから2点間の距離を求める

こんにちは、Marketing Solution Divisionの鴨居です。私は位置情報を扱う分析ソリューションの開発チームに1年ほど在籍したのちに現在のチームに移籍しました。前チームではScala×Sparkで位置情報データの分析・ロジック開発を行っていました。この記事では、Scala×Sparkを使った位置情報データ分析の例をご紹介したいと思います。背景...

2020-10-30

PySpark

sparkパラメータ最適化チューニング

こんにちは。Customer Analytics Division所属データサイエンティスト兼データエンジニアの渡邉です。ARISE analyticsでは数百人のデータサイエンティストが活躍しています。一般的な分析環境は、データサイエンティストがそれぞれEMRを立て、その上のsparkで分析を走らせています。ただ、その分日々の分析費用も大きいものとなっています。そこで、sparkパラメータ最適化にトライしました。 spark最適パラメータ計算法こちらのAWSの記事に従って計算しました。一部のパラメータについて、絵で説明したいと思います。 spark.executor.cores...

タグから探す

PySpark