Spark

Spark MLlibの協調フィルタリングを活用したMovie Recommendation

Sparkを触る機会が増えてきてるので、知識の棚卸しを兼ねてMLlib使ってレコメンデーションシステムを実装してみました。SparkSamit2014などMLlibのチュートリアル的に色々使われているSparkのMovie Recommendationですが、edXのIntroduction to Big Data wit…

Spark MllibでのClick through rate(CRT) 予測

1年以上も前ですが、edXのScalable Machine learningを受講していた時のコードが出てきたので、見直してみました。この講座のネタが、KaggleのCriteoのコンペのデータ を基にしたCTR予測でして、One-hot-encodingやhushingした高次元のデータを Mllibのロジ…

ハッシュとカーネル

最近Spark使ってて特徴量減らしたいよねってなった時に、 Future Hashingを漠然と使ってたけど、気になったかた勉強。 Hash Trickの前にKernel Trick どっか違う空間に写像するってことで似てるけど、若干用途が違うカーネルトリックから。 線形空間では分離…

PysparkのMllibでリッジ回帰

作ったPysparkの環境でMap関数の練習リッジ回帰やってみました。元ネタはedXのこの講義↓ Scalable Machine Learning | edXデータはMillionSongDatasetから取得できます。で、結果から先に書きますと、Default値含めてGridsearchしたにも関わらず、 Default値…