2015-07-01から1ヶ月間の記事一覧

ハッシュとカーネル

最近Spark使ってて特徴量減らしたいよねってなった時に、 Future Hashingを漠然と使ってたけど、気になったかた勉強。 Hash Trickの前にKernel Trick どっか違う空間に写像するってことで似てるけど、若干用途が違うカーネルトリックから。 線形空間では分離…

PysparkのMllibでリッジ回帰

作ったPysparkの環境でMap関数の練習リッジ回帰やってみました。元ネタはedXのこの講義↓ Scalable Machine Learning | edXデータはMillionSongDatasetから取得できます。で、結果から先に書きますと、Default値含めてGridsearchしたにも関わらず、 Default値…

Pysparkでテキストマイニング第一歩 on Amazon EMR with Jupyter notebook

SparkをAmazon EMRに乗せてみたので備忘録的に。といってもめちゃくちゃ簡単だった。他にはローカルでSpark立ててしまう、AmazonEC2使うとか選択肢あったけど、 価格見ても高くないし、いつか本格的に使うことを想定して、EMRでの予行演習的な位置づけ。下記…

scikit-learnで機械学習:決定木(2)

前回の続きで、Scikit-learnの決定木を使ってみます。ここから先は難しいことは何もなくて、本家に従いながら走らせてみる。もろもろimport。 import numpy as np import pandas as pd from sklearn import datasets from sklearn import tree from sklearn.…

VagrantとVirtualBoxで環境構築

「なんでこっちで動いて、そっちで動かんねん」を解消するために環境構築備忘録。VirtualBox:オラクルが提供しているx86仮想化環境ソフトウェア・パッケージ Vagrant:開発環境の管理ツール。 この二つ組み合わせて、みんなで同じ環境を構築&共有。 色んな…