2017-12-06

完全ランダム木のアンサンブルによる確率密度推定

Python 機械学習統計

Ｑiita Advent Calenderに記事書いた。

完全ランダム木をアンサンブルした学習器で、すべてのサンプルが一つずつ最終ノードに入るまで木を生い茂らせ、その深度を基にそのデータが生まれてくる確率密度を推定してやろうというもの。

会社で下記の本の読み会やってる中で出てきて面白そうだったので試してみた。

アンサンブル法による機械学習：基礎とアルゴリズム

作者: Zhou Zhi-Hua
出版社/メーカー: 近代科学社
発売日: 2017/07/04
メディア: Kindle版
この商品を含むブログを見る

単純な1次元データではイマイチ使い勝手悪い感じ。工夫が必要そうな密度推定の際の引き出しとして持っておこうかなと。詳細は下記Qiita記事で。

qiita.com

2017-10-29

【論文】Graph Convolutional Networks for Classification with a Structured Lebal Space

今回はGraph conv層を持つネットワークを使って、分類問題におけるラベルがグラフ構造を持っている場合に有用であろうという分類器についての話。

[1710.04908] Graph Convolutional Networks for Classification with a Structured Label Space

【感想】
・Graph conv層はConv層の一般化。Convの気持ちが分かった気になった
・Graph convは応用例は色々ありそうだが、まだまだ発展途上な印象
・データもin-houseで、他手法との比較ってとこまではいけてないように見受けた
・Graph Fourier変換あたりの数式ちゃんと追えてない

【Abstruct】

多値分類問題においてクラス間の関係性を無視することが多い
ラベル間の明確なグラフ構造を活用したGraph Convolutional Networkを提案
Document classification と Object recognitionで実験して、モデル構造無視のモデルよりも結果良かったよ

【slideshareにスライド上げた】
https://www.slideshare.net/KazusaTaketoshi/edit_my_uploads

Graph Convolutional Networks for Classification with a Structured LebalSpace from Kazusa Taketoshi

www.slideshare.net

2017-10-02

【論文】Squeeze-and-Excitation Networks

読んだ論文をアウトプットしていく。

[1709.01507] Squeeze-and-Excitation Networks

・Feed-Foward なネットワークでAttention機構を持たせる
・チャネル間の相互関係性を考慮
・Channel-wiseな非線形な相互関係性を学習するために、小さいNNを挟んでるイメージ
・Excitationの2つめの制約である下記でなんでシグモイド採用されてるかわからん。
　" second, it must learn a non-mutually-exclusive relationship as multiple
channels are allowed to be emphasised opposed to onehot
activation"

2016-11-06

KerasでCifar10分類、とりあえずCNNのAlexModelで

Keras Python 機械学習深層学習

GPUマシンが使えるようになったので、Kerasで用意されているデータセットの中にcifar10があったので学習・分類してみた。
モデルはcifar10の作成者でもあり、ILSVRC2012優勝者でもあるAlex　Krinzhvskyさんの優勝時のモデルがベース。
モデルの構成について深層学習 (機械学習プロフェッショナルシリーズ)にあった表を参考にした。

モデル作成してて感じたのはやっぱりKerasの自由度の低さ。
レイヤーに差し込む層のタイプによってはストライドが設定できないなど、完全な再現は無理だった。
この辺はKerasでオリジナルのレイヤーを作成して対応していく必要があるのかも。
もう少し調べてから改めて実装したい。

とりあえず、モデル学習のためのスクリプトが下記。

from keras.datasets import cifar10
from keras.models import Model
from keras.layers import Flatten, Dense, Input, Dropout
from keras.layers import Convolution2D, MaxPooling2D, BatchNormalization
from keras.optimizers import Adam
from keras.utils import np_utils

def make_network():
    input_shape = (3,32, 32)
    img_input = Input(shape=input_shape)    


    # Block 1
    x = Convolution2D(96, 11, 11, activation='relu', border_mode='same', name='conv1')(img_input)
    x = MaxPooling2D((3, 3), strides=(2, 2), name='pool1')(x)

    # Block 2
    x = BatchNormalization(name='norm1_')(x)
    x = Convolution2D(256, 5, 5, activation='relu', border_mode='same', name='conv2')(x)
    x = MaxPooling2D((3, 3), strides=(2, 2), name='pool2')(x)

    # Block 3
    x = BatchNormalization(name='norm2_')(x)
    x = Convolution2D(384, 3, 3, activation='relu', border_mode='same', name='conv3')(x)
    x = Convolution2D(384, 3, 3, activation='relu', border_mode='same', name='conv4')(x)
    x = Convolution2D(256, 3, 3, activation='relu', border_mode='same', name='conv5')(x)
    x = MaxPooling2D((3, 3), strides=(2, 2), name='pool5')(x)

    #Classification block
    x = Flatten(name='flatten')(x)
    x = Dense(1024, activation='relu', name='fc6')(x)
    x = Dropout(p = 0.5)(x)
    x = Dense(1024, activation='relu', name='fc7')(x)
    x = Dropout(p = 0.5)(x)
    x = Dense(10, activation='softmax', name='fc8')(x)

    model = Model(img_input, x)

    return model
    

def train_model(model, X_train, Y_train, nb_epoch, batch_size):
    adam = Adam(lr=0.001, beta_1=0.9, beta_2=0.999, epsilon=1e-08)
    model.compile(loss='categorical_crossentropy', optimizer=adam, metrics=['accuracy'])

    model.fit(X_train, Y_train,
              batch_size=batch_size,
              nb_epoch=nb_epoch,
              validation_split=0.1,
              verbose=1)



if __name__ == '__main__':
　　(X_train, y_train), (X_test, y_test) = cifar10.load_data()
    batch_size = 32
    nb_classes = 10
    nb_epoch = 200
    data_augmentation = True
    
    
    # convert class vectors to binary class matrices
    nb_classes = 10
    
    #きっとone-hotエンコーディング
    Y_train = np_utils.to_categorical(y_train, nb_classes)
    Y_test = np_utils.to_categorical(y_test, nb_classes) 
    
    X_train = X_train.astype('float32')
    X_test = X_test.astype('float32')
    X_train /= 255　
    X_test /= 255  
    
    model = make_network()
    %time train_model(model, X_train, Y_train, nb_epoch = nb_epoch, batch_size = batch_size)
    
    #モデルのセーブ
    model.save('CNN_Trained_for_cifar10.h5')

データサイズが50,000で45,000を学習用、残りを評価用に使い、GPUがGeForce GTX 960、メモリ容量が2GBのマシンでEpoch数を200回にして学習。
かかった時間が13時間半と、自分の予想より結構長かった。
最後にモデルをセーブしておいたので、とりあえずこのモデルの評価はまた次回。

参考

深層学習 (機械学習プロフェッショナルシリーズ)

作者: 岡谷貴之
出版社/メーカー: 講談社
発売日: 2015/04/08
メディア: 単行本（ソフトカバー）
この商品を含むブログ (12件) を見る

2016-11-03

確率的勾配法あれこれまとめ

Keras 機械学習

Kerasで選択できる最適化アルゴリズムそれぞれの違いと使い所がいまいちわからんかったので調べてみた。

Incorporating Nesterov Momentum into Adamがアルゴリズムを整理してくれているので理解しやすかった。

とりあえずざっくりと俯瞰した感じだと、いかに効率良く傾斜を降下していくかという課題を解決するっていう大枠からはみ出るものはない。そんで、構築しているモデルの種類やサイズによってベストなアルゴリズムは変わってくるので、突き詰めるのであれば要実験。ただ、上記論文は、NadamかRSMProp使っときゃいいんじゃないっすか、みたいなこと言ってる。なんにしろ2000年代後半以降で進化が進んでいる分野であり、今後もアップデートがあるだろうから追っていきたい。

SGD

まずはオーソドックスな勾配法。

$g_t ← \nabla_{\theta_1} f(\theta_{t-1}) \\ \theta_t ← \theta_{t-1} - \eta g_t$

後述するMomentum法や、NAGもKerasの中ではSGDメソッドの中でサポートされている。

Mpomentum

勾配に加えてMomentumベクトル $mu$ を加えてパラメータを更新する。

$g_t ← \nabla_{\theta_1} f(\theta_{t-1}) \\ m_t ← m_{t-1} + g_t \\ \theta_t ← \theta_{t-1} - \eta g_t$

Nesterov's accelerated gradient(NAG)

Momuentum法に対して、勾配計算の段階ですでにMomentumを考慮することで、現在のパラメータ $\theta$ ではなく、次のパラメーターの推定値について計算することで効率よく予測するアルゴリズム。

$g_t ← \nabla_{\theta_1} f(\theta_{t-1} - \eta \mu m_{t-1}) \\ m_t ← m_{t-1} + g_t \\ \theta_t ← \theta_{t-1} - \eta g_t$

AdaGrad

それぞれ個別のパラメータ $\theta_i$ に対して異なる学習率を適用するアルゴリズム。
学習率の補正にそれまでのパラメータ[\theta_i]の勾配の二乗和を用いるのでL2ノルムベースのアルゴリズムと分類される。

$g_t ← \nabla_{\theta_1} f(\theta_{t-1}) \\\\ n_t ← n_{t-1} + g^2_t \\ \theta_t ← \theta_{t-1} - \eta \frac{g_t}{\sqrt{n_t}+\epsilon}$

ここで $n_t$ はさきのそれぞれのパラメータの勾配の二乗和のタイムステップ $t$ までのベクトル

RSMProp

これもL2ノルムベース。前述の[n]に対して、勾配の二乗の減衰平均 $E[g^2$ _t]を用いる。AdaGradで大きくなりすぎる[n]ことが問題だったがこれで解消。

$g_t ← \nabla_{\theta_1} f(\theta_{t-1}) \\ n_t ← \nu n_{t-1} + (1-\nu)g^2_t \\ \theta_t ← \theta_{t-1} - \eta \frac{g_t}{\sqrt{n_t}+\epsilon}$

Adam

Momentum法とRMSPropを組み合わせたもの。
勾配の1乗と勾配の2乗、両方使えばいいじゃん的な。

$g_t ← \nabla_{\theta_1} f(\theta_{t-1}) \\ m_t ← \mu m_{t-1} + (1-\mu)g_t \\ \hat m_t ← \frac{m_t}{1-\mu^t} \\ n_t ← \nu n_{t-1} + (1-\nu)g^2_t \\ \hat n_t ← \frac{n_t}{1-\nu ^t} \\ \theta_t ← \theta_{t-1} - \eta \frac{g_t}{\sqrt{\hat n_t}+\epsilon}$

AdaMax

AdamのL2ノルムを拡張し無限にするとよりシンプルなアルゴリズムとなる、らしい。

$g_t ← \nabla_{\theta_1} f(\theta_{t-1}) \\ m_t ← \mu m_{t-1} + (1-\mu)g_t \\ \hat m_t ← \frac{m_t}{1-\mu^t} \\ n_t ←　max(\mu n_{t-1}, |g_t|) \\ \theta_t ← \theta_{t-1} - \eta \frac{g_t}{\sqrt{n_t}+\epsilon}$

Nadam

Adamと違ってNAGとRMSPropを組み合わせたもの。

$g_t ← \nabla_{\theta_1} f(\theta_{t-1}) \\ \hat g_t ← \frac{g_t}{1-\prod_{i=1}^{t} \mu_i}\\ m_t ← \mu m_{t-1} + (1-\mu)g_t \\ \hat m_t ← \frac{m_t}{1-\prod_{i=1}^{t} \mu_i} \\ n_t ← \nu n_{t-1} + (1-\nu)g^2_t \\ \hat n_t ← \frac{n_t}{1-\nu ^t} \\ \bar \mu_t ← (1- \mu_t)\hat g_t + \mu_{t+1} \hat \mu_t \\ \theta_t ← \theta_{t-1} - \eta \frac{\bar \mu_t}{\sqrt{\hat n_t}+\epsilon}$