「ゼロから作るDeepLearning」を写経してみる（４）「4章ニューラルネットワークの学習」

2017年5月15日

Deep Learningを学んでみたいので、以下の本を写経している。

ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装単行本（ソフトカバー） – 2016/9/24
斎藤康毅 (著)
3672円

サポートサイト
https://github.com/oreilly-japan/deep-learning-from-scratch

前回は、3章を写経した。ニューラルネットワークの初歩を、pythonで実装してみたんは楽しかった。

今回は、4章ニューラルネットワークの学習　を写経してみる。

（環境）
Windows8.1
Python 3.5.2
Anaconda 4.1.1 (64-bit)
Jupyter Notebook (ipython) 4.2.0

（０）Git Bash here(cmd.exe コマンドプロンプトもOK)　で、jupyter notebook

ファイル構成はこんな感じ

ここに、ch04 というフォルダを作成し、その中でスクリプトを書いていく。
（上記サポートサイトからダウンロードしたファイル群を、dataset　の中に保存し、そちらから利用するため。）

（１）データから学習する

５　→　人の考えたアルゴリズム　→　答え

５　→　人の考えた特徴量（SIFT, HOGなど）　→　機械学習（SVN, KNNなど）　→　答え

５　→　ニューラルネットワーク（Deep Learning）　→　答え

訓練データとテストデータ

（２）損失関数 loss function : ニューラルネットワークの学習で用いられる指標

一般には、「2乗和誤差」や「交差エントロピー誤差」などが用いられる。

●2乗和誤差 mean squared error

E =  \frac{1}{2} \sum_k ( y_{k} -  t_{k})^{2}

yk : ニューラルネットワークの出力
tk : 教師データ
k : データの次元数

たとえば、第3章の手書き数字認識の例では、

y = [0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0]

t = [0, 0, 1, 0, 0, 0, 0, 0, 0, 0]

one-hot 表現　：　正解ラベルを1として、それ以外は0で表す表記法

●交差エントロピー誤差

E =  - \sum_k t_{k} \log y_{k}

yk : ニューラルネットワークの出力
tk : 正解ラベル　（正解ラベルとなるインデックスだけが1で、その他は0(one-hot表現)）

●ミニバッチ学習

例えば、60,000枚の訓練データの中から100枚を無作為に選び出して、その100枚を使って学習を行う方法を、ミニバッチ学習という。

●なぜ損失関数を設定するのか？

→認識精度を指標にすると、パラメータの微分がほとんどの場所で0になってしまうため、学習が困難になってしまうため、微分可能である損失関数を設定して、指標とする。

（３）微分

なつかしい微分の定義

 \frac{df(x)}{dx}  =   \lim_{h \rightarrow 0}  \frac{f(x+h)-f(x)}{h}

数値微分 numerical differentiation

丸め誤差 rounding error

●偏微分

f( x_{0},  x_{1}  )  =    x_{0}^{2} + x_{1}^{2}

数値微分 numerical differentiation

●勾配

すべての変数の偏微分をベクトルとしてまとめたものを勾配gradientという。

→　勾配が示す方向は、各場所において関数の値を最も減らす方向である。

https://github.com/oreilly-japan/deep-learning-from-scratch/blob/master/ch04/gradient_2d.py

（４）勾配法 gradient method

機械学習の問題の多くは、学習の際に最適なパラメータを探索する。

ニューラルネットワークも、最適な（＝損失関数が最小値をとるとき）パラメータ（重みとバイアス）を学習時に見つける必要がある。

しかし、損失関数は複雑なので、勾配をうまく利用して関数の最小値を探そうとするのが勾配法。

→個人的なイメージ的としては、極小値ばっかり探してしまう危険性をはらんでいると思うが、まあ、そういうものなのでしょう。

x_{0}  =  x_{0} -  \eta  \frac{\partial f}{\partial x_{0} } \\
x_{1}  =  x_{1} -  \eta  \frac{\partial f}{\partial x_{1} }

η（イータ）は、更新の量を表し、ニューラルネットワークの学習においては、学習率 learning rateと呼ばれる。

学習率η（イータ）は、大きすぎても小さすぎても、「良い場所」にたどり着くことができないので、学習率の値を変更しながら、正しく学習できているかどうか、確認作業を行うのが一般的とのこと。

ちなみに、偏微分の∂は「パーシャル、ラウンド・ディー」と読むらしい。

https://github.com/oreilly-japan/deep-learning-from-scratch/blob/master/ch04/gradient_method.py

学習率が大きすぎる例：lr=10.0

→下の例では、なんかすごく大きな値になってしまっている。

学習率が小さすぎる例：lr=1e-10

→下の例では、100回程度では、全然動かない。100回動いても、まだスタート地点にいる感じ。

●ニューラルネットワークに対する勾配

形状が２ｘ３の重みWだけを持つニューラルネットワーク。

W = \left(
    \begin{array}{ccc}
       w_{11}  & w_{21} & w_{31} \\
       w_{12}  & w_{22} & w_{32}
    \end{array}
  \right)

損失関数をLで表す場合、勾配は、以下のようになる。

\frac{\partial L}{\partial W}  = \left(
   \begin{array}{ccc}
      \frac{\partial L}{\partial  w_{11}}  & \frac{\partial L}{\partial  w_{21}}  & \frac{\partial L}{\partial  w_{31}}  \\
      \frac{\partial L}{\partial  w_{12}}  & \frac{\partial L}{\partial  w_{22}}  & \frac{\partial L}{\partial  w_{32}}
   \end{array}
 \right)

ニューラルネットワークにおいて、勾配を求める実装

https://github.com/oreilly-japan/deep-learning-from-scratch/blob/master/ch04/gradient_simplenet.py

そろそろしんどくなっていたので、

https://github.com/oreilly-japan/deep-learning-from-scratch/blob/master/ch04/gradient_simplenet.py