HOME > natural science Laboratory > コンピュータ・シミュレーション講座 > ゼロから作るDeep Learning

ゼロから作るDeep Learning
誤差逆伝搬法(バックプロパゲーション)の導出

文責:遠藤 理平 (2017年4月18日) カテゴリ:ゼロから作るDeep Learning(15)

昨今注目を集めているAI(人工知能)を学びたいと思い立ち、ディープラーニング(Deep Learning、深層学習)と呼ばれるAIの数理モデルである多層構造のニューラルネットワークを書籍「ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装」を参考にを独習していきたいと思います。本書籍ではプログラミング言語としてPythonが利用されていますが、本項ではJavaScriptで実装していきます。

目次


誤差逆伝搬法(バックプロパゲーション)の導出

書籍「ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装」では誤差逆伝搬法の概念を直感的に解説を行うため「計算グラフ」と呼ばれるダイアグラムを用いています。この方法は概念を把握する際には有用ですが、実際にプログラミングを行う際には具体的な表式を与えません。 本項では、プログラミングに必要な漸化式の導出を行います。

復習

第l層i番目のニューロンを X_i^{(l)} と表わすとします。第l+1層i番目ニューロン X_i^{(l+1)} は第l番目の各パラメータを用いて

X^{(l+1)}_i=f\left(x^{(l+1)}_i\right)=f\left(\sum\limits_{j} W^{(l)}_{ij}X^{(l)}_j+b_i^{(l)}\right)

と表すことができます。 fは活性化関数、 x_i^{(l+1)}は活性化関数を通す前のニューロン値、 W^{(l)}_{ij}b_i{(l)} は重みとバイアスです。 重みとバイアスは損失関数 E(本項ではLではなくEと表します) が小さくなる方向へ学習ごとに更新させます。具体的には各重みとバイアスに対する勾配(偏微分)が与えられれば、次のアルゴリズムで重みとバイアスを更新させることができます。

W^{(l)}_{ij}\leftarrow W^{(l)}_{ij}-\eta \,  \frac {\partial E}{\partial W^{(l)}_{ij}}
b^{(l)}_{i}\leftarrow b^{(l)}_{i}-\eta \,  \frac {\partial E}{\partial b^{(l)}_{i}}

各勾配は重みあるいはバイアスをほんの僅かずらすことで得られる損失関数値の増減から見積ることができますが、各勾配を計算するたびに入力から出力を得るための全計算を行う必要がでてきます。そこで、効率よく勾配を計算するために考案されたのが誤差逆伝搬法(バックプロパゲーション)と呼ばれる計算アルゴリズムです。誤差逆伝搬法は損失関数を各層ごと入出力関数の合成関数とみなして損失関数の微分値を計算する手法です。合成関数の微分の特性を利用することで、出力層から入力層に向かう方向で漸化式を導くことができ、この逆向きの漸化式から「逆伝搬」の名称がついていると考えられます。着目するのは次の量です。

\delta_i^{(l)} \equiv  \frac{\partial E}{\partial X^{(l)}_{i}}

この量は第l層i番目のニューロン値に対する損失関数の勾配を表します。本書ではデルタ値と呼ぶことにします。このデルタ値はネットワーク上のすべてのニューロンごとに定義することができ、第l層と第l+1層のデルタ値には次の関係を導くことができます(ここで合成関数の微分が活躍します)。

\delta_i^{(l)}= \frac{\partial E}{\partial X^{(l)}_{i}} =  \sum\limits_{j} \frac{\partial E}{\partial X^{(l+1)}_{j}} \,\frac{\partial X^{(l+1)}_{j}}{\partial X^{(l)}_{i}}  = \sum\limits_{j} \delta_j^{(l+1)} f'\left(x_j^{(l+1)}\right) W_{ji}^{(l)}

これは \delta_i^{(l)}\delta_i^{(l+1)} の関係式を表す漸化式です。その他の変数は通常の「入力→出力」の計算時(以後、順伝搬と呼ぶことにします)に計算済みなので、出力層におけるデルタ値が与えられれば、すべての層のデルタ値を計算することができます。あとはこのデルタ値を用いて、重みとバイアスに対する損失関数の勾配を計算するだけです。それぞれ、合成関数の微分を利用すると次のとおりに得られます。

\frac{\partial E}{\partial W^{(l)}_{ij}} = \frac{\partial E}{\partial X^{(l+1)}_{i}}\, \frac{\partial X^{(l+1)}_{i}}{\partial W^{(l)}_{ij}}=\delta^{(l+1)}_i X^{(l)}_j f'\left(x_i^{(l+1)}\right)
\frac{\partial E}{\partial b^{(l)}_{i}}=\frac{\partial E}{\partial X^{(l+1)}_{i}}\, \frac{\partial X^{(l+1)}_{i}}{\partial b^{(l)}_{i}}=\delta^{(l+1)}_i f'\left(x_i^{(l+1)}\right)

この誤差逆伝搬法を用いると重みと勾配の計算を層数やニューロン数によらず、1回の逆伝搬計算で各層のデルタ値が得られるため、層数とニューロン数が大きくなるほど効果は絶大となります。 以上誤差逆伝搬法の計算アルゴリズムの一般論です。具体的な活性化関数に対する計算アルゴリズムは次項で示します。



▲このページのトップNPO法人 natural science トップ

関連記事

ゼロから作るDeep Learning







▲このページのトップNPO法人 natural science トップ