NNにおけるSigmoid関数とReLU関数の比較

某大学院の院試の過去問に、「DNNにおいて中間層を増やすとSigmoid関数よりReLU関数の方が優れている理由を述べよ」といった問題があったので、調べてみた。

Sigmoid関数は次のような式で表される。

$y=\frac{1}{1+e^{-x}}$

Sigmoid関数は入力に対して連続なので微分ができる。この微分ができるという点は、誤差逆伝播法による学習を伴うニューラルネットワークにとって重要である。

導関数は以下の通りで、簡単に計算ができる。

$y'=(1-y)y$

別名ランプ関数と呼ばれ、入力が0以下の時は0を、それ以外(0より大きい)時はその値を出力する関数である。

$y=max(0,x)$

x=0において、非連続で微分不可能であるが、その他の領域では微分可能なので、微分可能な活性化関数として扱われることが多い。

2つの関数のメリット・デメリットをそれぞれみていくと、どうも勾配の消失問題に答えがありそうだ。

勾配消失問題とは、誤差逆伝播法が下位層に向かって進んでいくにつれて、勾配がどんどん緩やかになっていく。そのため、勾配降下法による更新では下位層のパラメータはほとんど変わらず、訓練は最適値に収束しなくなるといった問題のことである。

勾配が消えていく理由は、シグモイド関数の微分係数の最大値が0.25（範囲: 0.0～0.25）であり、そのシグモイド関数を重ねれば重ねるほど勾配の値は小さくなっていくからである。

試しに、0.25⁵を計算すると…… $9.8 \times 10^{-4}$ と、かなり小さい値になる。

一方で、ReLU関数の導関数は、x<0のとき0、x>0のとき1である(x=0のときは微分不可能)。

よって、ReLu関数では勾配消失問題が起きることがないため、題意のようになる。

はとむぎ研究室