この記事はDeep Learning Advent Calendar 2015 23日目の記事です．

はじめに

コンピュータセキュリティシンポジウム2015 キャンドルスターセッションで（急遽）発表したものをまとめたものです．

また，私の体力が底を尽きてるので，後日に大幅な加筆・修正します．

Deep Learning Advent Calendar 21日目の記事はすいません，しばらくお待ちください...

Deep Leaningの光と闇

Deep Learningが様々なタスクにおいて大きな成果を上げています．また，各種フレームワークの登場によって，Deep Learningの導入や実践する敷居が大幅に下がりました．このことから，Deep Learningを活用していこうと考えてる，あるいはすでに活用している企業や研究者が増えてきています．

Deep Learningによって従来の手法を大きく上回る性能を発揮したり，今まで実現できなかったことが実現できたりと脚光を浴びてる一方で，「あるタスクにDeep Learningを導入したものの，所望の効果が得られない」あるいは「従来の手法に性能で負けてしまった」などと，うまくいかないこともあると思います．

高いポテンシャルを秘めてることは確かのですが，Deep Learningは深いアーキテクチャなだけに深い考察が必要です．そのため，以下のことを考えなくてはなりません．

タスクごとにネットワークの構成を考えなくてなはらない
最適な（あるいは最適に近い）ハイパパラメータを求めなくてはならない

1に関しては，例えば画像認識をやる場合はCNNを使うと思います．CNNにも色々な構成があるので，問題に応じて色々構成を変えると性能が良くなることがあります．タスクに応じてstate-of-the-artな構成が公開されていることがあるので，それを用いるのが良いでしょう．

一番問題なのは，2のハイパパラメータの調整だと思います．

機械学習アルゴリズムは基本的に調整が必要なハイパパラメータが存在します．これをデタラメに調整したかと厳密に調整したかどうかで性能は雲泥の差があります．

学習させる全てのタスクにおいて共通の最適なハイパパラメータがあれば，1回だけ厳密に求めてあとは使い回せば良いのですが，基本的にタスクごとに求める必要があります．

AROWやSCWなどのオンライン線形分類器はハイパパラメータが1・2個しかないのに対して，ニューラルネットワークで構成されていることが多いDeep Learningでは，ハイパパラメータはとんでもない数になります（学習係数，隠れ層のユニット数，層の段数，epoch，dropout，momentum，weight decay，batch size...etc.）．

これを探索する手法はグリッドサーチがよく用いられます．しかし，ハイパパラメータが1つ増えるたびに組み合わせの数が爆発的に増えるため，1回の試行時間が長いかつ組み合わせ数が多いDeep Learningでグリッドサーチを行うのは現実的ではありません．

では，このたくさんのハイパパラメータをどうやって調整するのでしょうか．