そもそもなぜ事前学習（Pre-training）が要るのか？

はじめに

この記事では，ニューラルネットワークを乱数初期化のまま学習させたときに発生する 「初期化の罠」 を整理し，その回避策としての事前学習を原理から紹介します．Transformer や ResNet がどうして安定的に学習できるのか．最新の理論をもとに掘り下げながら，「事前学習モデルを微調整するのが一番コスパが良い理由」を示したいと思います．

1. いきなり Fine‑tune はダメ？

深層モデルの損失関数は高次元かつ非凸ですが，実際には Transformer や ResNet がサクッと収束するケースのほうが多いです．ところが，小規模データをゼロから Transformer で Fine‑Tune しようとすると，勾配が発散したり精度がガタ落ちしたりするシーンが報告されています．たとえば Spider (∼7 k 訓練例) では，標準初期化の Transformer は 8 層超で学習が完全に破綻することが報告されています[1]．
一方で，BERT などの事前学習済み重みを読み込んで数エポックだけ微調整すると，安定的かつ高精度で着地します．BERT は 2.5 k 例しかない RTE にも 3 エポックで 70 % 超の SOTA を達成しています[2]．

なぜ「スクラッチ学習」と「事前学習＋微調整」でこんなに差がつくのでしょうか．ここで鍵になるのが損失ランドスケープの形状と初期値の位置関係です．そこで，まずは次の二点を確かめてみることにします．

疑問点

損失ランドスケープに「悪い局所極小」は本当に残っているのか？
もし残っているなら，どんな初期値がその深みにはまりやすいのか？

2. 初期化の罠

2‑1. Transformer に潜む良性領域 I★

Makkuva ら[3]は「1 層 Transformer × 1 次 Markov データ」を厳密に解析し，初期値が良性領域 I★に入ると必ず大域最適へ流れ着き，I★ を外すと局所極小で足踏みすることを示しました．I★ に含まれる条件は「重みスケール×Markov 遷移確率」の不等式で書けるのですが標準ガウス初期化だと高確率で I★ を外すと主張しています．

図1では，

データ側の指標 ＝ Markov の遷移確率の和 (p + q)
モデル側の指標 ＝埋め込みベクトル e と重み w の初期スケール

という 2 軸で平面を描き，その上に
緑＝大域最適へ流れ込む領域 I★，赤＝局所極小で足踏みする領域 を色分けしています．

結論だけつまむと，

おとなしい系列 (p + q < 1) なら，原点近くの小さな初期化でも I★ 内に入りやすく，自然に大域最適へ導かれる．
コロコロ状態が切り替わる系列 (p + q > 1) だと，原点周辺は I★ の外に追いやられ，標準ガウス初期化 (σ = 0.02) はほぼ必ず局所極小に捕まる．

この2つを図が対照的に描き出しており，「安全域に入り込むには，事前学習で座標を合わせておくとよい」ということが導かれます．

要するに，事前学習重みは「データの揺らぎに合わせてスケールが調律済み」なので，最初から I★ の真ん中にワープできるということになります．

図 1:　Transformer（2 次元設定）の勾配流と収束領域

2‑2. 他アーキテクチャに共通する良性条件

理論結果	ランドスケープの性質	初期化・モデル幅との関係
ResNet（Kawaguchi & Bengio, 2019）[4]	残差接続で悪い局所極小ゼロ	ガウス初期化でもかなり安全
重み減衰付き二層 ReLU の凸最適化（Lacotte & Pilanci, 2020）[5]	重み減衰付きで凸問題に帰着	隠れユニット数が臨界値に達すると悪い局所極小が消滅し，損失景観が “凸的” になる
オーバーパラメータ化 ReLUネットワーク（Karhadkar et al., 2024）[6]	ほとんどの領域で局所＝大域	幅を増やすほど安全域が拡張

要は，幅を盛る・残差を挿す・正則化をかけると損失谷が「平らでつながった安全地帯」に変形します．でも その谷にたどり着けるかは初期値の運次第と言えます．事前学習は谷への近道を作る，というわけです．

図 2:　Gaussian 初期化の危険域

3. 事前学習が効く五つの理由

良性領域へのショートカット
事前学習済み重みは Transformer の I★，ResNet のフラットな谷など，安全地帯を初期位置にしてくれます．
表現多様体の事前獲得
自己教師あり学習により低ランク＆情報圧縮された構造が重み空間に刻まれ，下流タスクの損失が滑らか＆低次元化します [7, 8, 14–16]．
データ効率の向上
PAC-Bayes¹ 的には「良い先験」を持つほど少サンプルでも一般化保証が強まります．自己教師ありで得た事前分布を解析した研究では，ImageNet のラベル数を 1/10 まで削っても性能を保てることが示されています [9]．
最適化の安定化
勾配爆発／消失の元凶はスケール不整合．事前学習重みは層ごとのスケールが整っているため，学習率を上げても収束が速く確実になると報告されています [11, 17]．
フラット方向を利用した微調整
過パラメータ化で生じる“フラット多様体”上を低エネルギーで移動できるため破滅的忘却が抑えられます．LoRA や Adapter 手法がごく少ない更新量で済むのは，事前学習後にパラメータ空間の有効次元が大幅に圧縮されているからだと説明されています [12, 13]．

4. 具体例：良い初期化が劇的に効くケース

具体的には，1 次 Markov データの遷移確率 p（0→1）と q（1→0）の和が 1 を超える，つまり「状態がコロコロ入れ替わる」厳しい条件（p + q > 1）を想定します．この設定では，標準ガウス初期化 (σ = 0.02) だと学習がユニグラム並みの損失に沈んでしまいます．一方で，理論に基づいて重みを e = 0.5，W₁ = 1，W₂ = −1 に置くとバイグラムの最適損失までストンと収束します．しかもそのあいだ，重み行列はずっとランク 1 を維持、低ランク初期化の強みが数字にも図にもはっきり現れています．

図 3:　標準初期化 vs. 理論初期化の損失曲線

5. まとめ

計算コスト：スクラッチ学習は I★ の外側をさまよう試行錯誤フェーズに GPU 時間を大量消費するが，事前学習＋微調整は “谷の中心” スタートなのでエポック数が桁違いに少なくて済む．
データコスト：PAC‑Bayes 的に「良い事前分布」を持つモデルは少サンプルでも汎化保証が強くなるため，追加ラベルを集めるコストが抑えられる．
失敗リスク：標準初期化は p + q > 1 の厳しい領域で発散・劣化が起きやすいが，事前学習重みは実証的に I★ 内にあり，学習破綻の再現率がきわめて低い．
再現性：公開 Foundation Model をベースにすれば，ほぼ同じ初期条件を共有でき，ベンチマーク再現が容易になる．
拡張性：LoRA や Adapter 系の“微更新”と親和性が高く，将来の下流タスク追加も差分学習で回せるため，総ライフサイクルコストが下がる．

参考文献

[1] Peng Xu, Dhruv Kumar, Wei Yang, Wenjie Zi, Keyi Tang, Chenyang Huang, Jackie Chi Kit Cheung, Simon J. D. Prince, and Yanshuai Cao, “Optimizing Deeper Transformers on Small Datasets,” arXiv preprint arXiv:2012.15355 (v4), May 2021 — ACL 2021 採択.

[2] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova, “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,” Proceedings of NAACL-HLT 2019, pp. 4171–4186, June 2019.

[3] Ashok Vardhan Makkuva, Marco Bondaschi, Chanakya Ekbote, Adway Girish, Alliot Nagle, Hyeji Kim, and Michael Gastpar, “Local to Global: Learning Dynamics and Effect of Initialization for Transformers,” arXiv preprint arXiv:2406.03072, June 2024.

[4] Kenji Kawaguchi and Yoshua Bengio, “Depth with Nonlinearity Creates No Bad Local Minima in ResNets,” Neural Networks, vol. 118, pp. 167–174, 2019.

[5] Yifei Wang, Jonathan Lacotte, and Mert Pilanci, “The Hidden Convex Optimization Landscape of Two-Layer ReLU Neural Networks: An Exact Characterization of the Optimal Solutions,” arXiv preprint arXiv:2006.05900, June 2020.

[6] Kedar Karhadkar, Michael Murray, Hanna Tseran, and Guido F. Montúfar, “Mildly Overparameterized ReLU Networks Have a Favorable Loss Landscape,” arXiv preprint arXiv:2305.19510 (v3), February 2024.

[7] Hanxun Huang, Ricardo J. G. B. Campello, Sarah M. Erfani, Xingjun Ma, Michael E. Houle, and James Bailey, “LDReg: Local Dimensionality Regularized Self-Supervised Learning,” arXiv preprint arXiv:2401.10474 (v2), March 2024 — ICLR 2024 採択.

[8] Ravid Shwartz-Ziv, Amichai Painsky, and Naftali Tishby, “Representation Compression and Generalization in Deep Neural Networks,” Proceedings of ICLR 2019, May 2019.

[9] Ting Chen, Simon Kornblith, Mohammad Norouzi, and Geoffrey Hinton, “Big Self-Supervised Models Are Strong Semi-Supervised Learners,” arXiv preprint arXiv:2006.10029, June 2020 — NeurIPS 2020 (SimCLRv2).

[10] David Berthelot, Nicholas Carlini, Ian Goodfellow, Nicolas Papernot, Avital Oliver, and Colin A. Raffel, “MixMatch: A Holistic Approach to Semi-Supervised Learning,” Proceedings of NeurIPS 2019, December 2019.

[11] Hongyu Wang, Shuming Ma, Li Dong, Shaohan Huang, Dongdong Zhang, and Furu Wei, “DeepNet: Scaling Transformers to 1,000 Layers,” arXiv preprint arXiv:2203.00555, March 2022.

[12] Armen Aghajanyan, Sonal Gupta, and Luke Zettlemoyer, “Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning,” Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics (ACL 2021), pp. 7319–7328, August 2021.

[13] Edward J. Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shane Wang, and Weizhu Chen, “LoRA: Low-Rank Adaptation of Large Language Models,” Proceedings of ICLR 2023, May 2023.

[14] Hao Li, Zheng Xu, Gavin Taylor, Christoph Studer, and Tom Goldstein, “Visualizing the Loss Landscape of Neural Nets,” Advances in Neural Information Processing Systems 31 (NeurIPS 2018), December 2018.

[15] Stanislav Fort and Stanislaw Jastrzebski, “Large Scale Structure of Neural Network Loss Landscapes,” Advances in Neural Information Processing Systems 32 (NeurIPS 2019), pp. 6706–6714, December 2019.

[16] Behrooz Ghorbani, Shankar Krishnan, and Ying Xiao, “An Investigation into Neural Net Optimization via Hessian Eigenvalue Density,” Proceedings of the 36th International Conference on Machine Learning (ICML 2019), pp. 2232–2241, June 2019.

[17] Akhil Kedia, Mohd Abbas Zaidi, Sushil Khyalia, Jungho Jung, Harshith Goka, and Haejun Lee, “Transformers Get Stable: An End-to-End Signal Propagation Theory for Language Models,” arXiv preprint arXiv:2403.09635, March 2024 — ICML 2024 採択.

PAC-Bayes (Probably Approximately Correct Bayesian) は，事前（prior）と事後（posterior）という「確率分布でモデルを眺める視点」を導入し，「訓練データでうまく行ったモデルが、未知データでも失敗しにくいこと」を理論的に保証する枠組みの一つ．↩