2025-01-01から1年間の記事一覧

誤差逆伝播なしで巨大Transformerは学習できるのか？

はてなブログだと数式がうまく表示されないのでHackMDに書きました。話題として気になっていたので、ゼロ次最適化の次元依存下限とクレジット割当問題の観点から考察してみました。 hackmd.io

はじめにこの記事では，ニューラルネットワークを乱数初期化のまま学習させたときに発生する「初期化の罠」を整理し，その回避策としての事前学習を原理から紹介します．Transformer や ResNet がどうして安定的に学習できるのか．最新の理論をもとに掘り…