大規模言語モデルは新たな知能か

PFNの岡野原大輔氏によるLLM解説本。

後書きによると、企画を話したのが2月14日、初稿まで2週間だったそうだ。書くネタは十分あったようだ。ただ、あまりに変化が急なので何を書くか書かないかの選択は難しかったろう。

大きな流れと主要な技術をきちんと説明するという方針になったようで、第3章は「機械はなぜ人のように話せないのか」として言語獲得の話をしている。第4章ではシャノンの情報理論の解説をしており、1948年の予測モデルの生成結果などを紹介している。

LLM自体については、活性化関数（ReLU)、誤差逆伝播法を紹介した後ディープラーニングを解説し、ディープラーニングの成功の3つのポイントを、表現学習の達成、複雑な問題の学習、汎化をあげている。ディープラーニングでモデルサイズが大きい方が汎化性能が高くなることについては仮説を2つ（宝くじ仮説、平坦な最小解仮説）があるがこれはまだLLMでは確認できていない。そして、Transformerモデル（Attention)。この自己注意機能が本文中学習を実現している（指示に合わせてモデルを適応させている）。これは当初の開発者が想定していた効果ではなかったのだそうだ。

最後に矯正法。ラベラーの模範解答を用いて教師有り学習で修正、複数モデルの解答例をラベラーがランキングしこのデータを用いて自動評価システムを作る、評価が高くなるように強化学習する。これがアルファ碁のアプローチと同じであることを指摘。

重要そうなところをうまくまとめて紹介してくれている良い本だと思う