ChatGPTは、どうやってプロンプトの回答を予測しているのか?

人気店や企業から非公開の招待状をもらおう!レポハピ会員登録

   ChatGPTに代表される生成AIが新たなツールとなりつつある。それらを支える「大規模言語モデル」とはどのような仕組みなのか。

   本書「大規模言語モデルは新たな知能か ChatGPTが変えた世界」(岩波書店)は、どんな原理、技術が生成AIを支えているのか、文系のビジネスパーソンにもわかりやすく解説した本である。

「大規模言語モデルは新たな知能か ChatGPTが変えた世界」(岡野原大輔著)岩波書店

   著者の岡野原大輔さんは、2010年東京大学大学院情報理工学系研究科博士課程修了。博士(情報理工学)。2006年Preferred Infrastructureを共同で創業。2014年Preferred Networks(PFN)を共同で設立。現在、PFN代表取締役最高研究責任者およびPreferred Computational Chemistry代表取締役社長を務める。著書に「高速文字列解析の世界」「拡散モデル データ生成技術の数理」などがある。

   大規模言語モデルが登場してくるまでの過程をわかりやすく解説しているので、ChatGPTの原理を理解するのに役立つだろう。

確率から次の単語、文を予測する

   20世紀を代表する科学者であるクロード・シャノンが、1948年に発表した論文の中で、情報量と呼ばれる概念を導入し、情報理論という分野を立ち上げた。

   メッセージから意味をなくし、その事象が起こるであろう確率のみから情報量を定義するという、大胆な抽象化を行ったのである。

   情報という概念は、言語にも適用できる。

   確率の性質を使えば、ある文の出現確率は、これまで出現した単語列から次の単語が出現するであろうと予測した確率を、すべての単語について掛けあわせて求めることができるのだ。

   たとえば、「私 は 走る」という単語列の出現確率は、「私」という単語が出現する確率、「私」の後に「は」が出現する確率、「私 は」の後に「走る」が出現する確率を掛けた結果として求めることができる。

   そして、文に対して確率を割り当てることのできるモデルを、一般に「言語モデル」と呼ぶ。これまでの単語列から次に出現するであろう各単語の出現確率を予測するモデルで構成することができる。この予測確率は、訓練データを使って学習し推定する。

   言語モデルは別の目的にも使うことができる。それは、確率分布に従って新しく文を生成することである。

   これと並行して、消された単語を予測する(単語当てタスク)ことで言語理解の能力を獲得する「自己教師あり学習」が行われた。

   消された単語を予測する問題をたくさん解き、間違えた場合は正解を教えてもらう。そして、次からは同じように間違えず、当てられるように解き方を修正するだけで、言語理解に必要な能力を自然と獲得できるのではないか、という考えによるものだった。

   この考え方にもとづき、2018年にグーグルの研究者らがBERTと呼ばれるモデルを提案。これまでのモデルに比べて圧倒的に効果的に解けることを示した。

   単語当てタスクが解けるようになると、問題の背後にある法則やルールを理解できるかが、期待される段階になる。学習中に見たことのない将来のデータに対しても、うまく予測できるようになってほしい、というわけだ。

   このように、未知のデータでもうまく予測できるようになることを「汎化」と呼び、汎化ができる能力を「汎化能力」と呼ぶ。

姉妹サイト