生成型大規模言語モデルについての情報発信

言語処理学会ではChatGPTに代表される生成型大規模言語モデルについて自然言語処理の専門家の立場から情報発信しています。

緊急パネル：ChatGPTで自然言語処理は終わるのか？（言語処理学会理事会主催）2023年3月14日沖縄コンベンションセンター

また、下に掲載する言語処理の専門家の役割と責任に言及する会長メッセージを会誌『自然言語処理 Vol.30, No.2（6月15日発行）』の巻頭言として発信する予定です。

ChatGPTの出現は自然言語処理の専門家に何を問いかけているか

乾健太郎（東北大学／理化学研究所）

　大規模言語モデルの発展によって自然言語処理（NLP）の方法論はもとより，NLPを取り巻く環境も大きく様変わりした．中でもOpenAIから発表された大規模言語モデルChatGPTはNLPの応用を飛躍的に拡げ，月間アクティブユーザ数がわずか2ヶ月で1億を超えるなど，世界中で驚異的な関心を集めている．本会では，去る3月の年次大会で「緊急パネル：ChatGPTで自然言語処理は終わるのか？」と題するパネル討論を開催し，ChatGPTに関するファクトの共有をはかるとともにNLP研究の今後について議論した（脚注1）．本稿では，パネルの議論を踏まえながら，大規模言語モデルによる言語処理技術の劇的な進歩は我々専門家に何を問いかけているかを考えたい．　ChatGPTを含む近年の大規模言語モデルは，自然言語で与えた指示に従って様々なタスクをこなす汎用性を獲得してきている．要約・推敲・翻訳，質問応答，対話，算術・論理推論，コーディングといった多様なタスクを実行できる．しかも，個々のタスクの性能は従来の単機能のモデルに比肩するか，場合によっては超えるという報告も出てきた．そうした中で登場したChatGPTは，従来の言語モデルに加えて指示や質問を対話的に受け付ける機能を備えており，この点がわかりやすさにも繋がり，潜在的用途の一層の拡大を伴って社会変革と評されるほどの大きなうねりになったと想像される．言うまでもなく，これらの技術はこれまでのNLPの基礎・応用研究の蓄積の上に築かれたものであり，多くの本会会員がその発展に貢献してきた．そうした技術が社会を大きく変えようとするまでに育ってきたことは，この分野に身を置く研究者の一人として感慨深い．　では，これで自然言語処理は終わるのか？もちろん，終わらない．解くべき課題，新たに生まれる問いは山ほどある．まずは，現在の大規模言語モデルに何ができて何ができないかを，定量的評価も含めて冷静に検証・分析していくことが重要であろう．近年開発が進んだベンチマークで評価するだけでは限界を見極めることは難しいかもしれない．モデルの評価軸・評価方法の研究もさらに進める必要があるだろう．できること，できないことを精緻に語るボキャブラリを磨くことも必要かもしれない．過大評価にも過小評価にも陥らないように科学的な検証を積み上げ，それを言語化し社会に提供していくことは我々専門家の責任でもある．　解くべき課題は，学習原理の数理的解明（何がなぜ学習されるか）や効率性（データ/モデル効率，グリーン）といった領域に閉じた問題に留まらない．技術が人間・社会に近づいたがゆえに，社会との接点にかかわる課題も飛躍的に重要性を増している．説明性・解釈性（ブラックボックス問題），安全性（誤情報，個人情報，著作権問題，コンプライアンス），公平性（バイアス問題），信頼性（どう保証するか）といった課題では，言語学はもとより，哲学，社会学，心理学，教育学，法律学など他分野の専門家との連携がさらに求められるだろう．　大規模言語モデルの出現は人間・社会を科学する方向の研究に波及する可能性もある．「つくる」を通して「わかる」に迫る科学の構成論的アプローチの考え方に照らすなら，言語のモデル化（つくる）が一段進んだ今，それを梃子に人間の認知の科学的解明（わかる）を一歩先に進めることができるかもしれない．人間の認識，情動，意思決定，学習等の科学的理解に向けた脳神経科学，認知科学等との一層の連携も期待される．大規模言語モデルとマルチモーダルデータとの組合せ，さらには生物医学，経済・法律・社会学など様々なドメインデータとの組合せによる複合分野への展開でもNLPの貢献は広がるだろう．その先には，身体性，メンタルモデル，共感，メタ認知など，我々の興味をかき立ててやまない技術的問い，科学的問いも連なり果てしない．新しい技術が出てきてゲームチェンジとなるとき，苦しいのはたいていシニアの専門家である．過去にしがらみのない若手はしなやかに適応していけるはずだ．激動の時代はチャンスの宝庫でもある．そこに遭遇できた幸運を楽しもう．
　イギリス産業革命は，技術の進歩，事業の拡大や投資への意欲，技能や才能の有効利用の3条件が揃い，おびただしい数の試行錯誤が自律分散的持続的に巻き起こることによって発生したと言われる．近年の大規模言語モデルの最大の貢献は，新しい応用，サービス，ビジネスモデルの試行錯誤の手段を幅広い層のユーザに開放し，イノベーションをはぐくむ土壌を生んだことにあると見ることもできよう．オープンソースのモデル構築も急速に広がっており，試行錯誤の民主化は今後さらに進むだろう．一方，そうした土壌を創造的に活用し，健全な発展に繋げるには，技術の悪用を防ぎ，技術への過度な依存を抑制するための仕組みづくりも欠かせない．安全性，公平性，信頼性等への技術的対策の開発，社会・各界のルールづくり，人間と機械の役割分担の再構築も含めた試行錯誤を「冷静なる楽観」のもとに社会全体で進めていく必要がある．NLPの専門家の役割と責任は大きい．

脚注1. パネル討論の動画と資料は[1]から閲覧できる．パネリストの鈴木潤氏（東北大）から紹介された「ChatGPT に関する調査結果」は資料の増補版[2]も公開されている．他にも[3]～[5]等の資料，解説記事が発表されている．
[1] 言語処理学会第29回年次大会緊急パネル
[2] 鈴木潤. ChatGPTに関する調査結果 2023.03.14版. 2023年3月.
[3] 黒橋禎夫. ChatGPTの仕組みと社会へのインパクト. 2023年3月.
[4] 岡崎直観. 大規模言語モデルの驚異と脅威. 2023年3月.
[5] W. X. Zhao, et al. Survey of Large Language Models. arXiv, 2303.18223, 2023年3月