論文誌編集委員会 副編集長 浅原正幸(国立国語研究所)
2023年に出版された自然言語処理30巻1号から4号に掲載された論文38編より,編集委員会が賞に相応しい論文を推薦することを目標として,実施しました.選考は以下の手続きで実施し,浅原正幸副編集長を選考委員長として,一次投票は編集委員39名が,二次投票は編集委員21名が,それぞれ選考委員会を編成して審査を行いました.
(1) 候補論文の決定:上記38編の論文のうち,査読点数が5点満点で4点以上の論文および担当編集委員から推薦のあった論文を候補論文とし,計22編の論文を一次投票の対象としました.
(2) 一次投票:選考委員39名が,22編の候補論文の中から,COI(※)を考慮して各自に割り当てられた2〜3編の論文を読んだうえで,5点満点で採点しました.一論文あたり5名の委員が審査し,高得点を得た上位8編の論文を選出しました.
(3) 二次投票:COIのない21名を審査員とする最終選考委員会を編成し,上位8編の論文を対象として,委員が全論文を読んだうえで,審査を行いました.そして,1編の論文を最優秀論文賞候補,3編を論文賞候補に推薦することを決しました.(最終的に理事会でこの推薦を承認し,論文賞を決定しました)
(最優秀論文賞)
栗原 健太郎,河原 大輔,柴田 知秀. JGLUE: 日本語言語理解ベンチマーク, Vol.30, No.1, pp. 63-87.
(論文賞)
塚越 駿,笹野 遼平,武田 浩一. 定義文を用いた文埋め込み構成法, Vol.30, No.1, pp. 125-155.
李 凌寒,鶴岡 慶雅. 人工言語による事前学習を用いた言語間転移可能な知識の分析, Vol.30, No.2, pp. 664-688.
大村 和正,河原 大輔,黒橋 禎夫. 基本イベントに基づく常識推論データセットの構築と利用, Vol.30, No.4, pp. 1206-1239.
以上,4編の論文については第30回年次大会で招待論文として講演いただきました.
※COIについて
以下の条件に一つ以上該当する委員は,当該論文の投票に参加せず,選考を実施した.
・著者である
・著者と現在同じ組織に所属している
・著者と過去1年以内に共同で研究している
NLP2024大会委員長 柴田 知秀(大会担当理事・LINEヤフー株式会社)
同プログラム委員長 高村 大也(産業技術総合研究所)
同実行委員長 横野 光(明星大学)
■実施概要
○会期
・チュートリアル 2024年3月11日(月)
・本会議 2024年3月11日(月)~ 14日(木)
・ワークショップ 2024年3月15日(金)
〇 開催形式・会場
NLP2024はNLP2023に引き続きハイブリッド形式で開催し,神戸国際会議場 (兵庫県神戸市)を現地会場とし,全ての口頭発表セッションをZoomでオンライン中継しました.現地会場にはWi-Fiを整備し,参加者Slackを通じた現地・オンライン間のディスカッションの醸成に取り組みました.
また,NLP2024は言語処理学会30周年を記念した大会として開催しました.節目の大会で,これまでの30年の蓄積を振り返り,これからの自然言語処理について議論できる場になったのではないかと考えています.
〇 参加状況
参加者数は前回大会から300名ほど増加し,過去最高の2,121名となりました.登録種別毎の参加者数は次の通りです.
・ 一般
・会員 599 (550)
・ 非会員 600 (386)
・ 学生
・会員 490 (473)
・ 非会員 181 (163)
・ 招待
・ スポンサー 217 (211)
・ 賛助会員 19 (29)
・ 講師等 15 (17)
※ ()内はNLP2023の実績値
〇スポンサー
歴代最多の89団体からご支援を頂きました.ランク別の申込数は次の通りです.また,スポンサー賞は9件から14件と大幅に増加しました.
・ 一般
・ダイヤモンドスポンサー 2
・プラチナスポンサー 37 (29)
・ゴールドスポンサー 22 (26)
・シルバースポンサー 28 (23)
※ ()内はNLP2023の実績値
〇 収支
大会開催前の想定を上回る参加者数ならびにスポンサー数であったため増収となりましたが,現地参加者の増加に対応するために,会場使用料・会場備品料・茶菓代やオンライン配信業務委託費などの追加にあてさせていただき,最終的には大会収支は軽微な黒字となりました.
○ プログラム概要
■本会議 (3月11日-14日)
一般セッション・テーマセッションには,昨年を20件上回る599件の論文投稿がありました.テーマセッションは昨年の2倍近い78件の論文発表がありました.
・口頭発表(一般) 224件 (260件)
・口頭発表(テーマセッション) 78件 (37件)
・ポスター発表 297件 (282件)
■テーマセッション
公募により採択された次の6件のテーマセッションが本会議中に開催されました.
・人間と計算機のことばの評価 (18件)
・金融・経済ドメインのための言語処理 (15件)
・法ドメインにおける言語処理 (9件+総合討論)
・言語とコミュニケーションの創発 (12件)
・ことばと地理空間の情報処理 (9件+総合討論)
・深層学習時代の言語学と自然言語処理 (15件+総合討論)
■ワークショップ (3月15日)
公募により採択された次の4件のワークショップが開催されました.いずれも多くの参加者が集まり,濃密な議論が行われました.
・自治体における生成AI(ChatGPT)の利活用と問題点 (午前)
・生成AI時代の自然言語処理における産学官の役割と課題 (全日)
・日本語言語資源の構築と利用性の向上 (全日)
・大規模言語モデルの実世界応用 (午後)
■チュートリアル (3月11日)
次の4つのチュートリアルを実施しました.
・自然言語処理の基礎/岡崎 直観 先生(東京工業大学)
・デジタル・ヒューマニティーズ入門/北本 朝展 先生(ROIS-DS人文学オープンデータ共同利用センター/国立情報学研究所)
・作って学ぶ日本語大規模言語モデル/松田 寛 先生(株式会社リクルート Megagon Labs)
・計算社会科学入門/吉田 光男 先生(筑波大学)
■特別招待講演(3月13日・14日)
言語処理学会30周年を記念し,通常の招待講演を特別招待講演とし,記念大会にふさわしい次の2名の先生をお招きしました.前川先生の特別招待講演はYouTube Liveによる一般配信も実施しました.
・Kevin Knight 先生(Threeven Labs)
30 Years of Perplexity
・前川 喜久雄 先生(国立国語研究所)
これからの日本語研究と国立国語研究所:E3P-Linguisticsをめざして
■招待論文講演 (3月11日)
会誌「自然言語処理」の発表論文から選出された次の4件の論文の発表が行われました.
・JGLUE: 日本語言語理解ベンチマーク
栗原 健太郎, 河原 大輔, 柴田 知秀
・定義文を用いた文埋め込み構成法
塚越 駿, 笹野 遼平, 武田 浩一
・人工言語による事前学習を用いた言語間転移可能な知識の分析
李 凌寒, 鶴岡 慶雅
・基本イベントに基づく常識推論データセットの構築と利用
大村 和正, 河原 大輔, 黒橋 禎夫
■スポンサーイブニング・スポンサー交流会 (3月11日)
スポンサーと参加者との交流を目的として,スポンサーイブニングとスポンサー交流会を開催しました.多くの方にご参加いただき,参加者とスポンサー間の交流で盛り上がりました.
■懇親会(3月13日)
新型コロナウイルスの影響のため,懇親会を開催することができていませんでしたが,本大会ではNLP2019以来,5年ぶりに現地(ANAクラウンプラザホテル神戸)で懇親会を開催することができました.600名もの参加者にご参加いただき,オフラインならではの交流をしていただけたのではないかと思います.
〇 総括
今大会は生成AIや大規模言語モデルで自然言語処理にかつてない注目が集まるなか開催され,参加者数・発表論文数・スポンサー数すべてが過去最多となり,大変盛況となりました.参加者数・発表論文数・スポンサー数の増加に対応するために,実行委員会・プログラム委員会・大会委員会を含め関係者の皆さんには献身的にご尽力いただき,また,様々なアイデアを出していただいたことにより,大きな問題なく大会を終えることができたと考えています.一部,準備が行き届かなかった点については深くお詫び申し上げるとともに,次回の大会に向け,改善を進めてまいります.
最後に,今大会を支えていただきました参加者・発表者・座長・スポンサー団体の皆さま,特別招待講演・チュートリアルの講演者の皆さま,現地開催をご支援いただいた神戸観光局・神戸コンベンションビューローの皆さま,実行委員会・プログラム委員会・渉外担当・大会秘書・業務委託関係先の皆さまに心よりお礼申し上げます.
第30回年次大会プログラム委員長 高村 大也(産業技術総合研究所)
■優秀賞・若手奨励賞
言語処理学会年次大会の優秀賞は,年次大会において論文の内容が優れていると認められた発表論文に与えられる賞です.また,優秀賞のうち特に優れたものがあれば,最優秀賞として選定されます(言語処理学会年次大会優秀賞規定).同様に若手奨励賞は,年次大会において論文の内容が優れていると認められた発表論文に関して,以下の条件を満たす著者に与えられる賞です(言語処理学会年次大会若手奨励賞規定).
・年次大会開催年の4月1日において満30歳未満のもの
・当該論文の第1著者であること
・過去に若手奨励賞を受賞していないこと
・ある論文が優秀賞を受賞する場合は,その論文の第1著者は若手奨励賞の対象とはならない
近年の年次大会の場合と同様に,今大会においても大会の開始前に全論文を対象に審査を行い,授賞論文・著者を決定し,大会のクロージングにて表彰します.
賞選考のための内規では,
・優秀賞は全発表件数の約2%を目安とする
・優秀賞の中で特に評価の高いものを0件から2件の範囲で最優秀賞とする
・若手奨励賞は対象論文のうち最大4%程度を目安に選出する
としております.
今大会の全発表件数は599件(前大会579件)であり,優秀賞の授賞件数は全体の約2%にあたる12件〜14件を目安としました.また若手奨励賞の対象となる論文は427件(前大会406件)でした.受賞件数はこの4%程度にあたる17件~19件を目安としました.
年次大会優秀賞・若手奨励賞の選考にあたっては,選考委員会を組織し,慎重な議論を重ねた上で選定を行いました.今回,選考委員会は計271名(前大会244名)で構成されました.各授賞論文には議論で合意された授賞理由が付記されます.授賞の最終的な責任はプログラム委員長の高村が負います.
賞選考は「論文審査」と「最終選考」の二段階で行いました.論文審査に先立ち,投稿カテゴリにより全ての論文を5つのグループ(A,B-a,B-b,C-a,C-b)に分けました.グループ毎に,そのグループの研究分野を専門とする選考委員を各論文に対し5名割り当て,審査を行いました.審査委員はそれぞれ最大12件の論文を担当し,各論文に対して,総合評価(6段階),新規性(5段階),有用性(5段階),読みやすさ(5段階)の観点から審査しました.この際,優秀賞に推薦する論文については推薦理由を記述するようお願いしました.また,前大会と同様,若手奨励賞のための推薦項目は設けず,優秀賞と若手奨励賞の選考は同じ総合評価の点に基づいて行いました.
論文審査終了後,最終選考を行いました.選考委員は,高村大也(産総研;プログラム委員長),嶋田和孝(九工大;副プログラム委員長),東中竜一郎(名古屋大;前プログラム委員長),欅惇志(一橋大;大会賞担当プログラム委員)の4名です.最終選考では,原則として,論文審査において審査員が与えた総合評価の点数の高い論文を授賞論文として選びました.4名の最終選考委員のうち,授賞のボーダーライン付近にCOIのある論文があったときは,COIのない選考委員で授賞論文を決めました.
最終選考では,まず優秀賞を決定しました.最初に,審査員による評価点のばらつきを抑えるために,一般化線形混合モデルを用いて総合評価の点を補正しました(以下では,補正後の評価点を単に「評価点」と呼びます).その評価点が高い論文に対し,審査員の推薦理由をチェックして受賞するにふさわしい論文であることを確認し,上位13件の論文を優秀賞として選びました.優秀賞の授賞件数の目安は12件~14件ですが,13位と14位の論文の評価点に開きが見られたことから今大会では13件に対して優秀賞を授賞することにしました.次に,これら13件のうち,1位と2位の論文の評価点に大きな差があったことから,上位1件の論文を最優秀賞として選びました.
次に,若手奨励賞を決定しました.優秀賞受賞論文ではなく,かつ若手奨励賞の受賞資格を満たす論文について,評価点が高い論文から順に,審査員の推薦理由をチェックして受賞するにふさわしい論文であることを1件ずつ確認し,上位18件の論文を若手奨励賞として選びました.若手奨励賞の授賞件数の目安は17件~19件ですが,19位と20位の間の差は僅少で,その差と比較すると18位と19位の間には開きが見られたため,今大会では18件に対して若手奨励賞を授賞することにしました.
以下は,最優秀賞,優秀賞,若手奨励賞の論文とその授賞理由です.
*言語処理学会第30回年次大会 最優秀賞(1 件:発表番号順)
B8-6 逆学習による言語モデルの解析
磯沼大 (エディンバラ大/東大), Ivan Titov (エディンバラ大)
本論文では特定の学習事例集合が言語モデルの学習に与える影響の度合いを測る手法UnTracを提案しています.UnTracは,学習済み言語モデルを,ターゲットとする学習事例集合に対する勾配上昇法で逆学習することにより影響度を測っています.既存手法と比較して,計算量および推定性能の点で優れており,また理論的な基盤もしっかりしています.大規模言語モデル隆盛の時代に必要とされる技術であり,発展性および応用可能性が非常に高いことから,最優秀賞にふさわしい論文であると判断しました.
*言語処理学会第30回年次大会 優秀賞(12件:発表番号順)
P1-20 単語ベクトルに基づく新たな meaning-frequency law の検証
永田亮 (甲南大), 田中久美子 (早大)
単語の語義数と頻度に関するmeaning-frequency lawの検証は,これまでは辞書を用いて行われてきましたが,語義数が辞書によって大きく異なり語義数の決定が難しいことや,単語の原型を対象とした限定的な検証であるという問題点がありました.そこで,本論文では辞書を用いずに従来よりも多様な種類の単語に対して同法則が上手く説明できることを効果的に示しており,当該分野への貢献が大きいことから優秀賞にふさわしい論文であると判断しました.
E2-1 テキスト生成による議論マイニング
川原田将之 (NTTドコモ), 平尾努 (NTT), 内田渉 (NTTドコモ), 永田昌明 (NTT)
本論文は,議論マイニングのタスクに,Translation between Augmented Natural Languages (TANL)というテキスト生成を通じた手法を適用することで,既存手法より単純かつ効果的な手法を提案しています.提案手法を,公開されている3種類の議論データセットに適用し,既存手法を上回る最高値を達成しました.また,QLoRAによるFine-tuning,議論に無関係なテキストを省略した出力生成,Instructionチューニングの有効性など実験的検証も充分になされており,堅実かつ効果的なアプローチといえます.以上のことから,優秀賞にふさわしい論文と判断しました.
D2-3 Autoformalization に向けた自然言語証明構造の形式化
服部清志, 松崎拓也, 藤原誠 (東京理科大)
本論文は,自然言語で書かれた数学証明をLeanの形式証明に変換するという自動形式化に取り組んでいます.提案手法は形式化のための手続きにおいて,議論構造解析に着目しています.また,形式証明上で各変数が正しいスコープを持つことを保証する仕組みとして,変数スコープエラー解決アルゴリズムを提案しています.大規模言語モデルが研究の主流となっている現在,本論文で示されているような議論構造解析を展開する研究や地道な分析は今後の自然言語処理においてとても重要だと思います.これらの貢献から優秀賞にふさわしいと判断しました.
C3-2 長文生成の多面的評価:人手評価と自動評価の向上を目指して
鴨田豪 (東北大), 浅井明里 (ワシントン大), Ana Brassard (理研/東北大), 坂口慶祐 (東北大/理研)
本論文は,回答として長文を生成する,Long Form Question Answering (LFQA)タスクにおいて,複数の絶対評価指標を組み合わせて評価を行う手法を提案しています.人手評価の大規模なデータセットを構築し,それに基づく実験から,総合評価に最も大きな影響を与える評価軸がFactualityであることを明らかにしています.また,新たな評価手法としてLLM-MATEを提案し,人手評価との高い相関を報告しています.効果的な評価手法の提案のみならず,データセットの公開もなされることから,今後のLFQAタスクにおける進展に大きく寄与すると考えられます.そのため,優秀賞にふさわしいと判断しました.
C3-4 InstructDoc: 自然言語指示に基づく視覚的文書理解
田中涼太 (NTT/東北大), 壱岐太一, 西田京介, 齋藤邦子 (NTT), 鈴木潤 (東北大)
本研究は,視覚的文書理解タスクのための大規模指示チューニングデータセットInstructDocの構築と,視覚的文書理解モデルInstructDrの提案を行っています.InstructDocは既存データセットと比較して複雑かつ多様なタスクに取り組み,また,InstructDrは様々な条件におけるzero-shot性能,及び,Fine-Tuning性能において既存手法を大きく上回る性能を達成しています.これらの理由より,本研究は今後の視覚的文書理解の発展に大きく資する可能性があると考えられるため,優秀賞にふさわしい論文と判断しました.
P4-20 文法誤り訂正の包括的メタ評価: 既存自動評価の限界と大規模言語モデルの可能性
小林正宗 (都立大), 三田雅人 (サイバーエージェント), 小町守 (一橋大)
本論文では,文法誤り訂正タスクについて取り組んでいます.既存のデータセット(GJG15)の3つの問題点を踏まえ,より信頼性の高いメタ評価(評価尺度の評価)のためのデータセットSEEDAを提案しています.また,データセットの構築だけでなく,複数の文法誤り訂正システムおよび評価尺度について,詳細でかつ丁寧な比較実験および分析が行われています.これらの結果は関連研究者にとって有用な知見になると考えられます.このような貢献から優秀賞にふさわしいと判断しました.
P5-24 地図を刺激に用いた位置情報参照表現の収集
大村舞, 川端良子 (国語研), 小西光 (Tecca合同会社), 浅原正幸 (国語研), 竹内誉羽 (HRI)
本論文では,クラウドソーシングを用いて地図上の位置情報を説明する表現(位置情報参照表現)を収録したデータベースを構築しています.言葉によって自分がどこにいるかを伝え,また,相手がどこにいるかを推測するような状況は私たちの日常において一般的であり,構築したデータベースを活用した様々な応用が期待できます.さらに,構築したデータベースは公開予定であり,データベースの構築手順やスクリーニングについての記述の資料的価値も高いと考えます.以上から,優秀賞にふさわしいと判断しました.
A6-1 Swallowコーパス: 日本語大規模ウェブコーパス
岡崎直観, 服部翔, 平井翔太 (東工大), 飯田大貴 (東工大/レトリバ), 大井聖也, 藤井一喜, 中村泰士, Mengsay Loem, 横田理央 (東工大), 水木栄 (東工大/ホットリンク)
本論文では Common Crawl のアーカイブから日本語の大規模言語モデル構築を目的としてテキストを抽出・精錬する手順について報告しています.大規模言語モデルを構築する上で重要とされているテキストの品質フィルタリングや重複除去に関する手法について焦点を当て,評価実験によって手法の良さを示したことは,今後の日本における大規模言語モデルの研究開発の水準を向上させる大きな貢献であると思います.以上から優秀賞にふさわしいと判断しました.
E6-5 動詞派生前置詞の文法化の定量化
永田亮 (甲南大), 川崎義史 (東大), 大谷直輝 (東京外大), 高村大也 (産総研)
本論文は,言語学研究における動詞派生前置詞の文法化に関する三つの仮説を,計算言語学的なアプローチから定量的に検証する手法を提案しています.文法化という長い時間を要する言語変化の現象を理論的基盤に基づいて定量化する点が独創的です.また,文法化度を判定する提案手法でBERTを用いる点は,多言語でも応用が利き,言語学研究への貢献は大きいといえます.以上の観点から優秀賞にふさわしい論文であると判断しました.
P6-25 自己認知は LM as KB の信頼性を高めるか
井之上直也 (JAIST/理研), 原口大地, 田中健史朗, 白井清昭, Natthawut Kertkeidkachorn (JAIST)
本論文では,大規模言語モデルに対する知識の問い合わせについて,問い合わせ結果の不確実性をチェックする自己認知機構を取り入れ,真偽が不確実な命題を2つの命題に分解することで再検証させる枠組みBack-off LMKBを提案しています.GPT-4およびGPT-3.5に基づくBack-off LMKBをStrategyQAで評価し,その有効性を示しています.大規模言語モデルの出力の信頼性をどのようにして担保するかは重要な課題であり,大規模言語モデルの実利用のための有効な知見を含んでいます.これらの貢献から,優秀賞にふさわしい論文と判断しました.
E7-1 どのような言語モデルが不可能な言語を学習してしまうのか?---語順普遍を例に---
栗林樹生 (MBZUAI), 上田亮, 吉田遼, 大関洋平 (東大), Ted Briscoe (MBZUAI), Timothy Baldwin (MBZUAI/メルボルン大)
本論文は,自然言語の語順普遍に焦点を当て,語順普遍から逸脱したデータをどのような言語モデルが学習してしまうのかという点を調査しています.とても興味深い問題設定であり,それを様々な言語モデルと複数の評価尺度で検証したことも有用な知見です.言語モデルと自然言語との類似性と相違点,またどのような言語モデルが自然言語に近いのかという問題を追求していく上で,非常に有用な研究です.これらの貢献から優秀賞にふさわしいと判断しました.
A8-5 継続事前学習による日本語に強い大規模言語モデルの構築
藤井一喜, 中村泰士, Mengsay Loem (東工大), 飯田大貴 (東工大/レトリバ), 大井聖也, 服部翔, 平井翔太 (東工大), 水木栄 (東工大/ホットリンク), 横田理央, 岡崎直観 (東工大)
本論文では Llama 2 をベースに,日本語の大規模ウェブコーパスで継続事前学習を行った大規模言語モデル Swallow について学習手法や評価結果を報告しています.継続事前学習は日本語の大規模言語モデルの構築においては重要な技術であり,本論文により詳細な手順や評価結果に関する情報が提示されたことは日本の NLP 分野における研究者・開発者全体にとってたいへん有用と考えます.これらの貢献から優秀賞にふさわしいと判断しました.
*言語処理学会第30回年次大会 若手奨励賞(18件:発表番号順)
P1-21 日本語医療テキスト平易化の評価用データセットの構築
堀口航輝 (愛媛大)
本研究は,日本語医療テキスト平易化のためのデータセットJASMINEと,テキスト平易化タスクに適応した事前訓練モデル日本語SimpleBARTの構築を行っています.専門用語を多く含むことに起因して医療文書は非専門家に理解できないという課題の解決のためには医療テキスト平易化が有効です.日本語の医療ドメインの平易化コーパスが存在しないため課題解決アプローチが限られていたのに対して,JASMINEの構築によって今後の日本語医療テキスト平易化に関する研究の促進されることが期待されます.このことから,本研究は若手奨励賞に値すると判断しました.
C3-3 日本語Natural QuestionsとBoolQの構築
植松拓也 (早大)
本論文では,人間の情報欲求から自然発生する質問から構成される Natural Questions (NQ) と BoolQ の日本語版を構築しています.単に英語のデータセットを日本語に翻訳するのではなく,検索エンジンへ実際に投入された日本語の自然文クエリを使って,問題設定も新たに見直した上で一定の規模のデータセットを新たに開発した点はたいへん良い成果であると思います.これらの貢献から若手奨励賞にふさわしいと判断しました.
C3-5 JDocQA: 図表を含む日本語文書質問応答データセットによる大規模言語モデルチューニング
大南英理 (NAIST)
本論文では,図表を含む日本語文書をもとにして,視覚情報とテキスト情報の両方を参照する質問応答データセットJDocQAを提案しています.テキスト情報だけでなく,視覚的な情報を必要とする質問応答のチューニング用データセットは十分になく,特に英語以外の言語での公開データセットは希少であり,本データセットが日本語による当該分野の研究をより促進することが期待できます.また,実験では,構築したデータセットを用いて既存の大規模言語モデルを用いたベンチマーキングを実施しており,言語モデルの幻覚を防ぐための有益な知見も示しています.以上から,若手奨励賞にふさわしいと判断しました.
P4-25 文法誤り訂正の自動評価のための原文・参照文・訂正文間のN-gram F-score
古山翔太 (東工大/産総研)
本論文は,文法誤り訂正を自動評価するための新たな自動評価尺度GREENを提案しています.提案手法は,N-gramをベースとしてF-scoreを計算するもので,直感的に理解しやすく,実用性が高く,後続研究にも広く使用されうる手法であると評価できます.実験では,提案手法が,人手による評価との高い相関を安定的に示しており,有用性も高いと評価できます.以上の理由により,若手奨励賞にふさわしい論文であると判断しました.
P6-14 対話モデルに対する敵対的プロンプトの効率的な最適化
矢野一樹 (東北大)
本論文では,大規模言語モデルの安全性を確保するための,敵対的プロンプトの最適化におけるトークン選択戦略の改善手法の提案をしています.提案手法では,既存手法のボトルネックであった置換候補トークン集合の選択戦略を,置換候補トークンにおける勾配と実際の損失値の分析結果に基づいた知見により改善しています.提案手法は既存手法に比べて高い攻撃成功率を達成する一方で,より少ない最適化ステップで攻撃を成功させられることを実験的に示しています.提案手法の仮説と検証についても丁寧な議論がなされており,今後の発展も期待できることから,若手奨励賞にふさわしいと判断しました.
A7-6 AmbiNLG: 自然言語生成のための指示テキストの曖昧性解消
丹羽彩奈 (Megagon Labs)
本論文は自然言語による指示における曖昧性解消という新たなタスクを提案し,その重要性を示しています.ベンチマークデータAmbiNLGを構築し,曖昧性の分類や曖昧性解消の効果の評価など,詳細な分析を行なっています.大規模言語モデルに対しプロンプトという形で指示を与えることが一般的になった現代において非常に重要性の高い研究であり,独創性および発展性も高いことから若手奨励賞にふさわしい論文であると判断しました.
D8-5 文法誤り訂正における参照なし評価尺度を用いた分析的評価法
五藤巧 (NAIST)
本論文は,文法誤り訂正タスクにおける参照なし評価尺度に関し,その評価値を訂正単位に分配する方法を提案しています.これにより,個々の訂正の貢献度の可視化および分析が可能になるという利点があり,有用性という観点で優れています.また,提案手法は協力ゲーム理論のシャープレイ値の方法に基づいており,理論的基盤がしっかりしています.さらに手法の妥当性や発展性について詳細な議論も行なっており,若手奨励賞にふさわしい論文であると判断しました.
P8-13 翻訳文の部分構造を制約とした機械翻訳
帖佐克己 (NTT)
本論文は,機械翻訳において,従来の語彙制約を構造制約に拡張するアプローチを提案しています.提案手法は,構造をS式で表現することにより,従来の翻訳モデルの利用を可能にしています.語彙制約の構造制約への拡張は,シンプルなアイデアでありながら新鮮で,発展性のあるものと評価できます.また,構造に関する制約を入れる考え方は,機械翻訳の結果を制御するための有用な視点であると言え,実験結果も提案手法の有効性を示しています.以上の理由から,若手奨励賞にふさわしい論文であると判断しました.
P9-21 算術推論問題における自己回帰型言語モデルの内部機序
工藤慧音 (東北大/理研)
本論文は,「自己回帰型言語モデルが,複合的な問題に対しどのように部分問題を解いているか」という疑問に対し,算術推論を例にとって分析を行なっています.回帰モデルに基づく分析方法に加え,「推論過程の出力と同時に途中計算を行なっている」ことが明らかになるなど得られた知見も非常に興味深く,独創性が高い論文です.より一般的な推論への発展も期待される非常に優れた論文であり,若手奨励賞にふさわしいと判断しました.
P10-3 言語モデルからの知識削除:頻出実体の知識は副作用が破滅的
高橋良允 (東北大)
本論文では,言語モデルが学習を通じて獲得した知識の削除について議論しています.学習データに含まれる個人情報などの問題から言語モデルの知識の編集や削除は重要な研究課題として注目を集めていますが,優れた手法の確立には至っていません.本論文の人工知識グラフを用いた分析によって頻出実体に関する知識削除の副作用が破滅的であったことは,知識の編集や削除が意図通りに機能する条件とその理由の解明に向けて重要な知見であると考えます.以上から,若手奨励賞にふさわしいと判断しました.
B10-4 RealPersonaChat: 話者本人のペルソナと性格特性を含んだ雑談対話コーパス
山下紗苗 (名大)
本研究は,話者本人のペルソナと性格特性を含む大規模な雑談対話コーパスRealPersonaChat(RPC)の構築を行っています.また,架空のペルソナを基に行われた対話からなる既存のコーパスと比較を行った結果,既存コーパスは過剰にペルソナ情報を含む発話を行っていることを明らかにしました.RPCは自然なペルソナ情報を含み,既存コーパスより大規模であり,更に話者の性格特性を含むため,今後の雑談対話システム開発に関する研究に大きく貢献する可能性があると考えられます.このことから,本研究は若手奨励賞に値すると判断しました.
B10-6 敵対的発言を取り入れた議論による言語モデルの学習強化と推論力の向上
Mengsay Loem (東工大)
本論文では,大規模言語モデルの推論能力を向上させるために,モデル間の議論を活用した能動的な学習手法を提案しています.従来手法では議論を推論時にのみ活用している一方で,提案手法では,学習段階において学習モデルの出力が不正解の場合には正解に,正解の場合には不正解に誘導する敵対的議論を行う「反論モデル」に基づいた独創的な枠組みを導入しています.提案手法は,推論段階における議論を伴う・伴わないシナリオの両方でモデルの推論性能を改善するだけでなく,議論に限定されない汎用的な言語化能力の向上も示しています.実験結果も有望であり,今後の発展も期待できることから,若手奨励賞にふさわしいと判断しました.
P10-10 訓練可能なk近傍Retrieverで関係抽出事例を導入したニューラルプロンプティング
牧野晃平 (豊田工大)
本研究は,近傍事例を用いたLLMによる関係抽出において,近傍事例選択Retrieverと関係抽出LLMの学習を同時に行うend-to-end学習を実現しました.既存研究のRetrieverは微分不可能な操作であったためRetrieverとLLMは個別に学習する必要がありましたが,本研究ではRetrieverの事例選択を埋め込み表現に変換し,更に,LLMの入力をソフトプロンプトで行うことで,end-to-end学習を可能としています.これにより関係抽出に適したRetrieverの学習が実現できると期待され,アイデアの新規性も認められるため,本研究は若手奨励賞に値すると判断しました.
A11-3 大規模言語モデルに対するサンプリングを活用したメンバーシップ推論攻撃
綿祐貴 (東工大)
本論文は,与えられたテキストが大規模言語モデル(LLM)の学習データに含まれているかどうかを推測するメンバーシップ推論攻撃の問題に対する,新たな手法を提案しています.提案手法は,サンプリングを用いたシンプルな手法であり,幅広いLLMに適用できる長所を持ちながらも,実験では,既存手法と同等の性能を示しています.メンバーシップ推論攻撃という重要な研究分野において実用性の高い手法を提案しており,今後の研究に大きな影響を与えることが期待できます.以上の理由から,若手奨励賞にふさわしい論文であると判断しました.
A11-4 大規模言語モデルにおける評価バイアスの尤度に基づく緩和
大井聖也 (東工大)
本論文は,大規模言語モデル(LLM)を文生成タスクの自動評価に利用する状況における,尤度の違いが評価スコアに過大な影響を与えるという尤度バイアスの問題に着目しています.また,尤度バイアスを緩和するための,Few-shot事例を利用した手法を提案しています.実験により,実際のLLMにおいて尤度バイアスが存在することが示され,さらに,提案手法により,尤度バイアスが低減されることを示しています.尤度バイアスという重要な問題に対し,具体的な原因についての分析を行っており,今後の研究に大きな影響を与える可能性があります.以上の理由により,若手奨励賞にふさわしい論文であると判断しました.
A11-6 言語モデルの思考連鎖的推論における探索戦略の動的変化
青木洋一 (東北大/理研)
本論文は,大規模言語モデルが推論を行う際に,探索に用いる手がかりが動的に変化していることを実験的に明らかにしています.具体的には,推論の初期段階では,類似度などの表層的な手がかりを用いた探索を行い,推論が進むにつれて,最短経路に合致する探索を行うことが示されています.大規模言語モデルが,どのような手がかりを元に推論をしているかを解き明かす,その性能の本質に迫った研究であり,学術的な価値が高い研究であると考えられます.今後の展開が期待されることから若手奨励賞にふさわしいと判断しました.
kNN言語モデルは低頻度語の予測に役立つか?
西田悠人 (NAIST)
検索拡張言語モデルの1つであるkNN言語モデルは,データストアの明示的な記憶を利用することによって,低頻度語の予測性能が改善するという仮説が提唱されてきましたが,この仮説の定量的な検証は行われてきませんでした.本論文では,低頻度語に対するkNN言語モデルの振る舞いを定量的に分析し,従来仮説とは異なり,低頻度語を多く含むデータではkNN言語モデルは低頻度語の予測性能の改善に寄与しないことを示しました.この知見は,当該分野への貢献が大きいことから若手奨励賞にふさわしい論文であると判断しました.
P11-11 テキスト生成モデルを利用したデータセット蒸留
前川在 (東工大)
本論文は,実サンプルよりも学習効果の高い訓練データを生成するようにテキスト生成モデルを学習する,データセット蒸留の手法を提案しています.実験により,従来のコアセット選択手法よりも,高い性能のモデルを学習可能な合成データセットが獲得できることを示しています.本研究は,テキストを入力とする様々なタスクに適用可能な汎用性を持ち,また,課題に対する解決策も明快かつその効果が的確に示されていることから若手奨励賞にふさわしいと判断しました.