最優秀賞(対象599件中1件)

B8-6 逆学習による言語モデルの解析
磯沼大 (エディンバラ大/東大), Ivan Titov (エディンバラ大)
本論文では特定の学習事例集合が言語モデルの学習に与える影響の度合いを測る手法UnTracを提案しています.UnTracは,学習済み言語モデルを,ターゲットとする学習事例集合に対する勾配上昇法で逆学習することにより影響度を測っています.既存手法と比較して,計算量および推定性能の点で優れており,また理論的な基盤もしっかりしています.大規模言語モデル隆盛の時代に必要とされる技術であり,発展性および応用可能性が非常に高いことから,最優秀賞にふさわしい論文であると判断しました.

優秀賞(対象599件中12件)

P1-20 単語ベクトルに基づく新たな meaning-frequency law の検証
永田亮 (甲南大), 田中久美子 (早大)
単語の語義数と頻度に関するmeaning-frequency lawの検証は,これまでは辞書を用いて行われてきましたが,語義数が辞書によって大きく異なり語義数の決定が難しいことや,単語の原型を対象とした限定的な検証であるという問題点がありました.そこで,本論文では辞書を用いずに従来よりも多様な種類の単語に対して同法則が上手く説明できることを効果的に示しており,当該分野への貢献が大きいことから優秀賞にふさわしい論文であると判断しました.
E2-1 テキスト生成による議論マイニング
川原田将之 (NTTドコモ), 平尾努 (NTT), 内田渉 (NTTドコモ), 永田昌明 (NTT)
本論文は,議論マイニングのタスクに,Translation between Augmented Natural Languages (TANL)というテキスト生成を通じた手法を適用することで,既存手法より単純かつ効果的な手法を提案しています.提案手法を,公開されている3種類の議論データセットに適用し,既存手法を上回る最高値を達成しました.また,QLoRAによるFine-tuning,議論に無関係なテキストを省略した出力生成,Instructionチューニングの有効性など実験的検証も充分になされており,堅実かつ効果的なアプローチといえます.以上のことから,優秀賞にふさわしい論文と判断しました.
D2-3 Autoformalization に向けた自然言語証明構造の形式化
服部清志, 松崎拓也, 藤原誠 (東京理科大)
本論文は,自然言語で書かれた数学証明をLeanの形式証明に変換するという自動形式化に取り組んでいます.提案手法は形式化のための手続きにおいて,議論構造解析に着目しています.また,形式証明上で各変数が正しいスコープを持つことを保証する仕組みとして,変数スコープエラー解決アルゴリズムを提案しています.大規模言語モデルが研究の主流となっている現在,本論文で示されているような議論構造解析を展開する研究や地道な分析は今後の自然言語処理においてとても重要だと思います.これらの貢献から優秀賞にふさわしいと判断しました.
C3-2 長文生成の多面的評価:人手評価と自動評価の向上を目指して
鴨田豪 (東北大), 浅井明里 (ワシントン大), Ana Brassard (理研/東北大), 坂口慶祐 (東北大/理研)
本論文は,回答として長文を生成する,Long Form Question Answering (LFQA)タスクにおいて,複数の絶対評価指標を組み合わせて評価を行う手法を提案しています.人手評価の大規模なデータセットを構築し,それに基づく実験から,総合評価に最も大きな影響を与える評価軸がFactualityであることを明らかにしています.また,新たな評価手法としてLLM-MATEを提案し,人手評価との高い相関を報告しています.効果的な評価手法の提案のみならず,データセットの公開もなされることから,今後のLFQAタスクにおける進展に大きく寄与すると考えられます.そのため,優秀賞にふさわしいと判断しました.
C3-4 InstructDoc: 自然言語指示に基づく視覚的文書理解
田中涼太 (NTT/東北大), 壱岐太一, 西田京介, 齋藤邦子 (NTT), 鈴木潤 (東北大)
本研究は,視覚的文書理解タスクのための大規模指示チューニングデータセットInstructDocの構築と,視覚的文書理解モデルInstructDrの提案を行っています.InstructDocは既存データセットと比較して複雑かつ多様なタスクに取り組み,また,InstructDrは様々な条件におけるzero-shot性能,及び,Fine-Tuning性能において既存手法を大きく上回る性能を達成しています.これらの理由より,本研究は今後の視覚的文書理解の発展に大きく資する可能性があると考えられるため,優秀賞にふさわしい論文と判断しました.
P4-20 文法誤り訂正の包括的メタ評価: 既存自動評価の限界と大規模言語モデルの可能性
小林正宗 (都立大), 三田雅人 (サイバーエージェント), 小町守 (一橋大)
本論文では,文法誤り訂正タスクについて取り組んでいます.既存のデータセット(GJG15)の3つの問題点を踏まえ,より信頼性の高いメタ評価(評価尺度の評価)のためのデータセットSEEDAを提案しています.また,データセットの構築だけでなく,複数の文法誤り訂正システムおよび評価尺度について,詳細でかつ丁寧な比較実験および分析が行われています.これらの結果は関連研究者にとって有用な知見になると考えられます.このような貢献から優秀賞にふさわしいと判断しました.
P5-24 地図を刺激に用いた位置情報参照表現の収集
大村舞, 川端良子 (国語研), 小西光 (Tecca合同会社), 浅原正幸 (国語研), 竹内誉羽 (HRI)
本論文では,クラウドソーシングを用いて地図上の位置情報を説明する表現(位置情報参照表現)を収録したデータベースを構築しています.言葉によって自分がどこにいるかを伝え,また,相手がどこにいるかを推測するような状況は私たちの日常において一般的であり,構築したデータベースを活用した様々な応用が期待できます.さらに,構築したデータベースは公開予定であり,データベースの構築手順やスクリーニングについての記述の資料的価値も高いと考えます.以上から,優秀賞にふさわしいと判断しました.
A6-1 Swallowコーパス: 日本語大規模ウェブコーパス
岡崎直観, 服部翔, 平井翔太 (東工大), 飯田大貴 (東工大/レトリバ), 大井聖也, 藤井一喜, 中村泰士, Mengsay Loem, 横田理央 (東工大), 水木栄 (東工大/ホットリンク)
本論文では Common Crawl のアーカイブから日本語の大規模言語モデル構築を目的としてテキストを抽出・精錬する手順について報告しています.大規模言語モデルを構築する上で重要とされているテキストの品質フィルタリングや重複除去に関する手法について焦点を当て,評価実験によって手法の良さを示したことは,今後の日本における大規模言語モデルの研究開発の水準を向上させる大きな貢献であると思います.以上から優秀賞にふさわしいと判断しました.
E6-5 動詞派生前置詞の文法化の定量化
永田亮 (甲南大), 川崎義史 (東大), 大谷直輝 (東京外大), 高村大也 (産総研)
本論文は,言語学研究における動詞派生前置詞の文法化に関する三つの仮説を,計算言語学的なアプローチから定量的に検証する手法を提案しています.文法化という長い時間を要する言語変化の現象を理論的基盤に基づいて定量化する点が独創的です.また,文法化度を判定する提案手法でBERTを用いる点は,多言語でも応用が利き,言語学研究への貢献は大きいといえます.以上の観点から優秀賞にふさわしい論文であると判断しました.
P6-25 自己認知は LM as KB の信頼性を高めるか
井之上直也 (JAIST/理研), 原口大地, 田中健史朗, 白井清昭, Natthawut Kertkeidkachorn (JAIST)
本論文では,大規模言語モデルに対する知識の問い合わせについて,問い合わせ結果の不確実性をチェックする自己認知機構を取り入れ,真偽が不確実な命題を2つの命題に分解することで再検証させる枠組みBack-off LMKBを提案しています.GPT-4およびGPT-3.5に基づくBack-off LMKBをStrategyQAで評価し,その有効性を示しています.大規模言語モデルの出力の信頼性をどのようにして担保するかは重要な課題であり,大規模言語モデルの実利用のための有効な知見を含んでいます.これらの貢献から,優秀賞にふさわしい論文と判断しました.
E7-1 どのような言語モデルが不可能な言語を学習してしまうのか?---語順普遍を例に---
栗林樹生 (MBZUAI), 上田亮, 吉田遼, 大関洋平 (東大), Ted Briscoe (MBZUAI), Timothy Baldwin (MBZUAI/メルボルン大)
本論文は,自然言語の語順普遍に焦点を当て,語順普遍から逸脱したデータをどのような言語モデルが学習してしまうのかという点を調査しています.とても興味深い問題設定であり,それを様々な言語モデルと複数の評価尺度で検証したことも有用な知見です.言語モデルと自然言語との類似性と相違点,またどのような言語モデルが自然言語に近いのかという問題を追求していく上で,非常に有用な研究です.これらの貢献から優秀賞にふさわしいと判断しました.
A8-5 継続事前学習による日本語に強い大規模言語モデルの構築
藤井一喜, 中村泰士, Mengsay Loem (東工大), 飯田大貴 (東工大/レトリバ), 大井聖也, 服部翔, 平井翔太 (東工大), 水木栄 (東工大/ホットリンク), 横田理央, 岡崎直観 (東工大)
本論文では Llama 2 をベースに,日本語の大規模ウェブコーパスで継続事前学習を行った大規模言語モデル Swallow について学習手法や評価結果を報告しています.継続事前学習は日本語の大規模言語モデルの構築においては重要な技術であり,本論文により詳細な手順や評価結果に関する情報が提示されたことは日本の NLP 分野における研究者・開発者全体にとってたいへん有用と考えます.これらの貢献から優秀賞にふさわしいと判断しました.

若手奨励賞(対象427件中18件)

P1-21 日本語医療テキスト平易化の評価用データセットの構築
堀口航輝 (愛媛大)
本研究は,日本語医療テキスト平易化のためのデータセットJASMINEと,テキスト平易化タスクに適応した事前訓練モデル日本語SimpleBARTの構築を行っています.専門用語を多く含むことに起因して医療文書は非専門家に理解できないという課題の解決のためには医療テキスト平易化が有効です.日本語の医療ドメインの平易化コーパスが存在しないため課題解決アプローチが限られていたのに対して,JASMINEの構築によって今後の日本語医療テキスト平易化に関する研究の促進されることが期待されます.このことから,本研究は若手奨励賞に値すると判断しました.
C3-3 日本語Natural QuestionsとBoolQの構築
植松拓也 (早大)
本論文では,人間の情報欲求から自然発生する質問から構成される Natural Questions (NQ) と BoolQ の日本語版を構築しています.単に英語のデータセットを日本語に翻訳するのではなく,検索エンジンへ実際に投入された日本語の自然文クエリを使って,問題設定も新たに見直した上で一定の規模のデータセットを新たに開発した点はたいへん良い成果であると思います.これらの貢献から若手奨励賞にふさわしいと判断しました.
C3-5 JDocQA: 図表を含む日本語文書質問応答データセットによる大規模言語モデルチューニング
大南英理 (NAIST)
本論文では,図表を含む日本語文書をもとにして,視覚情報とテキスト情報の両方を参照する質問応答データセットJDocQAを提案しています.テキスト情報だけでなく,視覚的な情報を必要とする質問応答のチューニング用データセットは十分になく,特に英語以外の言語での公開データセットは希少であり,本データセットが日本語による当該分野の研究をより促進することが期待できます.また,実験では,構築したデータセットを用いて既存の大規模言語モデルを用いたベンチマーキングを実施しており,言語モデルの幻覚を防ぐための有益な知見も示しています.以上から,若手奨励賞にふさわしいと判断しました.
P4-25 文法誤り訂正の自動評価のための原文・参照文・訂正文間のN-gram F-score
古山翔太 (東工大/産総研)
本論文は,文法誤り訂正を自動評価するための新たな自動評価尺度GREENを提案しています.提案手法は,N-gramをベースとしてF-scoreを計算するもので,直感的に理解しやすく,実用性が高く,後続研究にも広く使用されうる手法であると評価できます.実験では,提案手法が,人手による評価との高い相関を安定的に示しており,有用性も高いと評価できます.以上の理由により,若手奨励賞にふさわしい論文であると判断しました.
P6-14 対話モデルに対する敵対的プロンプトの効率的な最適化
矢野一樹 (東北大)
本論文では,大規模言語モデルの安全性を確保するための,敵対的プロンプトの最適化におけるトークン選択戦略の改善手法の提案をしています.提案手法では,既存手法のボトルネックであった置換候補トークン集合の選択戦略を,置換候補トークンにおける勾配と実際の損失値の分析結果に基づいた知見により改善しています.提案手法は既存手法に比べて高い攻撃成功率を達成する一方で,より少ない最適化ステップで攻撃を成功させられることを実験的に示しています.提案手法の仮説と検証についても丁寧な議論がなされており,今後の発展も期待できることから,若手奨励賞にふさわしいと判断しました.
A7-6 AmbiNLG: 自然言語生成のための指示テキストの曖昧性解消
丹羽彩奈 (Megagon Labs)
本論文は自然言語による指示における曖昧性解消という新たなタスクを提案し,その重要性を示しています.ベンチマークデータAmbiNLGを構築し,曖昧性の分類や曖昧性解消の効果の評価など,詳細な分析を行なっています.大規模言語モデルに対しプロンプトという形で指示を与えることが一般的になった現代において非常に重要性の高い研究であり,独創性および発展性も高いことから若手奨励賞にふさわしい論文であると判断しました.
D8-5 文法誤り訂正における参照なし評価尺度を用いた分析的評価法
五藤巧 (NAIST)
本論文は,文法誤り訂正タスクにおける参照なし評価尺度に関し,その評価値を訂正単位に分配する方法を提案しています.これにより,個々の訂正の貢献度の可視化および分析が可能になるという利点があり,有用性という観点で優れています.また,提案手法は協力ゲーム理論のシャープレイ値の方法に基づいており,理論的基盤がしっかりしています.さらに手法の妥当性や発展性について詳細な議論も行なっており,若手奨励賞にふさわしい論文であると判断しました.
P8-13 翻訳文の部分構造を制約とした機械翻訳
帖佐克己 (NTT)
本論文は,機械翻訳において,従来の語彙制約を構造制約に拡張するアプローチを提案しています.提案手法は,構造をS式で表現することにより,従来の翻訳モデルの利用を可能にしています.語彙制約の構造制約への拡張は,シンプルなアイデアでありながら新鮮で,発展性のあるものと評価できます.また,構造に関する制約を入れる考え方は,機械翻訳の結果を制御するための有用な視点であると言え,実験結果も提案手法の有効性を示しています.以上の理由から,若手奨励賞にふさわしい論文であると判断しました.
P9-21 算術推論問題における自己回帰型言語モデルの内部機序
工藤慧音 (東北大/理研)
本論文は,「自己回帰型言語モデルが,複合的な問題に対しどのように部分問題を解いているか」という疑問に対し,算術推論を例にとって分析を行なっています.回帰モデルに基づく分析方法に加え,「推論過程の出力と同時に途中計算を行なっている」ことが明らかになるなど得られた知見も非常に興味深く,独創性が高い論文です.より一般的な推論への発展も期待される非常に優れた論文であり,若手奨励賞にふさわしいと判断しました.
P10-3 言語モデルからの知識削除:頻出実体の知識は副作用が破滅的
高橋良允 (東北大)
本論文では,言語モデルが学習を通じて獲得した知識の削除について議論しています.学習データに含まれる個人情報などの問題から言語モデルの知識の編集や削除は重要な研究課題として注目を集めていますが,優れた手法の確立には至っていません.本論文の人工知識グラフを用いた分析によって頻出実体に関する知識削除の副作用が破滅的であったことは,知識の編集や削除が意図通りに機能する条件とその理由の解明に向けて重要な知見であると考えます.以上から,若手奨励賞にふさわしいと判断しました.
B10-4 RealPersonaChat: 話者本人のペルソナと性格特性を含んだ雑談対話コーパス
山下紗苗 (名大)
本研究は,話者本人のペルソナと性格特性を含む大規模な雑談対話コーパスRealPersonaChat(RPC)の構築を行っています.また,架空のペルソナを基に行われた対話からなる既存のコーパスと比較を行った結果,既存コーパスは過剰にペルソナ情報を含む発話を行っていることを明らかにしました.RPCは自然なペルソナ情報を含み,既存コーパスより大規模であり,更に話者の性格特性を含むため,今後の雑談対話システム開発に関する研究に大きく貢献する可能性があると考えられます.このことから,本研究は若手奨励賞に値すると判断しました.
B10-6 敵対的発言を取り入れた議論による言語モデルの学習強化と推論力の向上
Mengsay Loem (東工大)
本論文では,大規模言語モデルの推論能力を向上させるために,モデル間の議論を活用した能動的な学習手法を提案しています.従来手法では議論を推論時にのみ活用している一方で,提案手法では,学習段階において学習モデルの出力が不正解の場合には正解に,正解の場合には不正解に誘導する敵対的議論を行う「反論モデル」に基づいた独創的な枠組みを導入しています.提案手法は,推論段階における議論を伴う・伴わないシナリオの両方でモデルの推論性能を改善するだけでなく,議論に限定されない汎用的な言語化能力の向上も示しています.実験結果も有望であり,今後の発展も期待できることから,若手奨励賞にふさわしいと判断しました.
P10-10 訓練可能なk近傍Retrieverで関係抽出事例を導入したニューラルプロンプティング
牧野晃平 (豊田工大)
本研究は,近傍事例を用いたLLMによる関係抽出において,近傍事例選択Retrieverと関係抽出LLMの学習を同時に行うend-to-end学習を実現しました.既存研究のRetrieverは微分不可能な操作であったためRetrieverとLLMは個別に学習する必要がありましたが,本研究ではRetrieverの事例選択を埋め込み表現に変換し,更に,LLMの入力をソフトプロンプトで行うことで,end-to-end学習を可能としています.これにより関係抽出に適したRetrieverの学習が実現できると期待され,アイデアの新規性も認められるため,本研究は若手奨励賞に値すると判断しました.
A11-3 大規模言語モデルに対するサンプリングを活用したメンバーシップ推論攻撃
綿祐貴 (東工大)
本論文は,与えられたテキストが大規模言語モデル(LLM)の学習データに含まれているかどうかを推測するメンバーシップ推論攻撃の問題に対する,新たな手法を提案しています.提案手法は,サンプリングを用いたシンプルな手法であり,幅広いLLMに適用できる長所を持ちながらも,実験では,既存手法と同等の性能を示しています.メンバーシップ推論攻撃という重要な研究分野において実用性の高い手法を提案しており,今後の研究に大きな影響を与えることが期待できます.以上の理由から,若手奨励賞にふさわしい論文であると判断しました.
A11-4 大規模言語モデルにおける評価バイアスの尤度に基づく緩和
大井聖也 (東工大)
本論文は,大規模言語モデル(LLM)を文生成タスクの自動評価に利用する状況における,尤度の違いが評価スコアに過大な影響を与えるという尤度バイアスの問題に着目しています.また,尤度バイアスを緩和するための,Few-shot事例を利用した手法を提案しています.実験により,実際のLLMにおいて尤度バイアスが存在することが示され,さらに,提案手法により,尤度バイアスが低減されることを示しています.尤度バイアスという重要な問題に対し,具体的な原因についての分析を行っており,今後の研究に大きな影響を与える可能性があります.以上の理由により,若手奨励賞にふさわしい論文であると判断しました.
A11-6 言語モデルの思考連鎖的推論における探索戦略の動的変化
青木洋一 (東北大/理研)
本論文は,大規模言語モデルが推論を行う際に,探索に用いる手がかりが動的に変化していることを実験的に明らかにしています.具体的には,推論の初期段階では,類似度などの表層的な手がかりを用いた探索を行い,推論が進むにつれて,最短経路に合致する探索を行うことが示されています.大規模言語モデルが,どのような手がかりを元に推論をしているかを解き明かす,その性能の本質に迫った研究であり,学術的な価値が高い研究であると考えられます.今後の展開が期待されることから若手奨励賞にふさわしいと判断しました.
P11-7 kNN言語モデルは低頻度語の予測に役立つか?
西田悠人 (NAIST)
検索拡張言語モデルの1つであるkNN言語モデルは,データストアの明示的な記憶を利用することによって,低頻度語の予測性能が改善するという仮説が提唱されてきましたが,この仮説の定量的な検証は行われてきませんでした.本論文では,低頻度語に対するkNN言語モデルの振る舞いを定量的に分析し,従来仮説とは異なり,低頻度語を多く含むデータではkNN言語モデルは低頻度語の予測性能の改善に寄与しないことを示しました.この知見は,当該分野への貢献が大きいことから若手奨励賞にふさわしい論文であると判断しました.
P11-11 テキスト生成モデルを利用したデータセット蒸留
前川在 (東工大)
本論文は,実サンプルよりも学習効果の高い訓練データを生成するようにテキスト生成モデルを学習する,データセット蒸留の手法を提案しています.実験により,従来のコアセット選択手法よりも,高い性能のモデルを学習可能な合成データセットが獲得できることを示しています.本研究は,テキストを入力とする様々なタスクに適用可能な汎用性を持ち,また,課題に対する解決策も明快かつその効果が的確に示されていることから若手奨励賞にふさわしいと判断しました.

日本電気賞

P5-6 質問応答モデルはどのショートカットを優先して学習するか?
篠田一聡 (東大/NII), 菅原朔 (NII), 相澤彰子 (東大/NII)
本研究は,質問応答の学習データ内にある疑似相関を使い解いてしまう(ショートカット)現象について,ショートカットの種類ごとに対策のしにくさに差が出ることを実験的に示しています.NECは以前から質問応答に注目しており,ショートカットの包括的な深い分析は非常に参考になりました.実用的にショートカットに対処していく指針になると感じ,スポンサー賞に選ばせていただきました.

SB Intuitions賞

P9-14 In-Context Learning においてLLMはフォーマットを学べるか
坂井吉弘, 趙羽風 (JAIST), 井之上直也 (JAIST/理研)
本論文は,大規模言語モデルが答え方のフォーマットを学習しているかどうかという問いの検証に取り組んでいます.この研究で確かめていることは面白く,その仮説を着実に検証・分析していることから,論文としての完成度も高く評価できます.弊社ではLLMの研究開発や応用に力を入れており,本論文で扱われている問題にも高い関心を持っており確かめたい課題の一つでした.その問題について一定の方向性を示しており,弊社の関心領域との親和性が高いことから,スポンサー賞として選定しました.

LINEヤフー賞

A10-3 低頻度語彙埋め込みの縮約による事前学習済みモデルの圧縮
田村鴻希, 吉永直樹, 根石将人 (東大)
大規模なモデルのサイズを小さくする方法は中間層をターゲットにしていることが多いですが,本研究は入力層に焦点をあてています.低頻度語彙埋め込みを高頻度語彙で近似するシンプルなアイデアでDistilBERTのモデル性能を維持しつつパラメータ数を3割削減しました.プラクティカルで理論的な枠組みを与えつつ,下流タスクに合わせてモデルを圧縮できることを示しており,有用性も高く注目すべき論文の一つであるとして選びました.

サイバーエージェント賞

P2-9 テレビアニメ作品に関するSNS上の情報拡散傾向と感情の関係
石倉直樹, 土屋雅稔 (豊橋技科大), 吉田光男 (筑波大)
本研究はTVアニメの情報拡散傾向と感情分析の関係性に着目した研究です.弊社が運営するABEMAでは数多くのアニメや番組を配信しています.本研究の分析ではツイート数が上昇傾向にある場合,他の傾向よりもネガティブツイートの割合が高いなど,情報拡散傾向の違いによってツイートに含まれる感情に違いが現れることを発見しています.弊社でも番組に対するユーザーの口コミなどを分析していくうえで大変参考になる有用な知見であり,今後の研究の発展も大きく期待できることからスポンサー賞として選定させていただきました.

富士通賞

E10-4 小規模言語モデルによる統語パラメータの獲得
山田裕真, 染谷大河, 大関洋平 (東大)
(大規模)言語モデルの研究が発展し,AI関連技術を用いて,人間の言語獲得能力や言語運用能力を観察しなおす試みが脚光を浴びています.自然言語の活用は人間を特徴づける重要な要素の一つであり,それがどのように獲得されるのかを解明することは,非常に重要なトピックであると考えています.特に,統語的なパラメータについてのトピックは,その生得性が長く議論されており,近年のAI技術を応用した観察を提供する本論文は大変面白く知見に富むと言えます.人間中心的なAIの開発を目指すうえで,人間そのものの能力の分析は必要不可欠であると考えており,本研究を足掛かりとしたさらなる自然言語の獲得メカニズムの解明への期待を込めて,スポンサー賞に相応しいと判断しました.

PKSHA Technology賞

C3-5 JDocQA: 図表を含む日本語文書質問応答データセットによる大規模言語モデルチューニング
大南英理 (NAIST), 栗田修平 (理研), 宮西大樹 (ATR), 渡辺太郎 (NAIST)
世の中では多種多様なドキュメントからの問い合わせ応答ニーズが広くあり,その中でも図表を対象としたQAタスクは重要な位置づけを占めるものであると考えられます.本データセットの整備は,当該タスクの技術的発展において重要な位置づけとなり,学術的な貢献は大きいと判断いたしました.また,構築したデータセットを用いて学習・評価を実施し,解答不能問題を利用したハルシネーション抑制効果等にまで言及している点も評価し,スポンサー賞として選定いたしました.

リクルート賞

P6-21 大規模言語モデルにおける幻覚緩和のための単語確率の外挿
何昀臻, 高瀬侑亮, 石橋陽一 (京大), 下平英寿 (京大/理研)
LLM活用において大きな問題の一つとなっているハルシネーションに対し,モデルのアーキテクチャ変更や追加学習なしに解決のアプローチをとっており興味深い研究でした.手法は基礎的な要素をメインとしつつも,応用利用も可能なため,企業賞としてふさわしいと考えました.

Kotoba Technologies, Inc.賞

B5-5 環境音に対する日本語自由記述文コーパスとベンチマーク分析
岡本悠希 (立命館大), 高道慎之介, 森松亜衣, 渡邊亞椰 (東大), 井本桂右 (同志社大), 山下洋一 (立命館大)
現在多言語テキスト基盤モデルの知見は蓄積されているが,音声基盤言語モデルの研究発展は,いまだに大きな進捗がない.音声基盤モデルには,データ構築が鍵となると考えられるが,本論文では環境音など,テキストにはあらわれづらいMultimodalな情報をどう扱うべきか,研究を行っており,非常にユニークな内容となっている.テキスト同様,現状では英語中心にデータセットが構築される中,日本語のオノマトペなどにも応用していくことが,意義深いと考えられ,本研究はその第一歩になると考えられる.言語間の相違点や,音声における自動生成データの使い方など,今後の音声基盤モデル,マルチモーダル基盤モデル開発で参考になる知見が示されている.

日立製作所賞

P6-15 日本語TruthfulQAの構築
中村友亮, 河原大輔 (早大)
本研究では,テキストの真実性を評価する日本語ベンチマークを新たに構築し,詳細な評価を行っています.ビジネスシーンでは,正しいテキストを提供する場面やテキストの真実性に基づいて判断を行う場面が出てきます.日立では,そのような場面でも適切に情報提供や処理を行える言語処理技術が求められています.本研究は基礎研究寄りではあるものの,真実性を扱っているため,LLM研究を含む日立での自然言語処理研究への応用可能性があります.データセットが,様々なモデルによって作成されたテキストと人手で作成されたテキストの両方で評価され,人手評価も行われている点は,ベンチマークとしての有用性と信頼性を強固にしているため評価しており,またデータセットの公開が行われている点も評価しています.これらの要素を総合した結果,日立製作所賞として選定しました.

Money Forward賞

C3-5 JDocQA: 図表を含む日本語文書質問応答データセットによる大規模言語モデルチューニング
大南英理 (NAIST), 栗田修平 (理研), 宮西大樹 (ATR), 渡辺太郎 (NAIST)
本研究は,図表を含む日本語文書を参照して回答するQAデータセットJDocQAを提案しています.一般的なQA形式や簡単な四則演算を必要とする質問に加え,対象の文書に解答となる記述がない「解答不能問題」も用意するなど,図表を読む場面を複数想定してデータセットを構築している点がよいと思いました.弊社サービスでも官公庁の資料,証券・保険のパンフレットなどを扱うことがあり,親和性が高いと考えました.自由記述形式のQAの評価方法には検討の余地があると考えますが,商用利用可能な形で公開されるとのことでしたので,これをきっかけに当該領域の研究が加速することを期待しています.

SmartESG(シェルパ・アンド・カンパニー)賞

B2-3 疑似参照訳文ベクトルの重心に基づく高速なニューラル最小ベイズリスク復号
出口祥之, 坂井優介, 上垣外英剛, 渡辺太郎 (NAIST)
本論文はCOMETを用いた最小ベイズリスクデコーディングにおいて課題となっていた計算量を改善するアルゴリズムを提案しています.提案されたアルゴリズムはシンプルで汎用性があり,実験においても,翻訳精度を犠牲にすることなく,計算時間の高速化が達成されています.以上の点を評価し,スポンサー賞とさせていただきました.

メルカリ賞

A7-5 プロンプトの丁寧さと大規模言語モデルの性能の関係検証
尹子旗, 王昊, 堀尾海斗 (早大), 河原大輔 (早大/理研), 関根聡 (理研)
本研究は,ビジネスをグローバル展開する際のローカライズに大きく貢献したり,Cross Borderにおける翻訳やお客さまのコミュニケーション支援に使える研究に発展したりなど,可能性を大きく感じます.本研究がもたらす未来は,弊社が目指している世界観と非常に親和性が高いです.今後のデータセット拡充や新たな展開を期待しています.

博報堂テクノロジーズ賞

P11-26 RLHFを用いた「面白い」短歌の自動生成の試み
羽根田賢和 (東北大), 浦川通, 田口雄哉, 田森秀明 (朝日新聞社), 坂口慶祐 (東北大/理研)
我々が取り組む広告文自動生成は,消費者の目を惹くような文でかつ,字数に制約がある広告文を自動生成するタスクです.本研究で取り組まれている短歌の自動生成は,文字数に制限がありかつ,「面白い」ということが重要である点で我々が取り組むタスクと類似していると思いました.また,本研究で用いている手法は広告文自動生成にも適用可能であり,我々の今後の研究開発の上で参考になる知見となりました.これらのことから本賞の受賞研究に選定させていただきました.

Helpfeel賞

P2-1 クラスタリングによる自由記述回答の要約と選択肢回答空間に射影による解答群間の連関の可視化
根本颯汰, 藤本一男 (NICT)
アンケートにおける自由記述の理解に関する研究は,ユーザーの声を最大限に尊重するうえで非常に欠かせないものだと共感しています.さらに,実際の分析現場で求められる分析項目への柔軟なマッピングや,これらの可視化は,データからの洞察を深める上での有用性を感じます.新手法の提案に加えて,実運用でのドッグフーディングと並行して進めている事例として,大変勉強になりました.ありがとうございました.

委員特別賞(対象567件中26件)

D1-4 国会集団語の発展段階の分析
松田謙次郎 (神戸松蔭)
【新規性】の観点での評価
P1-19 大規模言語モデルへの刈り込みによる精神疾患の思考障害シミュレーション
直江大河 (昭和大), 原田宥都, 前田ありさ, 森田早織 (東大), 中村啓信 (東京医科歯科大), 大関洋平 (東大), 沖村宰 (昭和大)
【有用性】【将来性】の観点での評価
B2-5 ニューラル機械翻訳モデルにおける構成的汎化能力の評価
九門涼真, 松岡大樹, 谷中瞳 (東大)
【将来性】の観点での評価
E3-4 長距離相互作用する文脈依存言語における相転移現象 -言語モデルの創発現象を統計力学の視点で理解する-
都地悠馬 (北大), 高橋惇 (ニューメキシコ大), 横井祥 (東北大/理研), 栗林樹生 (MBZUAI), 上田亮 (東大), 宮原英之 (北大)
【新規性】【将来性】の観点での評価
E4-2 日本語不法行為事件データセットの構築
山田寛章, 徳永健伸 (東工大), 小原隆太郎 (一橋大/中村・角田・松本法律事務所), 得津晶, 竹下啓介, 角田美穂子 (一橋大)
【有用性】【将来性】の観点での評価
D4-5 日本語旅行記ジオパージングデータセットATD-MCL
東山翔平 (NICT), 大内啓樹 (NAIST), 寺西裕紀 (理研), 大友寛之 (サイバーエージェント), 井手佑翼, 山本和太郎, 進藤裕之, 渡辺太郎 (NAIST)
【有用性】【将来性】の観点での評価
P4-13 大規模言語モデルによる授業改善に向けた小学校における授業の発話シミュレーション
大西朔永, 児嶋祥成, 椎名広光, 保森智彦 (岡山理科大)
【有用性】【将来性】の観点での評価
B5-2 ラベル付き系列予測による音声シグナルの Textless 依存構造解析
神藤駿介, 宮尾祐介 (東大)
【将来性】の観点での評価
A5-5 潜在的正規分布によるイベントの時間関係の推定
船曳日佳里 (お茶大), 持橋大地 (統数研), 浅原正幸 (国語研), 小林一郎 (お茶大)
【新規性】【将来性】の観点での評価
P5-7 大規模言語モデルを用いたEmotional Support Conversation システムの構築とその評価
藤田敦也, 上乃聖, 李晃伸 (名工大)
【将来性】の観点での評価
P5-11 ロボット対話によるインタラクティブ観光プランニング
佐藤京也 (SB Intuitions/都立大), 大萩雅也, 山崎天, 水本智也, 吉川克正 (SB Intuitions)
【有用性】【将来性】の観点での評価
P5-23 コンタクトセンターにおける人と言語モデルの協働による対話データの作成
伊藤拓海 (MLS/Langsmith), 阿部香央莉 (MLS), 日高雅俊 (MLS/EIS), 野田健一, 岩浅佑一 (トランスコスモス)
【有用性】【将来性】の観点での評価
E6-1 言語の固有次元を測る
上田亮 (東大), 横井祥 (東北大/理研)
【新規性】【将来性】の観点での評価
E6-2 意味変化の統計的法則は1000年成り立つ
川崎義史 (東大), 高村大也 (産総研), 永田亮 (甲南大)
【将来性】の観点での評価
A6-3 ichikara-instruction LLMのための日本語インストラクションデータの作成
関根聡 (理研), 安藤まや (フリー), 後藤美知子, 鈴木久美 (理研), 河原大輔 (早大), 井之上直也 (JAIST/理研), 乾健太郎 (MBZUAI/東北大/理研)
【有用性】の観点での評価
P6-15 日本語TruthfulQAの構築
中村友亮, 河原大輔 (早大)
【有用性】の観点での評価
C7-1 音声認識を用いた青空文庫振り仮名注釈付き音声コーパスの構築の試み
佐藤文一 (NDL), 吉永直樹, 豊田正史 (東大), 喜連川優 (ROI/東大)
【有用性】の観点での評価
B7-3 Integrated Gradientsにおける理想の積分ステップ数はインスタンス毎に異なる
牧野雅紘 (東北大), 浅妻佑弥 (東北大/理研), 佐々木翔大 (サイバーエージェント/東北大), 鈴木潤 (東北大/理研)
【新規性】【将来性】の観点での評価
D7-5 認知ファインチューニング:眼球運動による大規模言語モデルのファインチューニング
染谷大河, 大関洋平 (東大)
【新規性】【将来性】の観点での評価
P7-7 Multimodal Large Language Model Meets New Knowledge: A Preliminary Study
Junwen Mo, Jiaxuan Li, Duc Minh Vo, Hideki Nakayama (東大)
【将来性】の観点での評価
P7-18 サッカー実況中継を付加的情報の提供という側面から見る
森雄一郎, 前川在, 小杉哲, 船越孝太郎 (東工大), 高村大也 (産総研), 奥村学 (東工大)
【新規性】【将来性】の観点での評価
P7-21 大規模視覚言語モデルに関する指示追従能力の検証
塩野大輝, 宮脇峻平 (東北大), 田中涼太 (東北大/NTT), 鈴木潤 (東北大/理研)
【新規性】【将来性】の観点での評価
E8-3 文字列中からの単語の発見と感覚情報に基づく単語の意味づけを通じた SIR 名付けゲームによる言語の創発
堀江孝文, 谷口彰, 萩原良信, 谷口忠大 (立命館大)
【新規性】【将来性】の観点での評価
E8-4 統語変形はコミュニケーションから創発するのか?
梶川康平 (東大), 窪田悠介 (国語研), 大関洋平 (東大)
【将来性】の観点での評価
D8-6 評価の階層性に着目した雑談対話システム評価の分析
蔦侑磨, 吉永直樹 (東大)
【将来性】の観点での評価
A11-2 大規模言語モデル事前学習の安定化
高瀬翔, 清野舜 (LINEヤフー/SB Intuitions), 小林颯介, 鈴木潤 (東北大)
【有用性】の観点での評価

top へ戻る

最終更新日: 2024年 3月 21日
言語処理学会第30回年次大会 プログラム委員会・大会委員会
nlp2024-inquiry (at) anlp.jp