|
Q1-4
|
専門語彙グラフに基づく自動用語生成枠組・手法・評価
|
|
藤井 俊英, Amir Hazem, 影浦 峡 (東大) |
|
本論文は,専門語彙を単語間の関係からなるグラフとして表現し,辺の予測問題として定式化することで新たな専門語を生成する手法を提案するものです.語内依存関係と語の完結関係という二種類の辺を備えた構造を定義し,語の形成過程を体系的に扱う枠組みを提示した点に新規性があります.複数分野の実験において既存手法よりも高い性能を示しており,構造に基づく自動生成の有効性を実証した点が高く評価できることから,優秀賞にふさわしいと判断しました. |
|
Q1-5
|
SoftMatcha 2: 1兆語規模コーパスの超高速かつ柔らかい検索
|
|
米田 優峻 (東大/NII), 鴨田 豪 (総研大/国語研), 松下 祐介 (京大), 末永 幸平 (NII/京大), 秋葉 拓哉 (Sakana AI/東北大), 和賀 正樹 (NII/京大), 横井 祥 (国語研/東北大/理研) |
|
本論文では,1兆語超のコーパスに対し,語順を保持しつつ置換・挿入・削除を許容する柔らかい検索を0.1秒単位で実現するSoftMatcha 2を提案しています.既存のコーパス検索は,完全一致や意味類似のいずれかに制約があり,兆語規模への拡張は困難でしたが,新規アルゴリズムにより組合せ爆発を抑え,既存法を大幅に上回る高速化を達成しました.本手法は自然言語処理研究のみならず,大規模コーパスに基づく計量的言語研究や用例探索にも大きく貢献する可能性が高く,新しい時代の基盤技術として高く評価できるため,優秀賞にふさわしいと判断しました. |
|
C3-15
|
大規模視覚言語モデル内部におけるダイアグラムの表現形成過程
|
|
吉田 遥音, 工藤 慧音, 青木 洋一 (東北大), 田中 涼太 (NTT), 斉藤 いつみ, 坂口 慶祐, 乾 健太郎 (東北大) |
|
本論文では,大規模視覚言語モデル(LVLM)が不得意とされる,ダイアグラムにおいて有向エッジで表される要素間の関係理解に着目し,合成ダイアグラムデータセットを構築した上で,プロービングにより,ダイアグラムの視覚情報がLVLM内部のどこに表現されるかを分析しています.ノードや大域構造は視覚エンコーダで表現される一方,関係エッジの情報は言語モデル側で表現されることを示しました.ベンチマークとして有用なデータセットの提供という実用的価値も備えており,優秀賞にふさわしいと判断しました. |
|
C4-12
|
CMDR: 文脈を考慮したマルチモーダル文書検索
|
|
田中 涼太, 長谷川 拓, 西田 京介 (NTT) |
|
本論文では,複数ページに跨る文脈を考慮したマルチモーダル文書検索タスクCMDRと,大規模ベンチマークCMDR-Benchを提案しています.従来のページ単位の独立検索では扱えなかった文書全体の構成や依存関係に基づくIndirect検索を定式化し,さらに複数ページを同時に埋め込むCMDR-Embedと対照学習CMCLにより,大幅な性能向上と高効率化を達成しました.実世界の長大文書を対象とする情報検索の高度化に大きく貢献する成果であり,優秀賞にふさわしいと判断しました. |
|
C4-15
|
医療用大規模日本語視覚言語モデルの構築
|
|
安道 健一郎 (理研/東大), 黒瀬 優介 (東大/理研), 菊地 智博, 牧元 久樹 (自治医大), 小寺 聡 (東大), 小林 和馬 (国がん/NII), 合田 和生 (東大), 村尾 晃平, 吉田 浩 (NII), 田村 孝之 (ROIS), 合田 憲人 (ROIS/NII), 喜連川 優 (ROIS/東大), 原田 達也 (東大/理研/NII) |
|
本研究は,総パラメータ数14Bの日本語医療VLMを構築した研究です.医療分野における最大の障壁である学習データ不足に対し,英語データを活用して約1,200万件という大規模な日本語データを生成する手法は今後の医療ドメインにおける基盤モデル研究の促進に大きく寄与すると期待されます.また,推論過程を明示するCoT形式の導入により,CT・X線画像の読影において既存モデルを凌駕する高い性能を達成しています.これらの点に加え,オープンな日本語医療VLMを構築し,モデルやデータを公開予定である点は社会的価値が極めて高いと判断し,優秀賞にふさわしいと判断しました. |
|
Q5-2
|
KokoroChat: 講習を受けたカウンセラーによるロールプレイを通じて収集された日本語カウンセリング対話データセット
|
|
斉 志揚, 金子 拓正 (電通大), 高溝 恵子, 浮世 満理子 (全国心理業連合会/アイディアヒューマンサポートサービス/ラポールテクノロジーズ), 稲葉 通将 (電通大/ラポールテクノロジーズ) |
|
本論文では,講習を受けたプロカウンセラーおよび訓練生によるロールプレイを通じて,6,589件という大規模かつ長文の日本語心理カウンセリング対話データセットKokoroChatを構築しました.20項目にわたるクライアント評価を付与し,専門性・現実性・倫理性を両立した設計は従来のクラウドソーシングやLLM合成データと一線を画します.さらに本データによるファインチューニングで応答品質の有意な向上を実証しました.以上より,優秀賞にふさわしいと判断しました. |
|
B6-17
|
感情は環状?
|
|
山内 悠輔 (東大), 相澤 彰子 (東大/NII) |
|
本論文では,心理学の円環感情モデルを言語モデルの埋め込みに直接反映するため,超球面上で学習する正規化ヘッド(nGPT)と,ラベル間の角度距離を制約に組み込む新損失CircularCSEを提案しました.複数データセット/複数backboneで,従来のSINCERE・SoftCSEと比較し,解釈性(人間の感情距離との相関)を大きく改善する一方で識別精度が低下するトレードオフを実験・理論の両面から定量化し,最大マージンの観点でその要因を説明して設計指針を与えました.以上より,優秀賞にふさわしいと判断しました. |
|
B6-20
|
周波数エントロピーによる位置埋込みの解明
|
|
岡 佑依 (NTT), 花房 健太郎 (愛媛大), 長谷川 拓, 西田 京介 (NTT) |
|
本論文では,LLMにおいて標準的に用いられる位置表現RoPEの分析に,周波数エントロピー(FE)を用いる枠組みを提案し,従来研究で指摘されてきた知見間の矛盾を整合的に説明しています.また,実験を通じて,周波数帯と周期性を分離して定量的に捉えられること,さらに推論時のみの介入により周波数帯は必須である一方で,周期性は冗長になり得ることを示しています.RoPEの本質的構造を明確化した点は学術的意義が高く,分析的洞察と実用的価値を兼ね備えた完成度の高い研究であることから,優秀賞にふさわしいと判断しました. |
|
Q7-3
|
Let's Put Ourselves in Sally's Shoes: 他人の靴プレフィリングは大規模言語モデルの心の理論を改善する
|
|
篠田 一聡, 北条 伸克, 西田 京介, 山﨑 善啓, 鈴木 啓太, 杉山 弘晃, 齋藤 邦子 (NTT) |
|
本論文では,LLMの出力の先頭に一文を加えることでLLMの他者の心的状態を推論する能力(ToM)を改善できることを報告しています.fine-tuning を行う既存研究では分布外汎化性能が低下する問題があり,また入力文脈に対する前処理を行う既存研究では適用できる問題が限られていましたが,提案手法はモデルパラメータを調整することなく簡単な手法でToM性能を改善できており,また問題設定に関する仮定が最小限であることから広範な問題に適用可能です.分析ではこれまであまり調査されてこなかったToMと思考の忠実性に関係があることを明らかにしており,今後の研究にも発展が期待できることから,優秀賞にふさわしいと判断しました. |
|
C7-20
|
位置符号化の基底拡大戦略は外挿性能を制限する
|
|
岡 佑依 (NTT/東北大), 斉藤 いつみ (東北大), 西田 京介 (NTT) |
|
本論文では,Rotary Position Embedding(RoPE)における基底𝜃の拡大戦略が外挿性能を制限していることを明らかにし,𝜃を事前学習時の最大系列長に設定することで,再学習なしに外挿性能を向上できることを示しています.周波数帯の実証的・理論的分析により,RoPEが有効に機能する次元が𝜃と最大系列長によって決定されることを解明し,基底設定に関する新たな設計指針を提示しました.理論と実験の両面から長文脈化の常識を再考させる重要な成果であり,優秀賞にふさわしいと判断しました. |
|
P7-20
|
時間とともに変化する未整理な外部知識の継続的な整理と長文コンテキストRAGへの活用
|
|
西田 典起 (理研), Fei Cheng (京大), 松本 裕治 (理研) |
|
本論文は,LLMの外部知識における時間的な更新や矛盾,誤情報を含む未整理な情報を,タイムスタンプ付き命題間の関係としてグラフ構造として整理・体系化して扱うRAGフレームワークTPR-RAGを提案しています.Argument miningの知見を時間情報やグラフ構造と組み合わせ,長文コンテキストにおいても頑健な推論を可能にしたアプローチは独創的であり,新たに構築した評価基盤を用いた有用性の実証も十分になされています.以上の点から,今後のRAG研究を加速させる優れた研究であるため,優秀賞にふさわしいと判断しました. |
|
C8-6
|
類推に基づくエキスパート割当:kNN検索を用いたMixture-of-Experts
|
|
呂 博軒 (科学大/サイバーエージェント), 村上 聡一朗 (サイバーエージェント), 上垣外 英剛 (NAIST/サイバーエージェント), 張 培楠 (サイバーエージェント) |
|
本論文では,MoEアーキテクチャを採用した言語モデルにおいて,過去の最適割当をメモリとして保存し,推論時にkNN検索を用いて割当を再利用するkNN-MoEを提案しています.パラメータ更新を行わず,過去の最適割当をメモリとして活用するシンプルな枠組みにより,Zero-shotを一貫して上回り,SFTと比較しても競争力のある結果を達成している点は高く評価できます.また,丁寧な分析と検証も行われていることから,優秀賞にふさわしいと判断しました. |
|
Q9-20
|
Noisy Channel に基づく生成確率による画像生成評価
|
|
林 和樹, 尾崎 慎太郎, 神野 倫行, 上垣外 英剛, 渡辺 太郎 (NAIST) |
|
本論文は,画像生成結果を雑音のある通信過程として捉え,生成確率に基づいてテキスト整合性と視覚的品質を統一的に評価する新たな枠組みを提案するものです.従来の埋め込み類似度や分布間距離に基づく指標とは異なり,生成モデルの尤度を用いることで,参照不要で各画像を独立に評価できる点に新規性があります.人手による選好との高い整合を示しており,柔軟な評価方法を提示した意義は大きく,優秀賞にふさわしいと判断しました. |
|
TS1-2
|
InterviewArena:情報量の欠損度合いに着目した不完全情報下での対話型推論能力ベンチマーク
|
|
唐澤 香梨菜 (電通大) |
|
本論文では,大規模言語モデル(LLM)の不完全情報下における対話型推論能力を測定する新たなベンチマーク「InterviewArena」を提案しています.InterviewArenaでは,評価対象となるLLMを面接官役とし,志望者役のLLMの志望度合いを予測させることで,不完全情報下における欠損情報の推論能力を定量的に評価します.LLMの人間らしい洞察力や情報補完能力を測るための新たな評価基盤を構築した点は高く評価できるため,若手奨励賞にふさわしいと判断しました. |
|
P1-13
|
Claim-Wise Interaction Modeling with Hybrid Context and Domain-Adaptive Dictionary for Japanese Patent Retrieval
|
|
Zelin Zhang (京大) |
|
本論文は,日本語特許検索に特有の課題を提示し,技術用語辞書と意味ベクトルに基づく新たな検索手法を提案するものです.文書全体を単一ベクトルで表現する従来手法とは異なり,提案手法は要約と請求項を分離して表現し,複数ベクトルで照合を行っています.大規模特許コーパスにおける技術検索タスクでは再現率を大きく改善しており,実応用に即した性能を示した意義は大きいと考えられます.以上のことから若手奨励賞にふさわしいと判断しました. |
|
B2-3
|
機械文としての検出されやすさと文章の品質は両立する
|
|
齋藤 幸史郎 (科学大) |
|
本論文では,LLMの生成文に透かしトークンを埋め込むWatermarkの研究において,既存研究で問題とされていた機械文の検出性能と生成文の品質のトレードオフを,検出性能とタスク評価の二つの評価値を報酬とした強化学習を行うことで緩和し,両性能の両立を実現しています.実験では,提案手法が小規模な学習サンプルでも有効に働くことや,学習したタスクと異なるタスクにおいても性能の向上が確認できており,実用性の観点からも高く評価できることから,若手奨励賞にふさわしいと判断しました. |
|
B2-7
|
機械生成文検出とメンバーシップ推論は相互に転移可能
|
|
小池 隆斗 (科学大/ペンシルバニア大) |
|
本論文は,メンバーシップ推論と機械生成文検出の転移性に着目し,両タスクの最適検定統計量が共通することを理論的に示すとともに,大規模な実験によりその有効性を検証した研究です.従来は独立に研究されてきた二つの課題の共通性を尤度比検定において捉え,この発見において複数の手法を再整理した点に新規性があります.タスク横断的な評価基盤において転移性の実用的意義を示したことから,若手奨励賞にふさわしいと判断しました. |
|
TS2-14
|
言語モデリングに階層構造は必要か?インクリメンタルな言語処理における記憶との関係について
|
|
石井 太河 (東大) |
|
本論文では,大規模言語モデルの性能の良さから生じる,言語のモデル化に階層性は必要なのか,という問いに対して,トークンと構造の両方を含む系列を予測するというタスクによって実験的に検証を行い,モデルの記憶容量に応じて予測に必要な階層構造の深さが変化するという結果を示しています.非常に独創性に富んだ研究であり,かつ近年のLLMではモデルのコンテキスト長を超えた入力に対する性能の低下が問題とされていることから,有用性も高いと評価できます.実験では形式言語に限定していますが,自然言語への一般化についても言及しており,今後の研究にも期待できることから,若手奨励賞にふさわしいと判断しました. |
|
B2-16
|
排他的逆学習
|
|
佐々木 睦史 (東北大/NII) |
|
本論文は,LLMの安全性を担保する新たな逆学習のパラダイムとして,保持したい知識・表現以外を広く忘却させる排他的逆学習を提案しています.忘却対象を個別に列挙する従来の逆学習の限界を,自己生成文章と一様損失の活用により原理的に回避した点は極めて独創的です.実験では,医療や数学ドメインの性能を維持しつつ,未見のJailbreak攻撃に対しても高い防御性能を実証しました.ドメイン特化型モデル構築の指針と逆学習の新たな視点を提供する優れた研究であり,若手奨励賞にふさわしいと判断しました. |
|
B2-17
|
ハルシネーションから学ぶ:内部表現への介入によるハルシネーション抑制
|
|
門谷 宙 (NTT) |
|
本論文では,LLMのハルシネーション抑制として,既存手法であるInduce-then-Contrast Decoding(ICD)法の問題であった推論コストの増加を抑えた手法を提案しています.提案手法はanti-expert手法を単一モデルで実現することで,モデルの内部表現に介入して事実性を向上させることが可能となっています.これは知識の想起失敗に起因するハルシネーションを抑制する上で有効であり,今後の研究にも発展が期待できることから,若手奨励賞にふさわしいと判断しました. |
|
P3-10
|
LLMへの軽量ベクトル介入による金融センチメント制御
|
|
平間 太規 (北大) |
|
本論文では,モデルの再学習時の計算コストを抑えるためのドメイン適用手法Polar2を提案しています.3値分類を2軸の組み合わせで考え,各軸に対して介入を行うことにより,既存研究では扱えなかった3値の分類問題に対して補正を低コストに行う手法です.隠れ状態へ介入することで LLM の判断に影響を及ぼすという発想は興味深く,独創性のある研究です.実験において,既存研究と比較して,更新するパラメータ数を大幅に抑えつつ,高い精度を実現しており,工学的な有用性も示されています.以上より,若手奨励賞にふさわしいと判断しました. |
|
Q3-10
|
マルチモーダルかつ長い文脈の処理が求められる語用論的推論ベンチマーク
|
|
佐藤 拓真 (NAIST/理研) |
|
本論文では,漫画コーパスを用いてマルチモーダルかつ長文脈の処理を要する語用論的推論ベンチマークを構築し,既存ベンチマークの文脈長・難度・モーダル単一性の課題に包括的に取り組んでいます.見開き最大59ページに及ぶ文脈と多様な語用論カテゴリを含む101問を整備し,最先端 VLLM と人間を比較した結果,人間との明確な性能差を示しました.長文脈・マルチモーダル環境における語用論的推論研究の基盤を築く意欲的な成果であり,今後の発展が大いに期待されることから,若手奨励賞にふさわしいと判断しました. |
|
B4-1
|
文脈内学習におけるタスク指向情報除去のメカニズム
|
|
趙 羽風 (JAIST) |
|
本論文では,大規模言語モデルの文脈内学習(ICL)のメカニズムを,「新しい情報の出力へのコピー」ではなく「タスク非関連情報の除去」という観点から解明しています.既存研究では誘導ヘッドによる単純なラベルコピーがICLの中核とされてきましたが,正解ラベルがデモに含まれない状況での推論能力を説明できない課題がありました.本研究は低ランクフィルタを用いた実験により,情報除去の役割を担うアテンションヘッドがモデル内部で暗黙的にタスク非関連情報を除去していることを明らかにしました.ICLの基礎的な理解を深めた本成果は,今後のモデル解釈や制御技術の発展に大きく貢献する可能性が高く,若手奨励賞にふさわしいと判断しました. |
|
C4-17
|
Lightweight Progressive LoRA for Multimodal Continual Instruction Tuning
|
|
Yahan Yu(京大) |
|
本論文では,マルチモーダル継続指示チューニングにおける破滅的忘却と負の転移を解決するため,タスクごとに新規LoRAを追加し既存ブロックを凍結するProgLoRAを提案しました.さらにタスク適応的にLoRAを選択・融合するallocationと,KL損失で過去タスクの重み推定を保持するtask recallを導入し,軽量版で上位層のみ適用してパラメータ増加も抑えました.CoIN上でLLaVA-1.5に対し既存法を一貫して上回り,効率と性能を両立した点が高く評価できます.以上より,若手奨励賞にふさわしいと判断しました. |
|
B5-14
|
言語モデルにおける既知性判断のメカニズム
|
|
佐藤 魁 (東北大) |
|
本論文では,言語モデルが自身の知識を既知か未知か判断する内部メカニズムの解明を目的とし,モデルの入力文に対する内部予測と実際の入力との整合性に基づいて既知性を判断しているという仮説を検証しています.既知性の判断能力について分析するために構築したデータセットを用いた実験を実施し,内部予測と実際の入力の整合性とモデルの既知性判断に因果的関連があることを確認しています.言語モデルの誠実性や信頼性担保のための基礎的な理解に繋がる重要な取り組みであり,若手奨励賞にふさわしいと判断しました. |
|
B6-7
|
クロスコーダーを用いた脳と言語モデルにおける内部表現の特徴量比較
|
|
青木 洸士郎 (早大) |
|
本論文では,クロスコーダーを脳応答と大規模言語モデルの内部表現の比較に拡張したBrain-LMクロスコーダーを提案し,共通特徴量・脳優位特徴量・LM優位特徴量を同一枠組みで抽出する方法を示しました.fMRIデータとLlama系モデルを用いた実験により,場所表現は共通,負の情動は脳優位,口語表現はLM優位であることを解釈可能な形で特定し,皮質マップ上で神経科学的妥当性も検証した点は独創的です.以上より,若手奨励賞にふさわしいと判断しました. |
|
B6-13
|
Attention SinkおよびMassive Activationの発生機序の分解
|
|
木谷 頼斗 (東北大) |
|
本論文では,Attention SinkとMassive Activationという現象に対して,その発生原理の解明に向けた実験的な分析を行っています.論文では3つの仮説を立て,その中で,BOS トークン埋め込みによる影響と自身への注意集中による影響が実験的に確認されています.特に注意を自身に向ける挙動はこれまでなかった新しい視点です.これらは,モデルの解釈性や制御において重要な意味を持つ可能性があり,興味深い知見であるといえます.以上により,若手奨励賞にふさわしいと判断しました. |
|
B6-15
|
注意機構における Attention Sink のバイアス項的解釈
|
|
大橋 諭貴 (東北大) |
|
本論文では,Attention Sinkについて,分析と介入を通じてその役割の解明を試みています.論文では,Attention Sink がモデル構造の欠落を補完する暗黙的なバイアス項のように機能しているという仮説を実験的に検証しています.バイアス項の有無という実装上重要なテーマと,Attention Sinkという理論上重要なテーマが,上手くかみ合った興味深い内容です.この結果は,解釈性向上や推論効率化などへの応用のための萌芽的な知見であり,若手奨励賞にふさわしいと判断しました. |
|
C6-23
|
マルチモーダル知識ハイパーグラフを利用した生物医学分野における知識拡張情報抽出
|
|
西出 隆盛 (豊田工大) |
|
本論文では,化学構造やタンパク質配列などのマルチモーダル知識を統合した知識ハイパーグラフを構築し,ハイパーグラフニューラルネットワークとソフトプロンプトを通じて言語モデルに統合する生物医学情報抽出手法を提案しています.BC5CDRベンチマークにおいて,NERおよび関係抽出の両タスクで性能向上を達成し,特に光学異性体のようにテキストのみでは区別困難な事例でマルチモーダル知識の有効性を実証しました.生物医学分野における高次・多様な知識構造を的確に捉えた独創的研究であり,今後の発展が大いに期待されることから,若手奨励賞にふさわしいと判断しました. |
|
B8-3
|
TimeMachine-bench: LLMは「あの日」のコードを最新環境に適応できるか?
|
|
藤井 諒 (東北大/フューチャー) |
|
本論文では,既存のコードを最新の依存関係へ適応させるマイグレーション能力を評価する「TimeMachine-bench」を提案しています.既存のコード生成ベンチマークは環境が経時的に変化しないことを前提としており実態に即していませんでした.本研究は,GitHub上の任意のリポジトリから自動でマイグレーションシナリオを構築するパイプラインを確立し,継続的なデータ更新を可能にしています.実験では,過剰な修正や自身の過去の出力に起因するエラーパターンの反復といった,自律型エージェントの信頼性に関わる課題を明らかにしています.今後のAIエージェント開発に向けて不可欠な弱点の把握と明確な道標を示した研究として高く評価できるため,若手奨励賞にふさわしいと判断しました. |
|
C8-13
|
Transformer事前学習における最終層隠れ状態ジャンプの抑制
|
|
柴田 圭悟 (東北大) |
|
本論文では,近年の事前学習モデルにおいて,角度距離の変化が最終層付近で極端に大きくなる現象を「ジャンプ」と定義し,この現象を分析しています.Transformer に基づく言語モデルの内部挙動を解釈する研究は,重要な分野の一つであり,本研究のその一端を担っています.実験では,このジャンプという現象を抑制する正則化手法を導入することで,事前学習においても,ファインチューニングにおいても精度が改善傾向にあることが示されています.以上より,若手奨励賞にふさわしいと判断しました. |
|
C8-15
|
順送り訳における聞き手の主観的・客観的理解度の比較分析
|
|
児島 ひかる (NAIST) |
|
本論文では,同時機械翻訳の前提となる順送り訳と,日本語で一般的な語順とされる逆送り訳とを比較し,聞き手の理解度に差異が生じるかどうかを客観的な理解度と主観的な評価の両面から検証しています.比較実験の結果,順送り訳は逆送り訳よりも内容理解テストの正答率が高い傾向が確認された一方,主観的な理解のしやすさは順送り訳の方が低いことが明らかになりました.順送り方略が聞き手に与える理解度を客観的に測定し,分析した意義は大きいことから,若手奨励賞にふさわしいと判断しました. |
|
B8-18
|
JMT-Safety: 日本語マルチターン対話における安全性評価ベンチマーク
|
|
五十里 渚 (早大) |
|
本論文では,日本語マルチターン対話に特化した安全性評価ベンチマークJMT-Safetyを構築し,大規模言語モデルの脆弱性を体系的に評価しています.多様な攻撃手法を整理・体系化した上でマルチターン化された大規模データを整備し,LLM-as-a-Judgeを用いた評価枠組みの妥当性を人手評価との高い一致率により検証している点は実証的に価値が高いものです.今後の安全性研究やモデル開発を支える基盤的資源を提供する点でも意義が大きいことから,若手奨励賞にふさわしいと判断しました. |
|
P9-19
|
拡散言語モデルのテキスト生成順序の最適化
|
|
浅野 輝 (東大/理研) |
|
本論文は,マスク拡散言語モデル(MDLM)におけるテキスト生成順序の最適化に着目した研究です.従来,MDLMの学習はトークン復元(what-to-unmask)に主眼が置かれてきましたが,本研究では「どの位置を先に復元するか(where-to-unmask)」が性能の支配的要因であることを,正解系列を用いた順序オラクルの導入により体系的に分析・明確化しました.GSM8K等の高度な推論タスクで大幅な精度向上を実証し,性能上限を定量的に示した点は有用性が極めて高いと評価できます.今後の順序学習手法の設計に重要な指針を与える優れた成果であり,若手奨励賞にふさわしいと判断しました. |
|
C1-8
|
埋め込みノルムによる連続的な文難易度制御
|
|
藤原 有希, 宮田 莉奈 (愛媛大), 梶原 智之 (愛媛大/阪大), 荒瀬 由紀 (科学大) |
|
【有用性】の観点での評価 |
|
TS2-1
|
意味と頻度の関係から探求する言語モデルの特性
|
|
永田 亮 (甲南大), 今泉 允聡 (東大), 高村 大也 (産総研), 川崎 義史 (東大), 大谷 直輝 (東京外大) |
|
【新規性】【有用性】の観点での評価 |
|
C2-4
|
JaWildText: 日本語文字認識性能評価のための実世界画像データセット
|
|
前田 航希, 岡崎 直観 (科学大/NII) |
|
【新規性】【有用性】の観点での評価 |
|
P2-14
|
テキストにおける書き手の孤独感の推定
|
|
岩井 律子 (理研), 熊田 孝恒 (京大) |
|
【新規性】【将来性】の観点での評価 |
|
C3-14
|
画像生成モデルにおける直喩喩体の生成挙動分析
|
|
王 略丞 (東大), 尾崎 慎太郎, 上垣外 英剛 (NAIST), 林 克彦 (東大), Jingun Kwon (CNU), 奥村 学 (科学大), 渡辺 太郎 (NAIST) |
|
【将来性】の観点での評価 |
|
P3-14
|
子ども向け対話エージェント構築のための親子絵本読み対話コーパスの収集と分析
|
|
中木 裕子, 千葉 祐弥, 藤田 早苗, 荒木 章子 (NTT) |
|
【新規性】【将来性】の観点での評価 |
|
C4-1
|
WAON: 視覚言語モデルのための大規模かつ高品質な日本語画像・テキスト対データセット
|
|
杉浦 一瑳 (京大/NII), 栗田 修平, 小田 悠介 (NII), 河原 大輔 (早大/NII), 岡部 寿男 (京大), 岡崎 直観 (科学大/NII) |
|
【新規性】【将来性】の観点での評価 |
|
TS4-3
|
Fermi-MCTS:フェルミ推定のためのLLM推論フレームワーク
|
|
丸田 敦貴 (筑波大), 加藤 誠 (筑波大/NII) |
|
【新規性】【将来性】の観点での評価 |
|
TS4-4
|
数学的証明におけるbutの機能:証明コーパスの構築と分析
|
|
山田 鈴太 (電通大/慶應大), 山﨑 紗紀子, 安東 里沙子, 天本 貴之 (慶應大), 秋吉 亮太 (電通大), 峯島 宏次 (慶應大) |
|
【新規性】【有用性】の観点での評価 |
|
B4-7
|
Human-LLM Divergence in Temporal Reasoning under Mixed Time Expressions
|
|
Sun Feifei, Tong Ziyi (JAIST), Racharak Teeradaj (東北大), Nguyen Minh Le (JAIST) |
|
【有用性】の観点での評価 |
|
B4-12
|
単一のhubテキストがCLIPを壊す:hubnessによるクロスモーダル埋め込みの脆弱性特定
|
|
出口 祥之, 帖佐 克己 (NTT), 坂井 優介 (NAIST) |
|
【有用性】【将来性】の観点での評価 |
|
B4-19
|
Understanding Fact Recall in Language Models: Why Two-Stage Training Encourages Memorization but Mixed Training Teaches Knowledge
|
|
Zhang Ying (理研), Heinzerling Benjamin (理研/東北大), Li Dongyuan (東大), 乾 健太郎 (理研/MBZUAI) |
|
【新規性】の観点での評価 |
|
P4-22
|
対話内難易度変化に追従する第二言語学習支援対話システム
|
|
森岡 拓, 高山 隼矢 (愛媛大), 梶原 智之 (愛媛大/阪大) |
|
【新規性】【有用性】の観点での評価 |
|
B5-12
|
多段算術推論タスクにおける思考の連鎖の忠実性
|
|
工藤 慧音, 青木 洋一 (東北大/理研), 栗林 樹生 (MBZUAI/東北大), 曾根 周作 (東北大), 谷口 雅弥 (理研/東北大), Ana Brassard (理研), 坂口 慶祐 (東北大/理研), 乾 健太郎 (MBZUAI/東北大/理研) |
|
【新規性】【有用性】の観点での評価 |
|
B5-13
|
大規模言語モデルの潜在言語は一貫しているべきか?
|
|
尾崎 慎太郎 (NAIST/NII), 平岡 達也 (MBZUAI/NAIST), 大竹 啓永 (NAIST/NII), 大内 啓樹 (NAIST/理研), 磯沼 大 (NII/東北大/東大/理研), Benjamin Heinzerling (理研/東北大), 乾 健太郎 (MBZUAI/東北大/理研), 渡辺 太郎 (NAIST), 宮尾 祐介, 大関 洋平 (東大/NII), 高木 優 (名工大) |
|
【新規性】の観点での評価 |
|
B5-19
|
単一エージェントとマルチエージェントの生成多様性の評価
|
|
Cui Encheng, Peng Shaowen, 伊藤 和浩, Xu Jinsha, 久田 祥平, 若宮 翔子, 荒牧 英治 (NAIST) |
|
【将来性】の観点での評価 |
|
P5-22
|
文脈内知識は LLM の信念体系に整合的に統合されるか?
|
|
丹羽 彩奈, 金子 正弘, 乾 健太郎 (MBZUAI) |
|
【将来性】の観点での評価 |
|
Q6-6
|
個別選好の異質性を考慮した大喜利ユーモア選好要因の分析
|
|
村上 聡一朗 (サイバーエージェント), 上垣外 英剛 (NAIST/サイバーエージェント), 高村 大也, 奥村 学 (科学大) |
|
【有用性】【将来性】の観点での評価 |
|
B6-10
|
検索ヘッドに基づく大規模言語モデルの長文脈処理の改善
|
|
Youmi Ma (科学大), 岡崎 直観 (科学大/産総研/NII) |
|
【新規性】【有用性】の観点での評価 |
|
C6-16
|
グラフベースRAGの知識構造化に関するモジュール別検討
|
|
西田 典起, Rumana Ferdous Munne, Shanshan Liu, 徳永 なるみ, 山縣 友紀 (理研), Fei Cheng (京大), 古崎 晃司 (阪電通大), 松本 裕治 (理研) |
|
【有用性】【将来性】の観点での評価 |
|
C6-22
|
なぜ平均プーリングはうまく動くのか?テキスト埋め込みの二次統計量の崩壊の定量化
|
|
原 知正, 栗田 宙人 (東北大), 今泉 允聡 (東大/京大/理研), 乾 健太郎 (MBZUAI/東北大/理研), 横井 祥 (国語研/東北大/理研) |
|
【新規性】【有用性】の観点での評価 |
|
B7-12
|
言語モデルの言語獲得装置
|
|
三田 雅人, 染谷 大河, 吉田 遼, 大関 洋平 (東大) |
|
【有用性】【将来性】の観点での評価 |
|
B7-15
|
大規模言語モデルの探索型デコーディングにおける予算制約に整合的な探索戦略
|
|
宮本 空, 大葉 大輔 (科学大), 岡崎 直観 (科学大/産総研/NII) |
|
【新規性】【有用性】の観点での評価 |
|
B7-18
|
アンサンブル蒸留と学習ベース集計を用いた数学的推論プロセスの検証と性能分析
|
|
榎本 倫太郎 (早大), 栗田 修平 (NII), 河原 大輔 (早大) |
|
【新規性】【有用性】の観点での評価 |
|
P7-18
|
大規模言語モデルが持つ選好情報と少数正解事例の統合による絶対評価較正を用いた複数観点同時小論文自動採点
|
|
柴田 拓海, 宮村 祐一 (トーマツ) |
|
【新規性】の観点での評価 |
|
B8-10
|
ファインチューニングにおける学習データの形式情報がLLM の安全性に与える影響
|
|
奥田 悠斗, 鶴岡 慶雅 (東大) |
|
【有用性】の観点での評価 |
|
Q8-12
|
ココロトーン:造語がチームを結びつける
|
|
伊藤 和浩, 永井 宥之, 若宮 翔子, 荒牧 英治 (NAIST) |
|
【新規性】【将来性】の観点での評価 |
|
Q9-6
|
街角コメントは経済変動を予測するか? - 埋め込み表現を活用したアプローチの提案とその応用 -
|
|
宍戸 直樹, 渡部 敏明 (一橋大), 吉田 光男 (筑波大), 欅 惇志 (一橋大) |
|
【有用性】【将来性】の観点での評価 |
|
B9-11
|
TopK Language Models
|
|
高橋 良允 (東北大/理研), 稲葉 達郎 (MBZUAI), 乾 健太郎 (MBZUAI/東北大/理研), Benjamin Heinzerling (理研/東北大) |
|
【将来性】【有用性】の観点での評価 |
|
B9-12
|
大規模言語モデルと世界各国の価値観とのアライメント
|
|
Yang Liu (京大), 金子 正弘 (MBZUAI), Chenhui Chu (京大) |
|
【有用性】の観点での評価 |
|
B9-15
|
日本語 LLM は内部でどの表記を経由するか:logit lens による潜在的漢字化の分析
|
|
石田 茂樹 (科学大), 辻村 有輝 (産総研), 横田 理央, 岡崎 直観 (科学大), 高村 大也 (産総研) |
|
【有用性】の観点での評価 |
|
P9-17
|
自己修正学習とUCBデコーディングによる離散拡散テキスト生成
|
|
浅田 真生 (産総研), 三輪 誠 (豊田工大/産総研) |
|
【新規性】【将来性】の観点での評価 |