A5-1 | VisualMRC: 文書画像に対する機械読解 |
⽥中涼太, ⻄⽥京介, 吉⽥仙 (NTT) | |
本論文は,言語と視覚の融合的な理解に向けて,ウェブ文書のスクリーンショット画像(文書画像)に対する機械読解タスク,データセット,およびモデルを提案しています.タスク自体が新しいことに加え,構築したデータセットは1万画像,3万質問からなるものであり,本タスクの学習,評価に十分用いることができる規模となっています.実サービスでは,テキストではなく,このような文書画像のみが手に入ることが多くあり,実用面での利活用も期待できることから,最優秀賞にふさわしいと判断しました. | |
P5-2 | Recurrent neural network grammar の並列化 |
能地宏 (産総研), 大関洋平 (東大) | |
本論文では,既存の Recurrent neural network grammar (RNNG) の高速化に取り組んでいます.昨今のDNNによる方法論で良い性能を得るには,大量のデータを高速に処理することが必須であり,ミニバッチによるGPU上での並列処理がその中心的な役割を担っています.しかし,構造情報を持つデータの場合はミニバッチ処理との相性が悪く,高速な学習を実現することが困難でした.本論文では,構造の情報をミニバッチ処理に適した形に分解することでGPU上での並列化を容易にする方法論を提案しています.実験において,最大で6倍速程度の高速化に成功し,また,その効果として,より大きなコーパスでの実験を行いRNNGに関する新たな知見も提供しています.分野全体が抱えていた潜在的な問題を解消する指針を示し,また,文構造を考慮した言語モデルの有用性を大きく引き上げる,最優秀賞にふさわしい素晴らしい成果だと判断しました. |
P4-6 | 児童作文の評価に向けた脱文脈化観点からの検討 |
⽥中弥⽣(神大/国語研), 佐尾ちとせ (関⻄学院千⾥国際中等部・ ⾼等部), 宮城信 (富⼭⼤) | |
本論文は,児童の作文のテーマと学年による違いを脱文脈化程度の観点からどのように捉えられるかを検討した論文です.具体的には修辞ユニット分析の分類法を用いて,修辞機能と脱文脈化指数の現れ方を丁寧に分析しています.そして,作文と脱文脈化の位置づけが,言語で思考することと認識することとの関係で示されています.今後の研究の発展により,言語が使えるとはどういうことかという本質的な問題へのアプローチも期待できることから,優秀賞にふさわしい論文といえます. | |
B5-1 | 関連タスクの予測確率分布を用いるsoft-gatedBERTによる対話印象分類 |
⽵下智章, 上垣外英剛, 船越孝太郎 (東⼯⼤), ⾼村⼤也 (東⼯⼤/産総研), 奥村学 (東⼯⼤) | |
対話印象分類のタスクにおいて,対話印象と対話破綻との関係性に着目し,対話破綻検出タスクにおける予測確率分布を用いて印象分類を行う手法を提案しています.こうした関連するタスクの利用はマルチタスク学習などで一般的であるものの,一方のタスクの予測結果をもう一方のタスクの予測に用いることで,関連するタスクのデータをうまく活用できている独創性があります.また,手法自体が様々な関連タスクの組み合わせに適用できる可能性があり,汎用性の高さについても評価できることから優秀賞にふさわしいと判断しました. | |
A7-1 | 単語埋め込みの確率的等方化 |
横井祥(東北大/理研), 下平英寿 (京大/理研) | |
本論文は,単語埋め込み空間の歪みを,単語頻度に基づいて補正する新しい手法を提案しています.具体的には,まず既存手法において単語頻度の一様性を暗黙的に仮定していたという問題点を指摘した上で,等方性を評価する新しい尺度である正規化エントロピー,当方性を修正する新しい手法である方向白色化を提案し,原点中心性,等方性,単語類似度タスク,文類似度タスクに基づいて実験を実施し,提案手法の有効性を経験的に示しています.また,静的な単語埋め込みに対する既存手法の悪影響や,動的な単語埋め込みへの拡張など,今後の研究の発展も期待されることから,優秀賞にふさわしいと判断しました. | |
A7-3 | 単語埋め込みの決定的縮約 |
仲村祐希 (東北⼤), 鈴⽊潤, ⾼橋諒, 乾健太郎 (東北⼤/理研) | |
本論文は,1次元 K平均法と主成分分析を組み合わせた決定的アルゴリズムを用いて,単語埋め込みに対する離散符号の獲得手法を提案しています.従来手法では,得られる離散符号は乱数のシードによって異なるという特徴がありましたが,提案手法は離散符号を決定的に獲得することができるため再現性に優れています.また,得られた離散符号に適した効果的な基底ベクトルの合成方法も合わせて提案しています.実験結果から,得られた離散符号が元の単語ベクトルの情報を十分に保持していることや,機械翻訳タスクにおいてより高い圧縮率で既存手法と同等の精度を達成できることなどを示しています.今後の研究の発展も期待されることから,優秀賞にふさわしい論文といえます. | |
A7-4 | 階層コード表現を用いた上位下位関係の識別 |
⽔⽊栄, 岡崎直観 (東⼯⼤) | |
本論文は,学習済み単語分散表現を階層性を備えたコード表現に変換して,単語ペアの上位下位関係らしさを計量する方法を提案しています.特に,これまで独立に研究されてきた言語資源から得られる意味関係を用いた分散表現学習方法と順序関係のベクトル空間への埋め込み方法に着目し,両者の長所を組み合わせて提案手法に取り入れている点が特徴です.提案手法によって得られたコード表現を用いた性能評価実験を通して,上位下位関係分類タスクにて既存手法を上回る結果を報告するとともに,誤りの傾向についても詳細に分析しています.今後の研究の発展も期待されることから,優秀賞にふさわしい論文といえます. | |
B9-4 | 共同図形配置課題における対話の共通基盤構築過程の分析 |
光⽥航, 東中⻯⼀郎 (NTT), ⼤賀悠平 (筑波⼤), 杵渕哲也 (NTT) | |
本論文は,対話における共通基盤構築をモデル化する方法を提案しています.まず,二名の作業者が互いに対話しながらブラウザ上で独立に図形を配置する共同図形配置課題を設定し,平均28.8発話からなる984対話を収録しています.この際に作業中の図形配置を記録し,図形配置間距離(任意の二図形間で定義されるベクトルの差の距離の総和)を測ることで共通基盤を定量化します.対話ログを分析し,共通基盤が構築される過程を5つのクラスタに分類し,それぞれについて共通基盤の構築が進む様子を可視化しています.共通基盤構築のモデル化は対話システムにおける重要な課題の一つであり,その最初のステップとして共通基盤を定量化する試みは興味深いものです.今後の研究の発展も期待されることから,優秀賞にふさわしい論文といえます. |
E1-4 | 日本語文法誤り訂正におけるデータ増強および評価データ構築 |
加藤秀佳 (同志社⼤) | |
本論文は,日本語文法誤り訂正が抱える「学習に利用できるデータ不足」と「評価データの不十分性」という2つの課題に取り組んだ論文です.前者には訂正前と訂正後の両方の疑似データを生成することで対処し,後者にはBCCWJを用いて複数のドメインに対する複数の種類の誤りを付与したコーパスを構築することで対処しています.興味深い考察が行われており,今後の発展も期待できる研究であるため若手奨励賞に値すると判断しました. | |
C2-4 | 再帰的ニューラルネットワーク文法による人間の文処理のモデリング |
吉⽥遼 (東⼤) | |
本論文は,LSTM,top-downの再帰的ニューラルネットワーク文法(RNNG),left-cornerのRNNGの3つの言語モデルの日本語の認知的妥当性を検証しています.RNNGは文の階層構造を考慮したモデルである点がLSTMと異なります.検証実験では,視線計測コーパスを用いてテキストの読み時間を推測する回帰モデルの性能を測り,言語モデルを説明変数に加えたときの改善度によって言語モデルの認知的妥当性を評価しています.left-corner RNNGが最も認知的に妥当であること,LSTMは言語モデリング精度(perplexity)は高いが認知的妥当性は必ずしも高くないことなど,いくつかの興味深い結果が報告されています.先端的な手法を用いて実験的検証を完遂している点に価値があり,研究者としての将来性の観点から若手奨励賞にふさわしいと判断しました. | |
D3-2 | 後段モデルの損失値を用いた単語分割のタスクへの最適化 |
平岡達也(東⼯⼤) | |
本論文は,対象とするタスクに応じて適した単語分割を学習過程で自動的に決定する方法論を提案しています.具体的には,対象とするタスクを学習する際に用いる損失関数の値を用いて,モデルの最適化と,単語分割の最適化を同時に学習する方法です.本質的には相性の悪いDNNの学習と単語分割という離散最適化の問題を同時に解くために,N-best候補への限定,スムージング,語彙の制限等の様々な工夫を用いて実現しており,目的を達成するために多くの試行錯誤をしてより良い結果を得るための努力が見られます.また,エンコーダとデコーダで単語分割法を変えることで機械翻訳の性能に違いが見られるといった興味深い調査結果も示しています.このように論文としての完成度も高く若手奨励賞に値する成果と判断しました. | |
B5-4 | 潜在変数の投機的サンプリングに基づく多様な雑談応答生成 |
佐藤翔悦 (東⼤) | |
対話モデルにおける雑談応答生成において多様性を確保するという目的から,条件付き変分オートエンコーダ(CVAE)を用いた対話モデルにおける潜在変数の投機的サンプリングという手法を提案しています.CVAEで用いられる潜在変数のサンプリングを学習時に行い,最も損失関数が良かったサンプルを学習に用いるというシンプルな手法ながら,評価において十分な有効性が示されています.CVAEを用いた既存の生成における問題点を注意深く考察した上で適切な問題解決が行われており,また評価・考察も丁寧に記述された完成度の高い論文であることから,若手奨励賞として推薦しました. | |
P5-9 | 疑似正解データを利用した修辞構造解析器の改善 |
⼩林尚輝 (東⼯⼤) | |
本論文は,修辞構造解析器を改善するため,擬似正解データを利用した新しい手法を提案しています.具体的には,まず修辞構造解析器を訓練するための正解データが少ないという問題点を指摘した上で,正解データに基づいて訓練された解析機を複数用意し,それらの解析結果で共通する部分木を抽出して擬似正解データを作成しています.そして,擬似正解データに基づいて事前学習・正解データに基づいて追学習した解析機を訓練し,実験によって提案手法の有効性を経験的に示し,核性・関係ラベル両者を対象にした評価では世界最高性能を達成しています.また,構造解析全般に応用できる可能性がある点でも将来性があり,若手奨励賞にふさわしいと判断しました. | |
B6-3 | トピック文生成による教師なし意見要約 |
磯沼⼤ (東⼤) | |
教師なしでの意見要約を作成するため,要約を構成するトピックと,そのトピックに対応する要約の詳細さに着目した手法を提案しています.具体的には,テキストのトピックを木構造で推定した上で,根から葉に近づくに従って記述内容が詳細化されたトピック文が生成されるという過程を,再帰的混合ガウス分布を用いたモデル化によって表現しています.教師なし要約作成問題について意見要約の性質を適切に利用しようとする優れたモデルであり,今後の発展が大いに期待されることから若手奨励賞として推薦しました. | |
A7-2 | Transformerの文脈を混ぜる作用と混ぜない作用 |
⼩林悟郎 (東北⼤) | |
本論文は,Transformerに対し注意機構に加えて残差結合と層正規化を考慮して「混ぜ合わせの強さ」を分析する方法を提案しました.これまでBERTなどのTransformerの分析においては「混ぜる作用」である注意機構の働きが盛んに扱われてきましたが,本研究では「残す作用」である残差結合や,層正規化にも着目してBERTの分析を行いました.この結果,各層において混ぜる作用ではなく残す作用が支配的であることを明らかにしました.また,BERTの各層において混ぜる作用がどの程度の割合で起きているかについても興味深い考察を行っています.今後の発展が期待できる研究であることから,若手奨励賞に値する論文と判断しました. | |
C7-3 | BERTを用いたTable-Fillingによる固有表現抽出と関係抽出 |
Youmi Ma (東⼯⼤) | |
本論文は,固有表現と固有表現間の関係の同時抽出に取り組み,Table-Fillingに基づく新たなニューラルアーキテクチャを提案しています.本提案によって,従来手法の抱えている特徴量選択とデコーディング順序に関する困難を緩和しています.評価実験を通して,最先端の手法と同等またはそれを上回る予測性能を記録しています.今後のさらなる発展も期待できる研究であることから,若手奨励賞に値する論文と判断しました. | |
D8-1 | 画像と単語の不一致を考慮した疑似教師ありキャプション生成 |
本多右京 (NAIST) | |
画像からキャプションを生成するタスクにおいて,アノテーションコスト削減のため,人手でアノテーションされた画像とキャプションのペアを用いない方法がこれまでに提案されています.これらの方法では,画像から検出された物体名を含む文を疑似キャプションとして学習しますが,疑似キャプションには画像と対応しない記述が多く存在するという問題がありました.本論文では,この問題に対処するために,疑似キャプションにおいて画像と対応しない箇所を教師信号として用いない新しい方法を提案しています.実験により,提案手法,および提案手法と既存手法の組合せの有効性が示されています.研究者としての将来性に鑑みて若手奨励賞に値すると判断しました. | |
P8-21 | 相互情報量最小化による例文に基づく制御可能な言い換え生成 |
杉浦昇太 (東⼤) | |
本論文は,利用者が例文を用いて言い換えのスタイルを制御可能な言い換え生成の手法を提案しています.具体的には,言い換えの対象となる入力文の意味をなるべく保持しながら,別途ユーザが指定した例文になるべく近いスタイルとなるような言い換えを行うモデルを提案しました.また,相互情報量に基づく損失関数を導入することで,文のスタイルに関する情報のみを抽出することを試みています.ユーザが制御可能な文生成技術という重要なトピックに取り組んでいるとともに,今後の発展が期待できる研究であることから,若手奨励賞に値する論文と判断しました. | |
E9-2 | 定理証明に基づく対話的な自然言語推論システム |
隅⽥敦 (東⼤) | |
本論文は,計算機と人間のインタラクションによって自然言語推論(ある文から別の文が帰結するか否かを判定するタスク)を行う手法を提案しています.推論には形式意味論と定理証明器に基づいたシステムを用い,ユーザが証明に必要な知識を補完します.具体的には,証明したい命題をサブゴールに分解し,サブゴールを自然言語に変換してユーザに提示します.ユーザはそれが成立する,しない,どちらでもない,のいずれかを選択し,その結果から補うべき命題を生成します.評価実験では,ユーザとの対話によって高い適合率を維持しながら再現率が大きく向上したことが示されています.対話によって証明に必要な公理を生成するというアプローチは興味深く,今後の発展が期待できる研究であることから,若手奨励賞に値する論文といえます. |
P7-10 | ビジネスシーン対話対訳コーパスの構築と対話翻訳の課題 |
中澤敏明, 李凌寒, Matiss Rikters (東大) | |
本論文は日英ビジネスシーン対話対訳コーパスを構築しています.6つのビジネスシーン(対面対話,電話応対,雑談,会議,研修,プレゼン)を想定し,日本語または英語の対話のシナリオをシナリオライターが執筆し,それを人手で英語または日本語に翻訳することで,日英・英日対訳コーパスを構築しています.日英・英日あわせて,シナリオの数はおよそ80,文数は2400となっています.コーパスの構築手順が丁寧に説明されており,品質管理が十分に行われていることが窺えます.また,このコーパスは評価型ワークショップ WAT 2020(Workshop on Asian Translation 2020) の翻訳タスクでも使用され,論文ではその結果ならびに誤り分析による対話翻訳の課題の考察についても報告しています.同コーパスの一部は既に公開されています.既存の対訳コーパスは書き言葉が中心で,話し言葉,特に対話の対訳コーパスは稀少であり,価値の高い言語資源と言えます. | |
E8-3 | 日本語Wikipediaの編集履歴に基づく入力誤りデータセットと訂正システムの改良 |
田中佑, 村脇有吾 (京大), 河原大輔 (早大),黒橋禎夫 (京大) | |
本論文は, Wikipedia の編集履歴から日本語入力誤りデータセット JWTD v2(Japanese Wikipedia Typo Dataset version 2) を自動構築しています.このデータセットでは,誤りのタイプとして誤字,脱字,衍字,転字,漢字誤変換の5種類が想定され,これらの誤りを含む文とそれを訂正した正しい文が約70万組収録されています.Wikipedia の編集履歴から,誤りを含む可能性のある文と編集後の文(正しい文)の組をマイニングし,品詞・形態素解析,リダイレクトデータ,事前学習済みBART言語モデルを用いたフィルタリングによって誤り訂正前後の文の組を獲得します.さらに,JWTD v2 を用いて入力誤りを訂正するモデルを学習し,その精度が十分に高いことを実験により確認しています.日本語の入力誤りを含むデータセットとしては他に類を見ないほど大規模なものであり,特に深層学習に基づく日本語の誤り訂正の研究に役立つ重要な言語資源であると言えます. |
D9-2 | 言い換えラティスを用いたテキスト生成の性能改善 |
西原大貴 (阪大), 梶原智之 (愛媛大), 荒瀬由紀 (阪大), 藤田篤 (NICT) | |
本論文は入力文の語句の言い換えを考慮して,入力文をラティスとして表現するテキスト生成モデルの提案しており,実験によって機械翻訳での有効性を示しています. また非専門家でも構築可能な知識を組み込むことができ,運用時のカスタマイズ性がseq2seqよりも優れている点が特に実用面において評価できます. |
E9-2 | 定理証明に基づく対話的な自然言語推論システム |
隅田敦 (東大), 峯島宏次 (慶應大), 宮尾祐介 (東大) | |
本論文は,定理証明器を活用して自然言語推論のタスクに取り組む研究です. しかし,証明に必要な公理を事前に網羅することは難しく,著者らは人間と計算機の間の対話的なやり取りを通して,必要な公理を獲得しながら証明を行う枠組みを提案しています. 特に提案手法について,自動で公理を獲得するのではなく人手を介することで誤った公理が混入するリスクを減らし,適合率を保ちながら再現率を向上している点で,定理証明器を活用するメリットを残しながら性能向上しています. また,実際のアプリケーションの観点からも,サブゴールに関するユーザーとシステム間のインタラクションは自然言語でのやりとりを行うというインターフェース面も考慮されています. 以上の点を評価し,スポンサー賞とさせていただきました. |
A7-3 | 単語埋め込みの決定的縮約 |
仲村祐希 (東北大), 鈴木潤, 高橋諒, 乾健太郎 (東北大/理研) | |
選考理由は下記の通りです. ・決定的アルゴリズムによる一貫性のある単語埋め込みベクトルの離散化を実現 ・高速かつ安定で,元のベクトル表現の性質も保持 ・アルゴリズムとしては単純だが非常に実践的かつ効果的 |
B6-4 | 指定語句を確実に含む見出し生成 |
山田康輔 (名大/朝日新聞社), 人見雄太, 田森秀明 (朝日新聞社), 岡崎直観 (東工大), 乾健太郎 (東北大/理研) | |
弊社においても広告文生成を行っているプロダクトがあり, 実務環境においても特定のキーワードを含んだ文生成が非常に課題になります. 今回の提案手法では, 既存の手法であるTransformerをうまく改良し, 指定の語句を中心に前後方向に文生成をするといった方法をとっており, まさにコロンブスの卵的発想でした. また, 特定のキーワードを確実に含めた上でRougeが先行研究と比べて遜色ない点も受賞の理由となります. |
C8-3 | 辺編集による文書レベルの関係グラフ構築 |
牧野晃平, 三輪誠, 佐々木裕 (豊田工大) | |
本論文は, 文書内の用語間の関係をグラフ構造として取り扱い, 他システムが出力したグラフに対して辺の編集という形で加工するモデルを提案し, その有効性を示した研究となります. ここで他システムというのはルールベース手法であり, 辺の編集を行うモデルによりルールベースのクラスごとの性能のばらつきを軽減しています. また, モデルが辺の編集を行う際の距離についての関係を確認しており, グラフとして取り組む有用性を示しています. 文書解析の需要が高まる中, 研究の発展や展開に期待を込めて, Sansan DSOC 賞にふさわしい論文と判断いたしました. |
A1-4 | 極座標を用いた階層構造埋め込み |
岩本蘭 (慶應大), 小比田涼介, 和地瞭良 (日本IBM) | |
【発表形式】の観点での評価 | |
C2-3 | 予測の正確な言語モデルがヒトらしいとは限らない |
栗林樹生 (東北大/Langsmith), 大関洋平 (東大/理研), 伊藤拓海 (東北大/Langsmith), 吉田遼 (東大), 浅原正幸 (国語研), 乾健太郎 (東北大/理研) | |
【新規性】【発表形式】の観点での評価 | |
D2-4 | 歌詞のサビ区間検出手法 |
渡邉研斗, 後藤真孝 (産総研) | |
【新規性】【発表形式】の観点での評価 | |
P2-14 | オンライン百科辞典を対象とする有効期限切れ情報データベースの作成 |
土屋雅稔, 横井康孝 (豊橋技科大) | |
【有用性】【発表形式】の観点での評価 | |
D4-3 | 項目採点技術に基づいた和文英訳答案の自動採点 |
菊地正弥, 尾中大介, 舟山弘晃, 松林優一郎, 乾健太郎 (東北大/理研) | |
【有用性】【発表形式】の観点での評価 | |
P4-16 | 知識グラフ埋め込み学習における損失関数の統一的解釈 |
上垣外英剛 (東工大), 林克彦 (群馬大) | |
【新規性】の観点での評価 | |
A5-4 | オープンドメイン質問応答における解答可能性判別の役割 |
鈴木正敏 (東北大/理研), 松田耕史, 大内啓樹 (理研/東北大), 鈴木潤, 乾健太郎 (東北大/理研) | |
【有用性】の観点での評価 | |
A6-3 | 単語埋め込みによる論理演算 |
内藤雅博 (京大), 横井祥 (東北大), 下平英寿 (京大) | |
【新規性】の観点での評価 | |
B6-4 | 指定語句を確実に含む見出し生成 |
山田康輔 (名大/朝日新聞社), 人見雄太, 田森秀明 (朝日新聞社), 岡崎直観 (東工大), 乾健太郎 (東北大/理研) | |
【有用性】の観点での評価 | |
D8-4 | 視覚と言語によるナビゲーション課題への言語に対応付けられた生成的な方策 |
栗田修平 (理研/JST), Kyunghyun Cho (NYU/CIFAR) | |
【新規性】【発表形式】の観点での評価 | |
E8-3 | 日本語Wikipediaの編集履歴に基づく入力誤りデータセットと訂正システムの改良 |
田中佑, 村脇有吾 (京大), 河原大輔 (早大), 黒橋禎夫 (京大) | |
【新規性】【有用性】の観点での評価 | |
P8-11 | 動的な環境における基盤化タスク設計の試み |
宇田川拓真 (東大), 相澤彰子 (NII) | |
【発表形式】の観点での評価 | |
P8-16 | 翻訳精度に基づく固有名詞の翻訳手法の研究 |
高井公一 (NAIST), 服部元, 米山暁夫 (KDDI 総合研究所),安田圭志, 須藤克仁, 中村哲 (NAIST) | |
【有用性】の観点での評価 | |
B9-1 | 対話システムの矛盾応答の生成に対する脆弱性の分析 |
佐藤志貴 (東北大), 赤間怜奈 (東北大/理研), 大内啓樹 (理研), 鈴木潤, 乾健太郎 (東北大/理研) | |
【有用性】【発表形式】の観点での評価 |
NLP2020におけるオンライン開催緊急対応に対する貢献 | |
白井清昭 (北陸先端大) | |
投稿論文用フォーマット/スタイルファイル作成に対する貢献 | |
朝倉卓人 (東大) |