言語処理の応用

10:00 -- 10:10 オープニング

10:10 -- 11:20 セッション1

司会: 永田亮(甲南大)

10:10 -- 10:40

社会学における職業・産業コーディング自動化システムの活用 -- 自然言語処理と機械学習を適用して --

高橋和子 (敬愛大学)，多喜弘文 (法政大学)，田辺俊介 (早稲田大学)，李偉 (東工大)

社会学では職業や産業は性別や年齢などと同様に重要な変数であるとの認識から，正確を期するために，自由回答で収集したデータを研究者自身がコードに変換することが多い．これは職業・産業コーディングとよばれるが，大規模調査の場合，膨大な労力と時間がかかる上に，結果における一貫性の問題も存在する．そこで，自然言語処理と機械学習(SVM)を適用したコーディング自動化システムを開発した．本システムは第3位までのコードを予測して提示し，第1位の予測コードには3段階の確信度も付与する．東大社会科学研究所からWebによる利用サービスの試行提供が開始されて以来，大規模調査だけでなく研究者グループや個人による利用も増えている．

10:40 -- 11:00

自動収集した学習データを用いた文書分類器に基づくFAQ検索システム

牧野拓哉，野呂智哉 (株式会社富士通研究所)

コールセンターを運営する企業ではコスト削減を目的として，想定質問をFAQとして蓄積していることがある．FAQの質問は，オペレータが意味的に似た問い合わせ履歴をまとめて代表的な表記で作成したものである．そのため，そのFAQで回答できるような問い合わせであっても語彙が一致せず，全文検索エンジンによるFAQ 検索システムでは，適切なFAQを上位にランキングできないことがある．本稿では，自然文を入力として受け付けるFAQ検索システムに文書分類器を利用することで，問い合わせと語彙が一致しなくても，適切なFAQをより上位にランキングする方法を提案する．文書分類器を学習するためには，過去の問い合わせがどのFAQで回答されたかという情報が必要であるが，本稿で扱うデータには明示的にどのFAQで回答されたという情報がない．そこで，本稿ではFAQで回答できる問い合わせの集合を自動で収集し，FAQごとに二値分類器を学習することで，問い合わせがそのFAQで回答できるかどうかを予測する．実験をおこない，FAQごとの二値分類器を用いることで，FAQと問い合わせの語彙が一致しないような場合でもFAQのランキング性能が向上することを示す．

11:00 -- 11:20

SFAデータ活用に向けた商談事例検索システムの検討

谷口元樹，出雲英剛，杉原大悟，満間淳，長谷川宏，大熊智子 (富士ゼロックス株式会社)

企業内の営業活動を記録するSales Force Automation(SFA)システムには大量の営業日報テキストが蓄積されており，営業活動の改善に活用したいというニーズが高まっている．本研究では営業担当者はお客様の課題に関する情報を求めており，類似した課題の商談を参考にすることでお客様に対してより適切な提案を可能にすることが出来ると言う仮説に基づいて過去の商談事例を検索するシステムを提案する．この仮説を検証するために，営業日報テキストからお客様の課題に関する情報を抽出する技術を開発し，営業担当者が課題の類似した商談事例を検索するシステムを構築した．さらに，構築したシステムを試験的に利用してもらい，システムの有用性を検証した．システムの利用者アンケートの結果から，営業担当者がお客様に興味喚起を行う際の情報を獲得するための手段として，本システムが有効であることが分かった．

11:20 -- 12:20 お昼休み

12:20 -- 13:30 セッション2

司会: 貞光九月(NTTメディアインテリジェンス研究所)

12:20 -- 12:50

やさしい日本語ニュースNEWSWEB EASYの制作支援システム

田中英輝，熊野正，後藤功雄 (NHK)，美野秀弥 (NICT)

NHKでは2012年4月より，ウエブサイトNEWSWEB EASYにてやさしい日本語のニュース5記事を毎日提供している．これらのニュースは日本語教師と記者が共同作業でWEBのニュースをやさしい日本語に書き換えて作成したものである．書き換え作業には，著者らが開発した，書き換え支援エディタ，翻訳メモリ，ふりがななどの読解支援情報付与システムの3つのシステムを利用している．本報告ではこれらのシステムの狙いと機能の詳細を説明する．また書き換え作業に携わっている日本語教師に対して行った聞き取り調査を元に，これらのシステムの有効性と課題を議論する．

12:50 -- 13:10

Bilingual KWIC -- 対訳表現抽出の可視化による翻訳支援

小川泰弘，外山勝彦 (名古屋大学)

計算機による対訳表現抽出を可視化することにより，対訳辞書構築や翻訳を支援するツール Bilingual KWIC について紹介する．本ツールは形態素解析などを使用せず，文字列情報だけから対訳を抽出するため，どのような言語対にも適用可能であり，また単語以外の表現に対しても対訳を表示することが可能である．対訳表現をKWIC形式で表示することにより，システムの抽出誤りの修正を容易にするだけでなく，派生表現の獲得や複数の対訳表現の比較も可能としている．

13:10 -- 13:30

SE作業工程における設計用語の入力支援

鄭育昌，長瀬友樹 (株式会社富士通研究所)，笈田佳彰，岡田伊策 (富士通株式会社)

本研究では，情報システムの開発における意思疎通の障害である設計用語の不統一を解消するため，SE作業工程の現状を調査し，各工程の用語に関する課題調査，及び，問題解決の技術用件について整理・考察した．前記の考察結果に基づき，設計用語の不統一が起きやすい設計書の作成工程にリアルタイムかつインタラクティブに設計用語の誤入力を指摘できるツールを開発した．このツールを，現場で頻出するプロジェクトの設計用語(機能名，項目名)の表記不統一の例に適用して評価した結果，指摘正解率86%を達成した．

13:30 -- 13:50 休憩

13:50 -- 15:30 セッション3

司会 : 大熊智子(富士ゼロックス株式会社)

13:50 -- 14:20

リアルタイムな質問に回答するための日替わり語の獲得

貞光九月，東中竜一郎，松尾義博 (NTTメディアインテリジェンス研究所)

近年音声対話エージェントの実用化が進んでおり，短いユーザ音声発話の中から，ユーザの意図を的確に把握することが課題となっている．本研究では，「巨人の先発は誰？」のように，リアルタイムな情報を問うている可能性の高い発話を自動的に判別し，その判別結果に応じて適切な回答を行う質問応答システムを提案する．さらに，リアルタイムな質問判別のために有効な日替わり語という語のクラス，及びその自動獲得方法を提案する．実験において，自動獲得した日替わり語を用いた質問文のリアルタイム性判別実験を行い，有意に精度が改善したことを示す．

14:20 -- 14:40

Gunosyにおける言語処理応用

関喜史 (株式会社Gunosy，東京大学)

グノシーは株式会社Gunosyが提供するスマートフォンアプリを中心に展開する情報サービスである．当サービスは複数のウェブメディアから提供されたコンテンツを取捨選択しアプリの利用者に提供しており，キュレーションメディアとも呼ばれる．Gunosyではコンテンツの取捨選択を編集者の意思決定ではなく，自動的にもしくは半自動的に行っている．ウェブにおけるコンテンツは大半がテキスト情報であり，取捨選択の自動化のために言語処理技術が用いられている．本発表ではGunosyにおいてどのように言語処理技術が用いられているかについて述べ，サービスを運営するなかでどのように改善が進められているか，現在どのような課題に取り組んでいるか等についても紹介する．

14:40 -- 14:50 中断(黙祷)

14:50 -- 15:10

インスタントメッセージ会話文翻訳における主語補完による翻訳品質の改良

片江伸之，鄭育昌，長瀬友樹 (富士通研究所)，出内将夫，岡田伊策(富士通)

弊社では，LyncIM(インスタントメッセンジャー)において，機械翻訳により外国語話者とのコミュニケーションを支援する「LyncIM翻訳」機能を提供している．しかし，翻訳品質が不十分な場合には，伝達内容の齟齬が生じ，不要な会話が増加して効率が損なわれる恐れがある．特に，日本語の会話やインスタントメッセージでは主語や目的語が省略されることが多く，不明確または不自然な訳文になる場合が多い．本研究はこの問題に鑑み，主語が省略された日本語文に対して主語を補完する前処理を行うことで，翻訳品質を向上させる試みである．簡易なルールを用いて主語推定および主語補完を行う方式を開発し，社内ＳＮＳのインスタントメッセージの7.6%にあたる文で翻訳品質の改善を確認した．さらに，開発方式を搭載した，LyncIM翻訳から利用できる日本語チェックサーバのプロトタイプを開発した．

15:10 -- 15:30

テキストマイニングシンポジウムでの発表内容と言語処理技術

竹内孔一 (岡山大)，金山博 (日本IBM)，市瀬眞 (NTTドコモ)，榊剛史 (ホットリンク)，

渡辺靖彦 (龍谷大)，東中竜一郎 (NTT)，嶋田和孝 (九工大)

言語理解とコミュニケーション研究会では2011年からテキストマイニングシンポジウムを開催し現在8回開催されている．そこで行われた研究発表からどのようなテーマが議論され，どのような手法が提案され，どのような問題が残り，言語処理がどのように役立つかを論じたい．全てを紹介しきれないが，コールセンター，事故事例，医療，旅行情報，金融情報，経営情報といったテキストが対象となり，こうした広範な分野に対して，それぞれに特徴の異なる手法が提案されて状況を報告する．これにより言語処理の実応用研究の可能性について議論する．

NLP2016WorkShop

ご注意お願いします!

更新情報

趣旨

開催概要

開催日

会場

参加費

スケジュール

発表申込期限

予稿提出期限

ワークショップ開催日

プログラム

10:00 -- 10:10 オープニング

10:10 -- 11:20 セッション1

高橋和子 (敬愛大学)，多喜弘文 (法政大学)，田辺俊介 (早稲田大学)，李偉 (東工大)

牧野拓哉，野呂智哉 (株式会社富士通研究所)

谷口元樹，出雲英剛，杉原大悟，満間 淳，長谷川宏，大熊智子 (富士ゼロックス株式会社)

11:20 -- 12:20 お昼休み

12:20 -- 13:30 セッション2

田中英輝，熊野 正，後藤功雄 (NHK)，美野秀弥 (NICT)

小川泰弘，外山勝彦 (名古屋大学)

鄭育昌，長瀬友樹 (株式会社富士通研究所)，笈田佳彰，岡田伊策 (富士通株式会社)

13:30 -- 13:50 休憩

13:50 -- 15:30 セッション3

貞光九月，東中竜一郎，松尾義博 (NTTメディアインテリジェンス研究所)

関 喜史 (株式会社Gunosy，東京大学)

14:40 -- 14:50 中断(黙祷)

片江伸之，鄭育昌，長瀬友樹 (富士通研究所)，出内将夫，岡田伊策(富士通)

竹内孔一 (岡山大)，金山 博 (日本IBM)，市瀬 眞 (NTTドコモ)，榊 剛史 (ホットリンク)，

渡辺靖彦 (龍谷大)，東中竜一郎 (NTT)， 嶋田和孝 (九工大)

15:30 -- 15:40 クロージング

発表に関して

発表形式

予稿について

著作権について

発表申込方法

予稿提出方法

論文形式

著作権の帰属

オーガナイザ

佐藤理史（名古屋大学）

大熊智子（富士ゼロックス）

貞光九月（NTTメディアインテリジェンス研究所）

永田亮（甲南大学）

奥村学（東京工業大学）

コンタクト

谷口元樹，出雲英剛，杉原大悟，満間淳，長谷川宏，大熊智子 (富士ゼロックス株式会社)

田中英輝，熊野正，後藤功雄 (NHK)，美野秀弥 (NICT)

関喜史 (株式会社Gunosy，東京大学)

竹内孔一 (岡山大)，金山博 (日本IBM)，市瀬眞 (NTTドコモ)，榊剛史 (ホットリンク)，

渡辺靖彦 (龍谷大)，東中竜一郎 (NTT)，嶋田和孝 (九工大)