「論文に書かない(書けない)自然言語処理」プログラム
- 10:00-10:10 オープニング (西川仁 (東工大))
- 10:10-11:00 ビジネスのための自然言語処理 (座長: 高村大也 (東工大))
- 10:10-10:30 グノシーにおける不適切なコンテンツフィルタリングに対する取り組み (久保光証 (Gunosy))
- ニュースアプリ、グノシーでは日々さまざまニュース記事を配信している。配信候補となる記事の中には配信するには不適切なコンテンツが含まれる場合もあるが、それらすべてを人手でチェックするのは非常にコストがかかるため、そのような記事を機械でフィルタリングする技術は大変重要である。今回は我々がサービス開始時から現在に至るまで、どのようにしてそのような不適切なコンテンツのフィルタリングに取り組んできたかを発表する。また、これからより剛健なコンテンツフィルタリング技術を作るためにどのような課題意識を持っているのかを共有することで、今後のコンテンツフィルタリングについて参加者のみなさまと良いディスカッションが行えれば幸いである。
- 10:30-10:50 ソーシャルメディア分析サービスにおけるNLPに関する諸問題について (榊剛史, 水木栄 (ホットリンク))
- 発表者の所属する企業では、民間企業の広報・マーケティング担当者向けにソーシャルメディア分析サービスを提供している。このような非専門家を想定ユーザとするNLP応用サービスを実用化する場合には、論文に記述されるような汎用的手法と併せて、対処療法的に蓄積された知見や工夫・仮定を用いる必要が往々にして存在する。本発表では、このような実社会向けのNLP応用において発生する諸問題と、それらの(少なくとも部分的な)解決策を紹介する。具体的には、複合語化や適切な分かち書きなどの単語分かち書きに関する問題、ひらがな・カタカナの多用や顔文字などの崩れた文体に関する問題を取り上げる予定である。これらの問題の多くは、既存の自然言語処理手法やツールでは解決困難であるため、各組織で独立に試行錯誤の対象になっているものと想定される。問題・解決策の共有および、それに対する議論・意見交換を行うことにより、研究課題としての認知度向上および、研究遂行または産業応用における障壁の軽減を目指したい。
- 10:50-11:00 ディスカッション
- 11:00-11:10 休憩
- 11:10-12:00 縁の下の自然言語処理 (座長: 西川仁(東工大))
- 11:10-11:30 論文に書けなかった特許翻訳データの前処理 (須藤克仁 (NTT))
- NTCIR PatentMTを契機として,特許機械翻訳は機械翻訳の評価タスクとして広く利用されるようになった.特許は整ったスタイルで記述された公的文書であり,対訳文の直訳度も高いため,機械翻訳にとっては与しやすい対象であると言われている.しかし,実際に扱ってみると,特殊文字のエスケープ,誤字脱字,そして非常に長い文の存在といった厄介な問題が気になり始め,延々と前処理に追われることになりがちである.本発表では,我々がNTCIR-9/10およびその後の研究において直面した問題と,論文に書ききれなかった様々な(場当たり的)対処について紹介する.今後同じような苦労をする研究者が生まれないよう,様々な知見を持ち寄って前処理の問題を低減し,より本質的な課題解決に集中できるようにするための契機としたい.
- 11:30-11:50 辞書および辞書作成ツール (高橋哲朗 (富士通研))
- これまで,企業において言語処理を活用したシステムを開発し顧客に提供するにあたり,個別のシステム毎に特有の辞書の作成が不可欠であった.またそれらのシステムを顧客に訴求する際も,辞書は差別化要素として重要な役割りを担ってきた.辞書が差別化になるからこそ,その作成方法や更新の方法は論文として公開できるものではなく,またそこで用いている技術的な手法も,既存手法の細かい組み合わせであるため,その点も論文となりにくい理由となっていた.しかし,論文になりにくいとは言え,言語処理を様々な分野に適用する際に辞書は重要な要素であるため,そこにまつわる技術開発の知見を共有することには多いにメリットがあると考えられる.本ワークショップでは,そのような問題意識の元,辞書の作成および活用方法について意見を交換したい.
- 11:50-12:00 ディスカッション
- 12:00-13:00 休憩
- 13:00-14:15 大学での自然言語処理 (座長: 岩倉友哉 (富士通研))
- 13:00-13:20 あなたの知らない地方国立大学 (二宮崇 (愛媛大))
- 地方には中央ではあまり想像されることのない様々な研究上の困難が在る。東京や京都には自然言語処理の研究室や研究所が数多く集中して存在するが、多くの地方都市には自然言語処理の研究室が一つある程度であり、非常に少なくアイソレートしている。そのため、例えば、東京や京都では講演会や勉強会を通して最先端の情報を入手することが比較的容易であるが、地方ではそのような情報の入手が難しいという問題や、他の自然言語処理研究室との共同研究を行うことが難しいという問題が生じている。このようなアイソレーションの問題は地方における問題の一例に過ぎない。本講演では地方国立大学である愛媛大学の教育環境と研究環境における様々な問題点について触れ、それらの対策のための工夫、解決には至っていないが解決の糸口となるかもしれない将来の展望について述べる。特に、最先端の研究情報の入手、プログラミング、計算機環境、英語、国際化に焦点をあてて説明する。
- 13:20-13:40 研究室における研究・実装ノウハウの共有 (岡崎直観 (東北大))
- 価値のある研究を生み出すには、情報収集力、洞察力、発想力、計画性、行動力、実装・分析力、プレゼン力など、様々なスキルが必要である。これらのスキルは座学で身に付くものではなく、各自で試行錯誤を繰り返し、そのノウハウを研究室で共有することで養われていく。本発表では、研究プロセスを実践しながらプログラミングやデータ分析の基礎を学ぶ言語処理100本ノックについて、その開発の背景や利用方法を紹介する。また、研究室内で研究のアイディアや成果、実装上のノウハウを共有するための工夫として、bitbucketの活用や研究Tips発表などの事例を紹介する。
- 13:40-14:00 企業とのコラボレーションにおける工夫 (永田亮 (甲南大))
- 本発表では,企業との共同研究・受託研究における工夫を,これまでに発表者が経験した事例を通じて紹介したいと思います。具体的には,共同研究を引き受ける際の工夫,企業と研究者の相互理解のための工夫,両者にメリットをもたらす工夫などについてお話しする予定です。なお,発表の内容は,あくまでも一事例であり,どのようなケースでも適用できる工夫ではありませんが,参加者の皆様との活発なディスカッションにより新たな工夫や知見が得られたらと思います。
- 14:00-14:15 ディスカッション
- 14:15-14:25 休憩
- 14:25-15:15 持続可能な自然言語処理 (座長: 西川仁 (東工大))
- 14:25-14:45 研究者のワーク・ライフ・バランス―子どもと生活を大事にしながら、仕事に磨きをかける― (徳久良子 (豊田中研))
- 修士課程を修了後、(株)豊田中央研究所に入所し、今年で15年になります。小学校1年生と1歳の2児の母です。一人目の育児休暇中には博士(工学)を取得し、今も対話研究を中心に自然言語処理に携わっています。自然言語処理分野は、以前と比べてずいぶん女性研究者が増えた印象があります。また、女性に限らず、いわゆる「育メン」の男性研究者がとても増えました。そのご活躍ぶり(家庭と研究の両面でのご活躍!)には女性の私も舌を巻くほどです。本発表では、現在修士や博士の学生さんで今後の進路に悩んでいる方、まさに今育児に奮闘しながら研究に従事している方、育児でなくとも趣味の時間を大事にしながら研究をされている方に向けて、私と家族の経験をお話しします。ワーク・ライフ・バランスに関して議論できるきっかけになればと思います。
- 14:45-14:50 休憩 (黙祷)
- 14:50-15:10 論文を書かない自然言語処理 (小町守 (首都大))
- 自然言語処理研究では第一の成果物は論文であるとされています。確かに、最先端の研究成果は国際会議で発表され、一定の期間を経て論文誌や書籍という形でまとめられることにより、研究者コミュニティ内部の共有知となっていく、というサイクルがあります。しかし、自然言語処理の研究の発展には、頂点が高いだけではなく、広い裾野が不可欠です。最先端の研究成果が生み出される一方で、その研究成果を活用する土壌も必要ですし、特定の個人の超人的な能力と努力に研究コミュニティの牽引という重責を担わせるのは、コミュニティの頑健性・持続可能性という観点からも、望ましくありません。そこで、本発表では論文を書かない自然言語処理研究のあり方について問題提起し、「チーム NLP」として自然言語処理研究を発展させる方法について、議論したいと思います。多様化する研究者やエンジニアのキャリアに対し、ワーク・ライフ・バランスを考慮した持続可能な自然言語処理研究のあり方について検討します。
- 15:10-15:20 ディスカッション
- 15:20-15:30 休憩
- 15:30-16:20 企業での自然言語処理 (座長: 徳永健伸 (東工大))
- 15:30-15:50 ヤフーにおけるコンテンツ配信システムとその課題 (塚本浩司 (ヤフー))
- ヤフーのサイトには月間数百億のアクセスがある。このアクセスの一つ一つに対し、大量のコンテンツの中からその瞬間にそのユーザーに最も合ったものを選択し、配信する必要がある。こういった配信を実現するために、ユーザーの行動情報およびコンテンツ情報に対する自然言語処理、大量のクリックログを利用した機械学習によるモデル構築、学習したモデルに基づき、かつ100msec程度以内のレスポンスを実現する検索エンジンを核にしたシステムの構築、数千台の配信サーバーの並列化など、様々な処理が必要となる。本発表では、オンライン広告やレコメンデーションでの事例を用い、このような配信システムや、これを実現するための技術的・プロジェクト的な課題について紹介する。
- 15:50-16:10 世界一の日本語の自然言語処理とは? (永田昌明 (NTT))
- 以下は某社の研究所において、ありがちな会話である。
「英語のベンチマークで精度がいいのは良いとして、日本語はどうなの?」
「日本語はデータがないんで...」or「日本語でやってもACLには通らないんで...」
「○○○は日本でビジネスしてる会社なんだけど」
「...」
京大コーパスを使った実験に対して、同じアルゴリズムを英語か中国語のPenn Treebankで試せというコメントをもらって途方にくれるという状況は、何かが間違っている。
基礎研究と実用化研究の乖離は古くから議論されている課題であるが、本発表では、企業における基礎研究のテーマ設定に関連して、日本の自然言語処理と北米を中心とする世界の自然言語処理の乖離について課題を提起したい。
- 16:10-16:20 ディスカッション
- 16:20-16:25 クロージング (西川仁 (東工大))