開催日時: | 2012年3月13日(火) 13:00〜17:30 |
---|
乾健太郎 氏(東北大学)
言語の意味談話レベルの処理にとって最大の障害の一つは「知識のボトルネック」にあった. しかし,大規模コーパスからの多様な知識獲得が実世界スケールでまわり,獲得された知識が研究者間で共有されるようになった今日,そうした大規模言語資源を使ってこれまでより一段深い言語処理にチェレンジする研究が広がりつつある. 本講演では,どうすれば多様な大規模知識を使いこなし言語処理の深化に繋げることができるかという,まだほとんどオープンな問いをテーマの中心にすえ,分布から論理まで多様化する意味/知識表現,知識獲得と意味処理の融合など,近年の研究動向を概観する.
渡辺太郎 氏(NICT)
近年,機械翻訳は統計的手法を取り入れ,機械学習や構文解析などの基礎的な分野の成果を直接導入することにより,飛躍的に性能が向上した. 本チュートリアルでは,この統計的機械翻訳の最新のトピックを中心に解説する.まず基礎的な単語や句に基づく統計的機械翻訳の復習し,木構造に基づく機械翻訳を説明. また教師有/無の学習法の活用について解説する.
鹿島久嗣 氏(東京大学)
機械学習は,データの中に隠された知見を発見し,そして将来に何が起こるのかを予測するためのデータ分析技術であり,自然言語処理をはじめとする数多くの分野において成功を収めてきた. 従来,機械学習による分析の興味の対象は,個々のデータそれぞれのもつ性質であったが,近年その興味は,ソーシャルネットワークにおけるユーザー同士の関係や,オンラインショッピングサイトにおける顧客と商品の関係に代表されるデータ間の関係,すなわちネットワーク構造へと移行しつつある. そこで本チュートリアルでは,近年目覚ましい発展を遂げているネットワーク構造を対象とした分析手法の研究動向について概観する.
山崎誠 氏(国立国語研究所)
2011年に完成した「現代日本語書き言葉均衡コーパス」(略称,BCCWJ)は,日本で初めての本格的な大規模均衡コーパスである. 本発表ではBCCWJがどのように構築されたかを具体的に紹介するとともに,BCCWJの特徴を踏まえて日本語研究が今後どのように進展していくか,その展望を述べる. BCCWJの特徴としてアノテーションの充実が挙げられる.例えば,2種類の言語単位による形態素解析が施されている.用例収集や基本語彙の分析に適した短単位と,特徴語を反映し構文的な機能の分析に適した長単位の2つである. また,文書構造を表すタグも施されており,見出しや本文,引用,注記などの要素を指定した処理が可能になっている. さらに,書誌情報としてそれぞれのサブコーパスに応じたカテゴリの情報(書籍で言えば日本十進分類法の情報)や著者の属性(性別,生年代)なども付与されている. なお,BCCWJは解析精度が全体で約98%であり,エラーも含まれている.そのような利用に当たっての注意点やデータの限界についても言及する. 人文系の日本語研究でもコーパスの利用は普及しつつあり,今後は研究手法の洗練化,ツール類の充実が望まれる.言語処理の研究者とのコラボレーションが真に必要な段階になってきたと言えよう.