お願い: このリストに掲載すべき言語資源やツールを御存知の方は nlp_portal あっと anlp.jp まで御連絡下さい。
Usage Case フィールドについて:
言語資源の利用事例として、その言語資源を用いた研究発表論文の情報を掲載しています。現在、発表論文は以下の論文集から抽出しています。
・言語処理学会年次大会 発表論文集 (2005〜2012)
・情報処理学会全国大会 講演論文集 (2007〜2010)
・人工知能学会全国大会 論文集 (2005〜2008)
・電子情報通信学会総合大会 講演論文集 (2005〜2009)
なお、このフィールドの情報は自動抽出した結果であり、内容には誤りが含まれる可能性があることをご了承下さい。
誤りにお気づきの方はお手数ですが nlp_portal あっと anlp.jp までご連絡下さい。
新聞記事
注釈付きコーパス
平文コーパス
シソーラス
辞書
テキスト(その他)
音声
形態素解析器
パーザ
ツール(その他)
- 毎日新聞CD-ROM
- Type
- Text
- Type.linguistics
- annotation/corpus
- Description
- 1991年から2001年の毎日新聞の記事を収録したCD-ROM。
- Annotation.document
- keyword
- Creator
- 毎日新聞社
- Contact person
- 日外アソシエーツ (data-saleあっとnichigai.co.jp)
- Price
- 126,000円 (1年当たり)
- Subject.language
- 日本語
- Date
- 1991-2001
- Format
- 1 or 2 CD-ROM per year.
- Format.encoding
- Shift_JIS
- Relation
- HasPart 毎日新聞CD-ROM (1991年)
HasPart 毎日新聞CD-ROM (1992年)
HasPart 毎日新聞CD-ROM (1993年)
HasPart 毎日新聞CD-ROM (1994年)
HasPart 毎日新聞CD-ROM (1995年)
- URI
- http://www.nichigai.co.jp/sales/mainichi/mainichi-data.html
- Usage Case
- (別ウィンドウに表示)
- 毎日新聞CD-ROM (1991年)
- Type
- Text
- Type.linguistics
- annotation/corpus
- Description
- 1991年の毎日新聞の記事を収録したCD-ROM。約10,000記事。
- Annotation.document
- keyword
- Creator
- 毎日新聞社
- Contact person
- 日外アソシエーツ (data-saleあっとnichigai.co.jp)
- Price
- 126,000円
- Subject.language
- 日本語
- Date
- 1991
- Format
- 1 CD-ROM.
- Format.encoding
- Shift_JIS
- Relation
- IsPartOf 毎日新聞CD-ROM
- URI
- http://www.nichigai.co.jp/sales/mainichi/mainichi-data.html
- 毎日新聞CD-ROM (1992年)
- Type
- Text
- Type.linguistics
- annotation/corpus
- Description
- 1992年の毎日新聞の記事を収録したCD-ROM。約10,000記事。
- Annotation.document
- keyword
- Creator
- 毎日新聞社
- Contact person
- 日外アソシエーツ (data-saleあっとnichigai.co.jp)
- Price
- 126,000円
- Subject.language
- 日本語
- Date
- 1992
- Format
- 1 CD-ROM.
- Format.encoding
- Shift_JIS
- Relation
- IsPartOf 毎日新聞CD-ROM
- URI
- http://www.nichigai.co.jp/sales/mainichi/mainichi-data.html
- 毎日新聞CD-ROM (1993年)
- Type
- Text
- Type.linguistics
- annotation/corpus
- Description
- 1993年の毎日新聞の記事を収録したCD-ROM。約10,000記事。
- Annotation.document
- keyword
- Creator
- 毎日新聞社
- Contact person
- 日外アソシエーツ (data-saleあっとnichigai.co.jp)
- Price
- 126,000円
- Subject.language
- 日本語
- Date
- 1993
- Format
- 1 CD-ROM.
- Format.encoding
- Shift_JIS
- Relation
- IsPartOf 毎日新聞CD-ROM
- URI
- http://www.nichigai.co.jp/sales/mainichi/mainichi-data.html
- 毎日新聞CD-ROM (1994年)
- Type
- Text
- Type.linguistics
- annotation/corpus
- Description
- 1994年の毎日新聞の記事を収録したCD-ROM。約10,000記事。
- Annotation.document
- keyword
- Creator
- 毎日新聞社
- Contact person
- 日外アソシエーツ (data-saleあっとnichigai.co.jp)
- Price
- 126,000円
- Subject.language
- 日本語
- Date
- 1994
- Format
- 1 CD-ROM.
- Format.encoding
- Shift_JIS
- Relation
- IsPartOf 毎日新聞CD-ROM
- URI
- http://www.nichigai.co.jp/sales/mainichi/mainichi-data.html
- 毎日新聞CD-ROM (1995年)
- Type
- Text
- Type.linguistics
- annotation/corpus
- Description
- 1995年の毎日新聞の記事を収録したCD-ROM。約10,000記事。
- Annotation.document
- keyword
- Creator
- 毎日新聞社
- Contact person
- 日外アソシエーツ (data-saleあっとnichigai.co.jp)
- Price
- 126,000円
- Subject.language
- 日本語
- Date
- 1995
- Format
- 1 CD-ROM.
- Format.encoding
- Shift_JIS
- Relation
- IsPartOf 毎日新聞CD-ROM
- URI
- http://www.nichigai.co.jp/sales/mainichi/mainichi-data.html
- 日経新聞CD-ROM
- Type
- Text
- Type.linguistics
- annotation/corpus
- Description
- 1990年から2000年の日経新聞の記事を収録したCD-ROM。購入に関する情報は以下のURLを参照。 http://www.nikkeish.co.jp/gengo/zenbun.htm.
- Annotation.document
- keyword
- Creator
- 日本経済新聞社
- Contact person
- 日経出版販売 (eizoあっとnikkeish.co.jp)
- Price
- 136,500円 (1年当たり)
- Subject.language
- 日本語
- Date
- 1990-2000
- Format
- 1 CD-ROM per year.
- URI
- http://www.nikkeish.co.jp/shop/top.aspx
- Usage Case
- (別ウィンドウに表示)
- 日経産業・金融・流通新聞CD-ROM
- Type
- Text
- Type.linguistics
- annotation/corpus
- Description
- 1994年から2000年の日経産業・金融・流通新聞の記事を収録したCD-ROM。購入に関する情報は以下のURLを参照。 http://www.nikkeish.co.jp/gengo/zenbun.htm.
- Annotation.document
- keyword
- Creator
- 日本経済新聞社
- Contact person
- 日経出版販売 (eizoあっとnikkeish.co.jp)
- Price
- 136,500円 (1年当たり)
- Subject.language
- 日本語
- Date
- 1994-2000
- Format
- 1 CD-ROM per year.
- URI
- http://www.nikkeish.co.jp/shop/top.aspx
- 読売新聞CD-ROM (邦文記事)
- Type
- Text
- Type.linguistics
- annotation/corpus
- Description
- 1987年から2001年の読売新聞の邦文記事を収録したCD-ROM。記事の量は、1987年から1997年までが1年あたり110,000記事、1998年から2000年までが230,000記事、2001年が340,000記事である。購入に関する情報は以下のURLを参照。 http://www.ndk.co.jp/yomiuri/.
- Annotation.document
- keyword
- Creator
- 読売新聞社
- Contact person
- 日本データベース開発 (yomiuriあっとndk.co.jp)
- Price
- 120,000-270,000円 (1年当たり, アカデミック), 190,000-490,000円 (1年当たり, 一般)
- Subject.language
- 日本語
- Date
- 1987-2005
- Format
- 1 or 2 CD-ROM per year.
- Format.encoding
- Shift_JIS
- URI
- http://www.ndk.co.jp/yomiuri/
- Usage Case
- (別ウィンドウに表示)
- 読売新聞CD-ROM (英文記事)
- Type
- Text
- Type.linguistics
- annotation/corpus
- Description
- 1989年から2001年の読売新聞の英文記事を収録したCD-ROM。記事の量は1年あたり約9,000記事。購入に関する情報は以下のURLを参照。 http://www.ndk.co.jp/yomiuri/.
- Creator
- 読売新聞社
- Contact person
- 日本データベース開発 (yomiuriあっとndk.co.jp)
- Price
- 110,000-170,000円 (1年当たり, アカデミック), 170,000-270,000円 (1年当たり, 一般)
- Subject.language
- 英語
- Date
- 1989-2005
- Format
- 1 CD-ROM per year.
- URI
- http://www.ndk.co.jp/yomiuri/
- 朝日新聞CD-ROM
- Type
- Text
- Type.linguistics
- annotation/corpus
- Description
- 1985年から1997年までの朝日新聞の記事を収録したCD-ROM。記事の量は1年あたり約100,000記事。
- Creator
- 朝日新聞社
- Contact person
- 日外アソシエーツ (data-saleあっとnichigai.co.jp)
- Price
- 126,000-189,000円 (1年当たり)
- Subject.language
- 日本語
- Date
- 1984-2005
- Format
- 1 CD-ROM per year.
- Usage Case
- (別ウィンドウに表示)
- RWCテキストデータベース
- Type
- Collection
- Description
- RWCPによって作成されたテキストデータベースのセット。
現在、配布は一時停止されている。GSKにて配布を再開する予定。
- Creator
- Real World Computing Partnership
- Subject.language
- 日本語
- Language
- 日本語
- Date
- 1998
- Format
- 381 MB.
- Format.encoding
- EUC-JP
- Relation
- HasPart RWC-DB-TEXT-94-1
HasPart RWC-DB-TEXT-94-2
HasPart RWC-DB-TEXT-95-3
HasPart RWC-DB-TEXT-96-2
HasPart RWC-DB-TEXT-97-1
HasPart CRL-DB-TEXT-97-1
- Usage Case
- (別ウィンドウに表示)
- RWC-DB-TEXT-94-1
- Type
- Text
- Type.linguistics
- annotation/corpus
- Description
- 通産省の1993年から1995年の白書を形態素解析したコーパス。人手修正済。
現在、配布は一時停止されている。
- Annotation.corpus
- word segmentation, part-of-speech
- Creator
- Real World Computing Partnership
- Subject.language
- 日本語
- Language
- 日本語
- Date
- 1994
- Format
- 8.1 MB.
- Format.encoding
- EUC-JP
- Relation
- IsPartOf RWCテキストデータベース
- RWC-DB-TEXT-94-2
- Type
- Text
- Type.linguistics
- annotation/corpus
- Description
- 日本電子工業振興協会の「自然言語処理の動向に関する調査報告書」を形態素解析したコーパス。人手修正済。
現在、配布は一時停止されている。
- Annotation.corpus
- word segmentation, part-of-speech
- Creator
- Real World Computing Partnership
- Subject.language
- 日本語
- Language
- 日本語
- Date
- 1994
- Format
- 2.1 MB.
- Format.encoding
- EUC-JP
- Relation
- IsPartOf RWCテキストデータベース
- RWC-DB-TEXT-95-3
- Type
- Text
- Type.linguistics
- annotation/text categorization
- Description
- 毎日新聞の1994年の30000記事に対してUDCコードを付与したデータ。
現在、配布は一時停止されている。
- Annotation.document
- text category
- Creator
- Real World Computing Partnership
- Subject.language
- 日本語
- Date
- 1995
- Format
- 1 MB.
- Relation
- IsPartOf RWCテキストデータベース
Requires 毎日新聞CD-ROM (1994年)
- RWC-DB-TEXT-96-2
- Type
- Text
- Type.linguistics
- annotation/corpus
- Description
- 岩波国語辞典(第5版, タグ付き)を形態素解析したデータ。人手修正済。
現在、配布は一時停止されている。GSKにて配布を再開する予定。
- Annotation.corpus
- word segmentation, part-of-speech
- Creator
- Real World Computing Partnership
- Subject.language
- 日本語
- Language
- 日本語
- Date
- 1996
- Format
- 40.6 MB.
- Format.encoding
- EUC-JP
- Relation
- IsPartOf RWCテキストデータベース
- RWC-DB-TEXT-97-1
- Type
- Text
- Type.linguistics
- annotation/corpus
- Description
- 毎日新聞の1991年から1995年の全記事を自動的に形態素解析したコーパスの差分データ。
現在、配布は一時停止されている。
- Annotation.corpus
- word segmentation, part-of-speech
- Creator
- Real World Computing Partnership
- Subject.language
- 日本語
- Date
- 1997
- Rights
- research purpose
- Format
- 280.5 MB.
- Relation
- IsPartOf RWCテキストデータベース
Requires 毎日新聞CD-ROM (1991年)
Requires 毎日新聞CD-ROM (1992年)
Requires 毎日新聞CD-ROM (1993年)
Requires 毎日新聞CD-ROM (1994年)
Requires 毎日新聞CD-ROM (1995年)
- CRL-DB-TEXT-97-1
- Type
- Text
- Type.linguistics
- annotation/corpus
- Description
- RWC-DB-TEXT-95-2のテキストを単文に分割し、係り受け関係を解析したデータ。人手修正済。
- Annotation.corpus
- syntax
- Creator
- 通信総合研究所
- Subject.language
- 日本語
- Language
- 日本語
- Date
- 1997
- Source
- jp:rwc95-2
- Format
- 40 MB.
- Format.encoding
- EUC-JP
- Relation
- IsPartOf RWCテキストデータベース
- URI
- http://www.rwcp.or.jp/wswg/rwcdb/text/
- EDR日本語コーパス
- Type
- Text
- Type.linguistics
- annotation/corpus
- Description
- 約200,000の日本語文に対して、形態素情報、構文情報、意味情報を付加したコーパス。2010年に改訂版Ver.4.0がリリースされた。
- Annotation.corpus
- word segmentation, part-of-speech, syntax, word sense
- Creator
- 日本電子化辞書研究所
- Contact person
- 情報通信研究機構 (edr_infoあっとjsa.co.jp)
- Price
- 50,000円 (アカデミック), 1,200,000円 (一般研究利用), 2,400,000円(商用)
- Subject.language
- 日本語
- Language
- 日本語
- Format
- 355 MB. 200,000 sentences.
- Format.encoding
- EUC-JP
- Relation
- IsPartOf EDR日本語共起辞書
- URI
- http://www2.nict.go.jp/out-promotion/techtransfer/EDR/J_index.html
- Usage Case
- (別ウィンドウに表示)
- EDR英語コーパス
- Type
- Text
- Type.linguistics
- annotation/corpus
- Description
- 約120,000の英語文に対して、形態素情報、構文情報、意味情報を付加したコーパス。2010年に改訂版Ver.4.0がリリースされた。
- Annotation.corpus
- word segmentation, part-of-speech, syntax, word sense
- Creator
- 日本電子化辞書研究所
- Contact person
- 情報通信研究機構 (edr_infoあっとjsa.co.jp)
- Price
- 50,000円 (アカデミック), 1,200,000円 (一般研究利用), 2,400,000円(商用)
- Subject.language
- 英語
- Language
- 英語, 日本語
- Format
- 218 MB. 120,000 sentences.
- Format.encoding
- EUC-JP
- Relation
- IsPartOf EDR英語コーパス
- URI
- http://www2.nict.go.jp/out-promotion/techtransfer/EDR/J_index.html
- Usage Case
- (別ウィンドウに表示)
- 京都テキストコーパス
- Type
- Text
- Type.linguistics
- annotation/corpus
- Description
- 毎日新聞の1995年の記事の40,000文に対して、形態素情報と構文情報を付与したコーパス。うち5000文については格関係, 照応・省略関係, 共参照の情報も付与されている。人手修正済。毎日新聞の1995年のCD-ROMを別途購入する必要がある。
- Annotation.corpus
- word segmentation, part-of-speech, syntax, case, anaphora, coreference
- Creator
- 京都大学 黒橋・河原研究室
- Contact person
- 京都大学 黒橋・河原研究室 (nl-resourceあっとnlp.ist.i.kyoto-u.ac.jp)
- Price
- フリー
- Subject.language
- 日本語
- Language
- 日本語
- Format
- 6 MB.
- Format.encoding
- EUC-JP
- Relation
- Requires 毎日新聞CD-ROM (1995年)
- URI
- http://nlp.ist.i.kyoto-u.ac.jp/index.php?%E4%BA%AC%E9%83%BD%E5%A4%A7%E5%AD%A6%E3%83%86%E3%82%AD%E3%82%B9%E3%83%88%E3%82%B3%E3%83%BC%E3%83%91%E3%82%B9
- Usage Case
- (別ウィンドウに表示)
- JEITAマルチモーダル対話コーパス
- Type
- Text
- Type.linguistics
- transcription/
- Description
- 人間対人間のタスク対話を収録したコーパス。「顔課題」と「旅行課題」の2つのタスクについて9対話80分の動画データが収録されている。対話データの音声転記も配布される。また、音声転記には対話構造、統語構造、共参照、韻律、表情に関するタグが付与されている。GSKを通じて入手可能。
- Annotation.corpus
- word segmentation, part-of-speech, syntax, dialog structure, coreference, prosody, facial expression
- Creator
- 電子情報技術産業委員会(JEITA) 知識情報処理技術委員会 マルチモーダルコンテンツ技術専門委員会
- Price
- 個人・GSK会員21,000円, 個人・GSK非会員42,000円, 団体・GSK会員29,400円, 団体・GSK非会員58,800円
- Subject.language
- 日本語
- Format
- 2 CD-ROM
- URI
- http://www.gsk.or.jp/catalog.html
- IREX公開データ・ツール(最終版)
- Type
- Text
- Description
- 1999年に開催されたIREXプロジェクトによる情報検索や情報抽出のテストコレクション
- Creator
- IREX実行委員会
- Contact person
- IREX実行委員会
- Price
- フリー
- Subject.language
- 日本語
- Date
- 1999
- Format
- gzipped file, 2.82MB
- Format.encoding
- EUC-JP
- Relation
- Requires 毎日新聞CD-ROM (1994年)
Requires 毎日新聞CD-ROM (1995年)
- URI
- http://nlp.cs.nyu.edu/irex/index-j.html
- Usage Case
- (別ウィンドウに表示)
- NTCIRテストコレクション
- Type
- Text
- Description
- NTCIRプロジェクトによる情報検索, 情報抽出, 質問応答システム, 自動要約等のテストコレクション
- Creator
- NTCIRプロジェクト
- Contact person
- 国立情報学研究所・情報学資源研究センター NTCIR事務局: ntc-secretariatあっとnii.ac.jp
- Price
- フリー
- Language
- 日本語
- Date
- 1999-2007
- Format
- CD-ROM
- Format.encoding
- EUC-JP
- URI
- http://research.nii.ac.jp/ntcir/index-ja.html
- Usage Case
- (別ウィンドウに表示)
- KNB コーパス (Kyoto-University and NTT Blog コーパス)
- Type
- Text
- Description
- 4テーマ(京都観光、携帯電話、スポーツ、グルメ)、249記事、4,186文の解析済みブログコーパス。形態素、構文、格・省略・照応、評判情報がアノテーションされている。(現在、配信は停止されている)
- Annotation.corpus
- word segmentation, part-of-speech, syntax, case, ellipsis, opinion information
- Creator
- 京都大学, NTTコミュニケーション科学基礎研究所
- Contact person
- 京都大学 黒橋・河原研究室
- Price
- フリー
- Subject.language
- 日本語
- Format.encoding
- EUC-JP
- 新聞記事GDAコーパス2004
- Type
- Text
- Type.linguistics
- annotation/corpus
- Description
- 本データは新聞記事テキスト(3,000記事、約37,000文、約910,000語)に対して形態素・統語構造・語義の情報を付与したコーパスである。これらの付加情報は全て人手修正されている。コーパスの記述形式はGDA(Global Document Annotation)に準拠する。本データは付加情報のみを提供し、テキスト自体は含まれていない。テキストを含む完全なコーパスを復元するには「CD-毎日新聞'94データ集」を別途購入する必要がある。
- Annotation.corpus
- word segmentation, part-of-speech, syntax, word sense, co-reference
- Creator
- 三菱電機株式会社
- Contact person
- GSK(言語資源協会)
- Price
- GSK個人・会員21,000円、個人・非会員42,000円、団体・会員29,400円、団体・非会員58,800円。
- Subject.language
- 日本語
- Date
- 2010.2
- Rights
- 教育・研究目的に限る
- Format
- 1 CD-ROM (60,7MB)
- Format.encoding
- Shift_JIS
- URI
- http://www.gsk.or.jp/catalog.html
- Usage Case
- (別ウィンドウに表示)
- 岩波国語辞典第五版タグ付きコーパス2004
- Type
- Text
- Description
- 本データは岩波国語辞典第五版における約5万6千項目のデータに形態素・統語構造・岩波国語辞典自身に基づく語義の情報などを付与したコーパスである。これらの付加情報は全て人手修正されている。また、コーパスの記述形式はGDA(Global Document Annotation)に準拠する。コーパスに含まれる文の総数は約198,000、形態素の総数は約1,120,000である。
- Annotation.corpus
- word segmentation, part-of-speech, syntax, word sense, co-reference
- Creator
- 株式会社岩波書店, 三菱電機株式会社
- Contact person
- 言語資源協会
- Price
- GSK個人・会員21,000円、個人・非会員42,000円、団体・会員29,400円、団体・非会員58,800円。
- Subject.language
- 日本語
- Date
- 2010.5
- Rights
- 教育・研究目的に限る
- Format
- 1 CD-ROM (255MB)
- Format.encoding
- Shift_JIS
- URI
- http://www.gsk.or.jp/catalog.html
- Usage Case
- (別ウィンドウに表示)
- 現代日本語書き言葉均衡コーパス
- Type
- Text
- Type.linguistics
- annotation/
- Description
- 現代日本語のテキスト集合からランダムサンプリングによって収集された均衡コーパス。生産実態(出版)サブコーパス(3500万語)、流通実態(図書館)サブコーパス(3000万語)、非母集団(特定目的)サブコーパス(3500万語)から構成される。一部のデータについては短単位による形態素解析結果を人手で修正した情報が付与されている。
- Creator
- 国立国語研究所
- Contact person
- 国立国語研究所 (kotonohaあっとninjal.ac.jp)
- Subject.language
- 日本語
- Date
- 2006-
- URI
- http://www.ninjal.ac.jp/kotonoha/index.html
- Usage Case
- (別ウィンドウに表示)
- 日本語話し言葉コーパス
- Type
- Text
- Description
- 日本語の自発音声を大量にあつめて多くの研究用情報を付加した話し言葉研究用のデータベース。660時間の自発音声の音声データ、700万語の書き起こしテキスト、その品詞が収録されている。さらに、45時間(50万語)のコアと呼ばれるデータについては、分節音ラベルとイントネーションラベルが付与されている。
- Creator
- 国立国語研究所, 情報通信研究機構, 東京工業大学
- Contact person
- 国立国語研究所
- Price
- 25,000円(学術利用,学生), 50,000円(学術利用,大学・研究機関), 250,000円(学術利用,企業), 個別交渉(商用利用), 税別
- Subject.language
- 日本語
- URI
- http://www.ninjal.ac.jp/products-k/katsudo/seika/corpus/
- Usage Case
- (別ウィンドウに表示)
- NAIST Text Corpus
- Type
- Text
- Description
- 京都テキストコーパスで利用されている毎日新聞1995年記事約4万文に対して、述語と表層格(ガ格,ヲ格,ニ格)の関係、事態性名詞と表層格(ガ格,ヲ格,ニ格)の関係、事態性名詞の名詞クラス、名詞句間の共参照関係、指示連体詞・代名詞の照応関係の情報を付与したコーパス。アノテーションのみ公開している。
- Creator
- 奈良先端科学技術大学院大学 自然言語処理学講座
- Contact person
- 奈良先端科学技術大学院大学 自然言語処理学講座
- Price
- フリー
- Subject.language
- 日本語
- Date
- 2006-
- Relation
- Requires 毎日新聞CD-ROM (1995年)
Requires 京都テキストコーパス
- URI
- http://cl.naist.jp/nldata/corpus/
- 日本語言明間意味的関係コーパス
- Type
- Text
- Type.linguistics
- annotation/corpus
- Description
- 対象の言明間の意味的関係を付与したコーパス。現在、配布は一時的に停止されている。
- Creator
- 奈良先端科学技術大学院大学 自然言語処理学講座
- Contact person
- 奈良先端科学技術大学院大学 自然言語処理学講座
- Subject.language
- 日本語
- Rights
- 契約が必要
- URI
- http://stmap.naist.jp/resource/corpus/
- OpenMWE for Japanese - コーパス
- Type
- Text
- Type.linguistics
- annotation/corpus
- Description
- 慣用句同定タスク(文中の句が慣用句なのか文字通りの意味の句なのかを区別するタスク)用に設計されたコーパス。各用例には慣用句が文字通りの意味なのかを示すラベルが与えられる。原則として1つの慣用句あたり1000個の用例が用意されている。
- Creator
- 橋本力, 河原大輔
- Contact person
- 橋本力, 河原大輔
- Price
- フリー
- Subject.language
- 日本語
- URI
- http://openmwe.sourceforge.jp/pukiwiki-j/index.php?Corpus
- 日英中基本文データ
- Type
- Text
- Description
- 京都大学格フレームをベースに日本語の基本的な文を自動抽出し、人手で修正を行った5304文。また、これら日本語基本文データを英語と中国語に翻訳した文のセット。
- Creator
- 京都大学黒橋・河原研究室 / NICTマスタープロジェクト多言語翻訳研究室
- Contact person
- 京都大学 黒橋・河原研究室 (nl-resourceあっとnlp.ist.i.kyoto-u.ac.jp)
- Price
- フリー
- Subject.language
- 日本語, 英語, 中国語
- Date
- 2011
- Rights
- Creative Commons Attribution 3.0 Unported
- Format
- Excel file
- URI
- http://nlp.ist.i.kyoto-u.ac.jp/index.php?%E6%97%A5%E8%8B%B1%E4%B8%AD%E5%9F%BA%E6%9C%AC%E6%96%87%E3%83%87%E3%83%BC%E3%82%BF
- ATR対話DB
- Type
- Text
- Type.linguistics
- transcription/dialogue
- Description
- 会話の書き起こし文。同じ会話を日本語と英語で収録している。2種類のトピック(国際会議の予約, 旅行代理店と客の会話)、2種類の入力方法(電話会話、キーボード会話)の計4種類の会話がある。それぞれは1枚のCD-ROMに収録されている。
- Creator
- 国際電気通信基礎技術研究所(ATR)
- Contact person
- ATR
- Price
- 50,000円 (1 CD-ROM当たり, 研究用途)
- Subject.language
- 日本語, 英語
- Format
- 4 CD-ROM.
- URI
- http://www.red.atr.co.jp/database_main.html
- 英文ビジネスレター文例大辞典 CD-ROM版
- Type
- Text
- Type.linguistics
- annotation/corpus
- Description
- ビジネスレターを書くための日本語、英語の例文集。
- Creator
- 日本経済新聞社
- Contact person
- 日経出版販売(eizoあっとnikkeish.co.jp)
- Price
- 70,000円
- Subject.language
- 日本語, 英語
- Date
- 1998
- Format
- 1 CD-ROM.
- Format.encoding
- Shift_JIS
- Format.markup
- SGML
- URI
- http://www.nikkeish.co.jp/gengo/eibun.htm
- 勉誠データベース
- Type
- Text
- Type.linguistics
- annotation/corpus
- Description
- 古文、和歌、漢文などのテキストデータ。約50テキスト。
- Creator
- 勉誠データセンター
- Contact person
- 勉誠データセンター(03-5351-3141)
- Price
- 3,000-4,000円 (1フロッピーディスク当たり)
- Subject.language
- 日本語
- Format
- 1 floppy disk.
- データノベルズ
- Type
- Text
- Type.linguistics
- annotation/corpus
- Description
- 文学作品のテキストデータ。
- Creator
- コンピュータ出版
- Publisher
- コンピュータ出版
- Contact person
- コンピュータ出版(03-5486-9481)
- Price
- 1,800 - 18,000円
- Subject.language
- 日本語
- Format
- 1 floppy disk.
- 青空文庫
- Type
- Text
- Type.linguistics
- annotation/corpus
- Description
- インターネットライブラリ。著作権の切れた文学作品など、多数の文学作品を入手することができる。
- Publisher
- http://www.aozora.gr.jp/
- Contact person
- aozoraあっとvoyager.co.jp
- Price
- フリー
- Subject.language
- 日本語
- URI
- http://www.aozora.gr.jp/
- Usage Case
- (別ウィンドウに表示)
- 判例マスター
- Type
- Text
- Type.linguistics
- annotation/corpus
- Description
- 1947年から1994年までの約95,000の判例を収録したテキストデータベース。半年に一度更新される。
- Creator
- 新日本法規出版
- Publisher
- 新日本法規出版
- Contact person
- 新日本法規出版(052-211-1525)
- Price
- 267,800円, 40,000円(更新)
- Subject.language
- 日本語
- 特許公報類CD-ROM
- Type
- Text
- Type.linguistics
- annotation/corpus
- Description
- 1994年からの特許の公開公報と公告公報のCD-ROM。年間約150枚のCD-ROMを発行している。
- Creator
- 日本特許情報機構
- Contact person
- 日本特許情報機構(03-3503-3900)
- Price
- 13,500 - 20,600円 (1CD-ROM当たり)
- Subject.language
- 日本語
- Usage Case
- (別ウィンドウに表示)
- 講談社和英辞典
- Type
- Text
- Type.linguistics
- annotation/corpus
- Description
- 講談社和英辞典のテキストコーパス。38,000文の日英対訳例文を含む。産業技術総合研究所と使用のための誓約書を取り交わす必要がある。
- Creator
- 講談社
- Contributor
- 橋田浩一
- Contact person
- 橋田浩一(hasida.kあっとaist.go.jp)
- Price
- フリー
- Subject.language
- 日本語
- Language
- 英語
- Usage Case
- (別ウィンドウに表示)
- ZenBase CD-ROM
- Type
- Text
- Type.linguistics
- annotation/corpus
- Description
- 禅籍テキストのCD-ROM。
- Creator
- 国際禅学研究所
- Contact person
- 国際禅学研究所(ursappあっとmbox.kyoto-inet.or.jp)
- Price
- 1,000円
- Subject.language
- 日本語
- Format.encoding
- ISO-2022-JP(JISコード)
- パワーシフト コーパス G1-2009
- Type
- Text
- Description
- 各年代性別の一般人を被験者=作者として、当社指定の会場内にて、ビジネス、及びプライベートな内容についてのメール文を当社指定の携帯電話・PCを利用して模擬的に作成してもらった収集文書。
- Creator
- 株式会社 ストレードワード
- Publisher
- 株式会社 パワーシフト
- Contact person
- 株式会社 パワーシフト (http://www.powershift.co.jp/company/form.html)
- Price
- 880,000円 (税別)
- Subject.language
- 日本語
- URI
- http://www.powershift.co.jp/it/corpus.html
- 甲南大学 こどもコーパス
- Type
- Text
- Description
- こどもコーパスは、児童が書いた文章から成るコーパスである。小学生66人を対象にして、8ヶ月間にわたって収集した言語データを収録している。
- Creator
- 甲南大学 知能情報学部 Edu-miningチーム
- Contact person
- 言語資源協会
- Price
- 言語資源協会会員に限り無料配布
- Subject.language
- 日本語
- Date
- 2010.5
- Rights
- 教育・研究目的に限る
- Format
- 1 file (260KB, zip archive)
- Format.encoding
- EUC-JP
- URI
- http://www.gsk.or.jp/catalog.html
- 分類語彙表 増補改訂版 (CD-ROM付き)
- Type
- Text
- Type.linguistics
- lexicon/thesaurus
- Description
- 延べ約96,000語の日本語単語を分類したシソーラス。これらの単語は、4つの類, 12のセクション, 895のグループに分類されている。冊子とPDFファイルの入ったCD-ROM付き。
- Creator
- 国立国語研究所
- Publisher
- 大日本図書
- Contact person
- 大日本図書 (03-3561-8679)
- Price
- 4,700円
- Subject.language
- 日本語
- Format
- 1 Book, 1 CD-ROM
- Relation
- HasFormat 分類語彙表 増補改訂版 データベース (CD-ROM)
- URI
- http://www.kokken.go.jp/
- 分類語彙表 増補改訂版 データベース (CD-ROM)
- Type
- Text
- Type.linguistics
- lexicon/thesaurus
- Description
- 延べ約96,000語の日本語単語を分類したシソーラス。これらの単語は、4つの類, 12のセクション, 895のグループに分類されている。CSV形式のテキストデータを収録。
- Creator
- 国立国語研究所
- Price
- 31,500円(一般) 10,500円(学生) 105,000円(団体利用)
- Subject.language
- 日本語
- Format
- 1 CD-ROM
- Format.encoding
- Shift_JIS
- Relation
- IsFormatOf 分類語彙表 増補改訂版 (CD-ROM付き)
- URI
- http://www.kokken.go.jp/katsudo/kanko/data/index.html
- Usage Case
- (別ウィンドウに表示)
- 現代日本語名詞シソーラス
- Type
- Text
- Type.linguistics
- lexicon/thesaurus
- Description
- 70,000語を含む現代日本語名詞のシソーラス。
- Creator
- 荻野綱男
- Contact person
- 荻野綱男 (http://www.chs.nihon-u.ac.jp/jp_dpt/ogino/)
- Price
- フリー (研究目的)
- Subject.language
- 日本語
- 日本語語彙大系
- Type
- Text
- Type.linguistics
- lexicon/thesaurus
- Description
- 機械翻訳システムALT-J/Eのために開発された日本語シソーラス。30万語の単語が3000種類の意味分類によって定義されている。また、14,000件の日本語文型パタンも収録されており、その全てに英語文型パタンが付与されている。
- Creator
- NTTコミュニケーション科学基礎研究所
- Publisher
- 岩波書店
- Contact person
- NTTコミュニケーション科学基礎研究所 自然言語処理グループ (mtあっとcslab.kecl.ntt.co.jp)
- Price
- 60,000 円
- Subject.language
- 日本語, 英語
- Format
- CD-ROM
- URI
- http://www.kecl.ntt.co.jp/icl/mtg/resources/GoiTaikei/
- Usage Case
- (別ウィンドウに表示)
- BioCaster ontology
- Type
- Text
- Type.linguistics
- lexicon/thesaurus
- Description
- 伝染病関連の語に関するSUMO形式のオントロジー。27の重要伝染病の情報を含み、伝染病の名前だけで なく、それらを引き起こす病原菌や症状といったものも含まれる。対象言語は中国語、英語、日本語、韓国語、タイ語、ベトナム語である。全ての語に対する異表記の情報、またMeSH, SNOMED CT, Wikipediaといった主要な外部情報源へのリンクも含まれている。
- Creator
- 国立情報学研究所 Nigel Collier 研究グループ
- Contact person
- 竹内孔一 (岡山大学, koichiあっとcl.it.okayama-u.ac.jp), Nigel Collier and AI Kawazoe (情報学研究所, collierあっとnii.ac.jp)
- Price
- フリー
- Subject.language
- 中国語,英語,日本語,韓国語,タイ語,ベトナム語
- Date
- 2007
- URI
- http://biocaster.nii.ac.jp/index.php?page=downloads&lang=jp
- 日本語 WordNet
- Type
- Text
- Description
- 日本語のワードネット。Princeton WordNet 3.0のsynsetに対して日本語が付与されている。49,190個の概念(synset), 85,966個の単語, 156,684個の語義(synsetと単語のペア)が収録されている。
- Creator
- 独立行政法人 情報通信研究機構
- Contact person
- Francis Bond (jwordnetあっとgmail.com)
- Price
- フリー
- Subject.language
- 日本語
- URI
- http://nlpwww.nict.go.jp/wn-ja/index.ja.html
- Usage Case
- (別ウィンドウに表示)
- 動詞項構造シソーラス
- Type
- Text
- Type.linguistics
- lexicon/verb thesaurus
- Description
- 自然言語処理用の動詞辞書。4425語、7473語義に対し、動詞の意味分類、格フレーム、代表例文が付与されている。また、動詞の意味分類は階層構造を持つ。
- Creator
- 竹内孔一, 乾健太郎, 藤田篤, 竹内奈央
- Contact person
- 竹内孔一
- Price
- フリー
- URI
- http://cl.it.okayama-u.ac.jp/rsc/data/index.html
- Usage Case
- (別ウィンドウに表示)
- IPAL辞書
- Type
- Text
- Type.linguistics
- lexicon/subcategorization dictionary
- Description
- 日本語の基本動詞861, 基本形容詞136, 基本名詞1081語を収録した辞書。語の意味、形態素情報、文法カテゴリ、格フレーム、イディオムなどの情報が記載されている。現在はGSKを通じて入手可能。
- Creator
- 情報処理振興事業協会 (IPA)
- Price
- GSK会員は無料, 非会員は31,500円
- Subject.language
- 日本語
- Language
- 日本語
- Date
- 1998
- Format
- 11 MB.
- Format.encoding
- EUC-JP
- URI
- http://www.gsk.or.jp/catalog.html
- Usage Case
- (別ウィンドウに表示)
- EDR電子化辞書
- Type
- Collection
- Description
- 日本語単語辞書、英語単語辞書、概念辞書、日本語共起辞書、英語共起辞書、日英対訳辞書、日中対訳辞書、英日対訳辞書、専門用語辞書の9つからなる電子化辞書。また、共起辞書の付録としてEDRコーパスがある。2010年に改訂版Ver.4.0がリリースされた。
- Creator
- 日本電子化辞書研究所
- Contact person
- 情報通信研究機構 (edr_infoあっとjsa.co.jp)
- Subject.language
- 日本語, 英語
- Language
- 日本語, 英語
- Format
- 9 CD-ROM.
- Relation
- HasPart EDR日本語単語辞書
HasPart EDR英語単語辞書
HasPart EDR日英対訳辞書
HasPart EDR日中対訳辞書
HasPart EDR英日対訳辞書
HasPart EDR概念辞書
HasPart EDR日本語共起辞書
HasPart EDR英語共起辞書
HasPart EDR専門用語辞書
- URI
- http://www2.nict.go.jp/out-promotion/techtransfer/EDR/J_index.html
- Usage Case
- (別ウィンドウに表示)
- EDR日本語単語辞書
- Type
- Text
- Type.linguistics
- lexicon/
- Description
- 単語の意味(概念)や文法属性を記載した辞書。約260,000の日本語単語を収録している。2010年に改訂版Ver.4.0がリリースされた。
- Creator
- 日本電子化辞書研究所
- Contact person
- 情報通信研究機構 (edr_infoあっとjsa.co.jp)
- Price
- 50,000円 (アカデミック), 1,200,000円 (一般研究利用), 2,400,000円(商用)
- Subject.language
- 日本語
- Language
- 日本語, 英語
- Format
- 103 MB. 260,000 entries.
- Format.encoding
- EUC-JP
- Relation
- IsPartOf EDR電子化辞書
- URI
- http://www2.nict.go.jp/out-promotion/techtransfer/EDR/J_index.html
- Usage Case
- (別ウィンドウに表示)
- EDR英語単語辞書
- Type
- Text
- Type.linguistics
- lexicon/
- Description
- 単語の意味(概念)や文法属性を記載した辞書。約190,000の英単語を収録している。2010年に改訂版Ver.4.0がリリースされた。
- Creator
- 日本電子化辞書研究所
- Contact person
- 情報通信研究機構 (edr_infoあっとjsa.co.jp)
- Price
- 50,000円 (アカデミック), 1,200,000円 (一般研究利用), 2,400,000円(商用)
- Subject.language
- 英語
- Language
- 英語, 日本語
- Format
- 86 MB. 190,000 entries.
- Format.encoding
- EUC-JP
- Relation
- IsPartOf EDR電子化辞書
- URI
- http://www2.nict.go.jp/out-promotion/techtransfer/EDR/J_index.html
- EDR日英対訳辞書
- Type
- Text
- Type.linguistics
- lexicon/bilingual lexicon
- Description
- 約240,000の日本語単語について、その対訳となる英単語を記載した辞書。日本語単語は意味によって区別されている。2010年に改訂版Ver.4.0がリリースされた。
- Creator
- 日本電子化辞書研究所
- Contact person
- 情報通信研究機構 (edr_infoあっとjsa.co.jp)
- Price
- 50,000円 (アカデミック), 1,200,000円 (一般研究利用), 2,400,000円(商用)
- Subject.language
- 日本語
- Language
- 英語, 日本語
- Format
- 85 MB. 240,000 entries.
- Format.encoding
- EUC-JP
- Relation
- IsPartOf EDR電子化辞書
- URI
- http://www2.nict.go.jp/out-promotion/techtransfer/EDR/J_index.html
- Usage Case
- (別ウィンドウに表示)
- EDR日中対訳辞書
- Type
- Text
- Type.linguistics
- lexicon/bilingual lexicon
- Description
- 約230,000の日本語単語について、その対訳となる中国語単語を記載した辞書。日本語単語は意味によって区別されている。2010年にリリースされた。
- Creator
- 情報通信機構
- Contact person
- 情報通信研究機構 (edr_infoあっとjsa.co.jp)
- Price
- 50,000円 (アカデミック), 1,200,000円 (一般研究利用), 2,400,000円(商用)
- Subject.language
- 日本語
- Language
- 中国語, 日本語
- Date
- 2010
- Format
- 85 MB. 240,000 entries.
- Format.encoding
- EUC-JP
- Relation
- IsPartOf EDR電子化辞書
- URI
- http://www2.nict.go.jp/out-promotion/techtransfer/EDR/J_index.html
- EDR英日対訳辞書
- Type
- Text
- Type.linguistics
- lexicon/bilingual lexicon
- Description
- 約160,000の英単語について、その対訳となる日本語単語を記載した辞書。英単語は意味によって区別されている。2010年に改訂版Ver.4.0がリリースされた。
- Creator
- 日本電子化辞書研究所
- Contact person
- 情報通信研究機構 (edr_infoあっとjsa.co.jp)
- Price
- 50,000円 (アカデミック), 1,200,000円 (一般研究利用), 2,400,000円(商用)
- Subject.language
- 日本語
- Language
- 英語, 日本語
- Format
- 53 MB. 160,000 entries.
- Format.encoding
- EUC-JP
- Relation
- IsPartOf EDR電子化辞書
- URI
- http://www2.nict.go.jp/out-promotion/techtransfer/EDR/J_index.html
- EDR概念辞書
- Type
- Text
- Type.linguistics
- lexicon/thesaurus
- Description
- 概念辞書は、単語辞書に含まれる410,000の概念に関する情報を記載した辞書で、概念見出し辞書、概念体系辞書、概念記述辞書の3つから構成される。概念見出し辞書は概念の定義を記述している。概念体系辞書は、概念間の上位下位関係を記述したシソーラスである。概念記述辞書は、agent, implement, placeなどの概念間の意味的関係を記述した辞書である。2010年に改訂版Ver.4.0がリリースされた。
- Creator
- 日本電子化辞書研究所
- Contact person
- 情報通信研究機構 (edr_infoあっとjsa.co.jp)
- Price
- 50,000円 (アカデミック), 1,200,000円 (一般研究利用), 2,400,000円(商用)
- Subject.language
- 日本語, 英語
- Language
- 日本語, 英語
- Format
- 97 MB. 410,000 entries.
- Format.encoding
- EUC-JP
- Relation
- IsPartOf EDR電子化辞書
- URI
- http://www2.nict.go.jp/out-promotion/techtransfer/EDR/J_index.html
- Usage Case
- (別ウィンドウに表示)
- EDR日本語共起辞書
- Type
- Text
- Type.linguistics
- lexicon/cooccurrence database
- Description
- 共起する日本語単語対とそれらの意味的関係を記述した辞書。約930,000の単語またはフレーズが記載されている。2010年に改訂版Ver.4.0がリリースされた。
- Creator
- 日本電子化辞書研究所
- Contact person
- 情報通信研究機構 (edr_infoあっとjsa.co.jp)
- Price
- 50,000円 (アカデミック), 1,200,000円 (一般研究利用), 2,400,000円(商用)
- Subject.language
- 日本語
- Language
- 日本語
- Format
- 445 MB. 930,000 entries.
- Format.encoding
- EUC-JP
- Relation
- IsPartOf EDR電子化辞書
HasPart EDR日本語コーパス
- URI
- http://www2.nict.go.jp/out-promotion/techtransfer/EDR/J_index.html
- Usage Case
- (別ウィンドウに表示)
- EDR英語共起辞書
- Type
- Text
- Type.linguistics
- lexicon/cooccurrence database
- Description
- 共起する英語単語対とそれらの意味的関係を記述した辞書。約460,000の単語またはフレーズが記載されている。2010年に改訂版Ver.4.0がリリースされた。
- Creator
- 日本電子化辞書研究所
- Contact person
- 情報通信研究機構 (edr_infoあっとjsa.co.jp)
- Price
- 50,000円 (アカデミック), 1,200,000円 (一般研究利用), 2,400,000円(商用)
- Subject.language
- 英語
- Language
- 英語, 日本語
- Format
- 242 MB. 460,000 entries.
- Format.encoding
- EUC-JP
- Relation
- IsPartOf EDR電子化辞書
HasPart EDR英語コーパス
- URI
- http://www2.nict.go.jp/out-promotion/techtransfer/EDR/J_index.html
- EDR専門用語辞書
- Type
- Text
- Type.linguistics
- lexicon/technical terminology
- Description
- 情報処理に関する日本語と英語の専門用語を収録した辞書。日本語専門語辞書、英語専門語辞書、日英専門用語対訳辞書、英日専門用語対訳辞書、専門用語概念辞書、日本語専門用語共起辞書、英語専門用語共起辞書から構成されrている。119,000に日本語専門用語と78,000の英語専門用語が収録されている。2010年に改訂版Ver.4.0がリリースされた。
- Creator
- 日本電子化辞書研究所
- Contact person
- 情報通信研究機構 (edr_infoあっとjsa.co.jp)
- Price
- 50,000円 (アカデミック), 1,200,000円 (一般研究利用), 2,400,000円(商用)
- Subject.language
- 日本語, 英語
- Language
- 日本語, 英語
- Format
- 145 MB. 197,000 entries.
- Format.encoding
- EUC-JP
- Relation
- IsPartOf EDR電子化辞書
- URI
- http://www2.nict.go.jp/out-promotion/techtransfer/EDR/J_index.html
- 古典対照語彙表
- Type
- Text
- Type.linguistics
- lexicon/
- Description
- 「徒然草」「方丈記」など、14の古典に現れた約23,000の自立語を収録した辞書。語の使用頻度も記載されている。
- Creator
- 笠間書院
- Publisher
- 笠間書院
- Contact person
- 笠間書院(+81-3-3295-1331)
- Price
- 6,695円
- Subject.language
- 日本語
- ICOT形態素辞書
- Type
- Text
- Type.linguistics
- lexicon/
- Description
- 約120,000語を収録した形態素解析用辞書。表記、読み、品詞の情報がある。
- Creator
- 新世代コンピュータ技術開発機構(ICOT)
- Publisher
- ftp://ftp.icot.or.jp
- Price
- フリー
- Subject.language
- 日本語
- Language
- 日本語
- Format.encoding
- ISO-2022-JP(JISコード)
- URI
- ftp://ftp.icot.or.jp/ifs/README.j
- Usage Case
- (別ウィンドウに表示)
- ライフサイエンス辞書
- Type
- Text
- Type.linguistics
- lexicon/
- Description
- ライフサイエンス用語の日本語と英語の辞書。
- Creator
- ライフサイエンス辞書プロジェクト
- Contributor
- 京都大学薬学部 / 国立遺伝研究所
- Publisher
- http://lsd.pharm.kyoto-u.ac.jp
- Contact person
- ライフサイエンス辞書プロジェクト(lsdあっとlsd.pharm.kyoto-u.ac.jp)
- Price
- フリー
- Subject.language
- 日本語, 英語
- URI
- http://lsd.pharm.kyoto-u.ac.jp/index-J.html
- Usage Case
- (別ウィンドウに表示)
- 英語基本単語リスト
- Type
- Text
- Type.linguistics
- lexicon/
- Description
- Woo Lindaさんによって作成された5,000語の英語基本単語のリスト。
- Creator
- Woo, Linda
- Contributor
- 外池俊幸
- Publisher
- http://www.lang.nagoya-u.ac.jp/~tonoike/linda5000.html
- Contact person
- 外池俊幸(f43633aあっとnucc.cc.nagoya-u.ac.jp)
- Price
- フリー
- Subject.language
- 英語
- URI
- http://www.lang.nagoya-u.ac.jp/~tonoike/linda5000.html
- 北大英語語彙表
- Type
- Text
- Type.linguistics
- lexicon/
- Description
- 北海道大学によって作成された7,500語の英語基本語彙表。
- Creator
- 北海道大学
- Contact person
- 園田勝英(ksonodaあっとilcs.hokudai.ac.jp)
- Price
- フリー
- Subject.language
- 英語
- EDICT
- Type
- Text
- Type.linguistics
- lexicon/
- Description
- フリーで利用可能な日英対訳辞書。
- Creator
- The Electronic Dictionary Research and Development Group, Monash University
- Contact person
- Jim Breen (jwbあっとcsse.monash.edu.au)
- Price
- フリー(研究目的に限る)
- Subject.language
- Japanese, English
- Format
- about 106,000 entries
- URI
- http://www.csse.monash.edu.au/~jwb/edict_doc.html
- Usage Case
- (別ウィンドウに表示)
- CICCマレーシア語基本語辞書
- Type
- Text
- Type.linguistics
- lexicon/
- Description
- マレーシア語の基本語70,000語を収録した辞書。品詞や文法的性質、対応する英語等が記述されている。基本語辞書の他に専門語辞書などを含む。
- Creator
- 財団法人国際情報化協力センター
- Contact person
- GSK (言語資源協会)
- Price
- GSK個人・会員21,000円、個人・非会員42,000円、団体・会員29,400円、団体・非会員58,800円。
- Subject.language
- マレーシア語
- Date
- 1995
- Rights
- 学術目的の利用に限る
- Format
- 1 CD-ROM
- Format.encoding
- Ascii code
- URI
- http://www.gsk.or.jp/catalog.html
- CICCインドネシア語基本語辞書
- Type
- Text
- Type.linguistics
- lexicon/
- Description
- インドネシア語の基本語50,000語を収録した辞書。品詞や文法的性質、対応する英語等が記述されている。基本語辞書の他にインドネシア語イディオム辞書、アクロニム辞書、専門語辞書を含む。
- Creator
- 財団法人国際情報化協力センター
- Contact person
- GSK (言語資源協会)
- Price
- GSK個人・会員21,000円、個人・非会員42,000円、団体・会員29,400円、団体・非会員58,800円。
- Subject.language
- インドネシア語
- Date
- 1995
- Rights
- 学術目的の利用に限る
- Format
- 1 CD-ROM
- Format.encoding
- Ascii code
- URI
- http://www.gsk.or.jp/catalog.html
- CICC中国語基本語辞書
- Type
- Text
- Type.linguistics
- lexicon/
- Description
- 中国語の基本語50,000語を収録した辞書。内容は読み方と文法的性質で、対訳はない。基本語辞書の他に中国語専門語辞書を含む。
- Creator
- 財団法人国際情報化協力センター
- Contact person
- GSK (言語資源協会)
- Price
- GSK個人・会員21,000円、個人・非会員42,000円、団体・会員29,400円、団体・非会員58,800円。
- Subject.language
- 中国語
- Date
- 1995
- Rights
- 学術目的の利用に限る
- Format
- 1 CD-ROM
- Format.encoding
- GB code
- URI
- http://www.gsk.or.jp/catalog.html
- CICCタイ語基本語辞書
- Type
- Text
- Type.linguistics
- lexicon/
- Description
- タイ語の基本語50,000語を収録。対応する英語も記述されている。他に共起辞書、専門語辞書も含む。
- Creator
- 財団法人国際情報化協力センター
- Contact person
- GSK (言語資源協会)
- Price
- GSK個人・会員21,000円、個人・非会員42,000円、団体・会員29,400円、団体・非会員58,800円。
- Subject.language
- タイ語
- Date
- 1995
- Rights
- 学術目的の利用に限る
- Format
- 1 CD-ROM
- Format.encoding
- TIS0 620-2529
- URI
- http://www.gsk.or.jp/catalog.html
- CICC専門語辞書
- Type
- Text
- Type.linguistics
- lexicon/
- Description
- マレーシア語、インドネシア語、中国語、タイ語の専門語辞書。コンピュータ、電気、工学、および関連分野の専門用語が収録されている。対訳日本語用語ファイル、対訳英語用語ファイルも含む。品詞、読みや数量単位、構文情報などが記述されている。
- Creator
- 財団法人国際情報化協力センター
- Contact person
- GSK (言語資源協会)
- Price
- GSK個人・会員21,000円、個人・非会員42,000円、団体・会員29,400円、団体・非会員58,800円。
- Subject.language
- マレーシア語、インドネシア語、中国語、タイ語
- Language
- マレーシア語、インドネシア語、中国語、タイ語、英語、日本語
- Date
- 1995
- Rights
- 学術目的の利用に限る
- Format
- 1 CD-ROM
- Format.encoding
- ASCII code, GB code, TIS 620-2529, EUC, Shift-JIS
- URI
- http://www.gsk.or.jp/catalog.html
- MUST1: 日本語複合辞用例データベース v1.0
- Type
- Text
- Type.linguistics
- lexicon/
- Description
- 複合辞とその用例を収集したデータベース。複合辞の数は337項目で、最大50件の用例が含まれる。用例は新聞記事から採取された。毎日新聞の1995年度版CD-ROMを別途購入する必要がある。
- Creator
- グループMUST
- Contact person
- グループMUST (松吉俊、宇津呂武仁、佐藤理史、土屋雅稔)
- Price
- free
- Subject.language
- 日本語
- Date
- 2007
- Relation
- Requires 毎日新聞CD-ROM (1995年)
- URI
- http://nlp.iit.tsukuba.ac.jp/must/
- Usage Case
- (別ウィンドウに表示)
- 鳥バンク
- Type
- Text
- Type.linguistics
- lexicon/
- Description
- 「日本語表現意味辞書−重文複文編−」(日英対訳の意味類型パターン辞書:22.7万パターン対)、ならびにそれに関連したドキュメントやプログラム。
- Creator
- 日本語表現意味辞書等管理委員会
- Price
- フリー(研究目的に限る)
- Subject.language
- 日本語
- Date
- 2007
- URI
- http://unicorn.ike.tottori-u.ac.jp/toribank/
- Usage Case
- (別ウィンドウに表示)
- 日本語機能表現辞書つつじ
- Type
- Text
- Type.linguistics
- lexicon/
- Description
- 日本語の機能表現(機能語と複合辞)のリスト。辞書は9レベルの階層を持ち、最下層における機能表現の数は16,801である。
- Creator
- 松吉俊, 佐藤理史
- Contact person
- tsu90tsu80ji%sslab.nuee.nagoya-75u.ac.jp (数字をすべて削除し、%をあっとに置き換えて下さい。)
- Price
- フリー
- Subject.language
- 日本語
- Date
- 2007
- Rights
- Creative Commons 3.0, Attribution-Noncommercial-Share Alike
- URI
- http://kotoba.nuee.nagoya-u.ac.jp/tsutsuji/
- Usage Case
- (別ウィンドウに表示)
- UniDic
- Type
- Text
- Type.linguistics
- lexicon/word
- Description
- 日本語テキストを単語に分割し、形態論情報を付与するための電子化辞書。形態素解析器「茶筌(ChaSen)」「和布蕪(MeCab)」の辞書として利用できる。語彙素・語形・書字形・発音形・アクセントの情報が付与される。2009年7月現在、およそ15,000の語彙素が収録されている。
- Creator
- 伝康晴, 山田篤, 小椋秀樹, 小磯花絵, 小木曽智信
- Contact person
- unidicあっとninjal.ac.jp
- Price
- フリー
- Subject.language
- 日本語
- Date
- 2007-
- Relation
- References 茶筌
References 和布蕪(MeCab)
- URI
- http://www.tokuteicorpus.jp/dist/
- Usage Case
- (別ウィンドウに表示)
- 評価値表現辞書
- Type
- Text
- Type.linguistics
- lexicon/evaluation expressions
- Description
- 評価を表すために使われる可能性のある表現を集めた辞書。およそ5,200表現を収録している。
- Creator
- 奈良先端科学技術大学院大学 自然言語処理学講座
- Contact person
- 奈良先端科学技術大学院大学 自然言語処理学講座
- Price
- フリー
- Subject.language
- 日本語
- Date
- 2006
- URI
- http://www.syncha.org/evaluative_expressions.html
- Usage Case
- (別ウィンドウに表示)
- NAIST English Dictionary
- Type
- Text
- Type.linguistics
- lexicon/word
- Description
- Penn Treebank 体系の品詞タグつき英語辞書。原形情報も付与されている。
- Creator
- 奈良先端科学技術大学院大学 自然言語処理学講座
- Contact person
- 奈良先端科学技術大学院大学 自然言語処理学講座
- Price
- フリー
- Subject.language
- 英語
- Date
- 2007
- URI
- http://sites.google.com/site/masayua/p/naist-edic
- NAIST Japanese Dictionary
- Type
- Text
- Type.linguistics
- lexicon/word
- Description
- IPAdicの後継となる日本語辞書。固有名詞以外の全エントリの品詞の見直しを行っている。また、表記ゆれ情報、複合語の構造が付与されている。茶筌、MeCab用の辞書として使用できる。
- Creator
- 奈良先端科学技術大学院大学 自然言語処理学講座
- Contact person
- 奈良先端科学技術大学院大学 自然言語処理学講座
- Price
- フリー
- Subject.language
- 日本語
- Relation
- References 茶筌
References 和布蕪(MeCab)
- URI
- http://sourceforge.jp/projects/naist-jdic/
- NAIST Chinese Dictionary
- Type
- Text
- Type.linguistics
- lexicon/word
- Description
- 約12万語からなる中国語形態素解析用辞書。MeCabの辞書として使うことができる。語彙項目には単語と品詞体系が含まれる。
- Creator
- 奈良先端科学技術大学院大学 自然言語処理学講座
- Contact person
- 奈良先端科学技術大学院大学 自然言語処理学講座
- Subject.language
- 中国語
- Rights
- 契約が必要
- Relation
- References 和布蕪(MeCab)
- URI
- http://cl.naist.jp/~masayu-a/ncd/
- NAIST Japanese ENE Dictionary on Wikipedia
- Type
- Text
- Type.linguistics
- lexicon/named entity
- Description
- Wikipedia 中の見出し語に対し、NYU の関根氏が提案している拡張固有表現階層を付与した辞書。
- Creator
- 奈良先端科学技術大学院大学 自然言語処理学講座
- Contact person
- 奈良先端科学技術大学院大学 自然言語処理学講座
- Price
- フリー
- Subject.language
- 日本語
- URI
- http://sites.google.com/site/masayua/p/naist-jene
- 京都大学格フレーム
- Type
- Text
- Type.linguistics
- lexicon/subcategorization dictionary
- Description
- Webテキストから自動構築した大規模格フレーム。格フレームとは、用言とそれに関係する名詞を用言の各用法ごとに整理したもの。データはWeb上の約16億文の日本語テキストから自動的に構築され、約4万用言から構成される。言語資源協会の会員にのみ配布される。
- Creator
- 京都大学 言語メディア研究室
- Contact person
- 京都大学 黒橋・河原研究室 (nl-resourceあっとnlp.ist.i.kyoto-u.ac.jp)
- Price
- GSK会員に限る。無料。
- Subject.language
- 日本語
- Format
- 11 MB.
- Format.encoding
- EUC-JP
- URI
- http://www.gsk.or.jp/catalog.html
- Usage Case
- (別ウィンドウに表示)
- OpenMWE for Japanese - 慣用句リスト
- Type
- Text
- Type.linguistics
- lexicon/idioms
- Description
- 日本語の926個の基本慣用句のリスト。慣用句は構文的な柔軟性の有無、意味的な曖昧性の有無によって分類されている。
- Creator
- 橋本力, 河原大輔
- Contact person
- 橋本力, 河原大輔
- Price
- フリー
- Subject.language
- 日本語
- URI
- http://openmwe.sourceforge.jp/pukiwiki-j/index.php?Idioms
- 日本語基本語彙表JC2
- Type
- Text
- Type.linguistics
- lexicon/basic word
- Description
- 日本語の基本的な単語のリスト。レベルA約2,800語、レベルB約3,000語の合計約5,800語を収録。狭義の「語」だけでなく、機能表現(機能語と複合辞)や慣用句も収録対象としている。
- Creator
- 名古屋大学 佐藤研究室
- Contact person
- 佐藤理
- Price
- フリー
- Subject.language
- 日本語
- URI
- http://kotoba.nuee.nagoya-u.ac.jp/jc2/base/list
- 基本慣用句五種対照表
- Type
- Text
- Type.linguistics
- lexicon/idiom
- Description
- 日本語の基本的な慣用句のリスト。五種類の資料に、どのような慣用句が掲載されているかを調べ、その結果を対照表として整理したもの。3,629表現が収録されている。
- Creator
- 佐藤理
- Contact person
- 佐藤理
- Price
- フリー
- Subject.language
- 日本語
- URI
- http://kotoba.nuee.nagoya-u.ac.jp/jc2/base/list
- Usage Case
- (別ウィンドウに表示)
- 中学校・高校教科書の語彙調査
- Type
- Text
- Type.linguistics
- lexicon/
- Description
- 1974年と1980年の中学校・高校の教科書の語彙の調査結果のレポート。 語彙表データは「テレビ放送の語彙調査CD-ROM」に再録されている。
- Creator
- 国立国語研究所
- Subject.language
- 日本語
- Relation
- IsPartOf テレビ放送の語彙調査 CD-ROM
- テレビ放送の語彙調査 CD-ROM
- Type
- Text
- Type.linguistics
- lexicon/
- Description
- 1989年の4月から6月のテレビ放送、CM放送を対象とした語彙調査。26,000単語。付録として「中学校・高校教科書の語彙調査」の語彙表データも再録されてい る。
- Creator
- 国立国語研究所
- Publisher
- 大日本図書
- Contact person
- 大日本図書 (03-3561-8679)
- Price
- 2,500円
- Subject.language
- 日本語
- Format
- 1 CD-ROM
- Format.encoding
- Shift_JIS
- Relation
- HasPart 中学校・高校教科書の語彙調査
- 語の共起関係データ
- Type
- Text
- Description
- 新聞記事から抽出された「名詞-格助詞-動詞」などの共起関係のデータ。1,160,000エントリ。
- Creator
- 田中康仁
- Contact person
- 田中康仁 (0794-27-5111)
- Price
- 郵送費のみ
- Subject.language
- 日本語
- 女性のことば・職場編
- Type
- Text
- Type.linguistics
- transcription/dialogue
- Description
- 20代〜50代の女性19名の、職場における会話データ(約9時間分)を書き起こして収録。 ISBN 4-938669-93-5
- Creator
- 現代日本語研究会
- Publisher
- ひつじ書房
- Contact person
- ひつじ書房 (03-5319-4916)
- Price
- 3675円
- Subject.language
- 日本語
- Format
- 1 FD
- 男性のことば・職場編
- Type
- Text
- Type.linguistics
- transcription/dialogue
- Description
- 20代〜50代の男性21名の、職場における会話データ(約12時間分)を書き起こして収録。 ISBN 4-89476-161-0
- Creator
- 現代日本語研究会
- Publisher
- ひつじ書房
- Contact person
- ひつじ書房 (03-5319-4916)
- Price
- 2940円
- Subject.language
- 日本語
- Format
- 1 CD-ROM
- 戦時中の話しことば −ラジオドラマ台本から−
- Type
- Text
- Type.linguistics
- transcription/dialogue
- Description
- 1936-1955年に、日本放送協会から放送された小林勝脚本のラジオドラマ台本。 ISBN 4-89476-222-6
- Creator
- 遠藤織枝ほか
- Publisher
- ひつじ書房
- Contact person
- ひつじ書房(03-5319-4916)
- Price
- 3990円
- Language
- 日本語
- Format
- 1 CD-ROM
- 日本語母語話者の雑談における「物語」の研究
- Type
- Text
- Type.linguistics
- transcription/dialogue
- Description
- 19〜35歳までの女性日本語母語話者のペアによる雑談を15組(約10時間)分書き起こして収録。 ISBN 978-4-87424-194-3
- Creator
- 現代日本語研究会
- Publisher
- くろしお出版
- Contact person
- くろしお出版 (frontier_seriesあっとnifty.ne.jp)
- Price
- 3990円
- Language
- 日本語
- Date
- 2000
- Format
- PDF
- 科学技術 日英・英日コーパス辞典
- Type
- Text
- Description
- 科学技術・産業実務関係の書籍・雑誌・パンフレットなどから収集した英文約15000文例に日本語対訳を付与。 ISBN 4-621-04991-7
- Annotation.document
- keyword
- Creator
- 富井篤
- Publisher
- 丸善株式会社
- Contact person
- 丸善株式会社
- Price
- 18900 円
- Subject.language
- 英語, 日本語
- Format
- 1 CD-ROM
- URI
- http://pub.maruzen.co.jp/cd_others/ko-pas/index.html
- Web日本語Nグラム第1版
- Type
- Text
- Type.linguistics
- n-gram
- Description
- Nグラムは一般に公開されている日本語のWebページでGoogleがクロールしたものから抽出されている。抽出対象となった文数は約200億文で、出現頻度20回以上の1 7グラムを収録している。
- Creator
- グーグル株式会社
- Contact person
- GSK (言語資源協会)
- Price
- GSK個人・会員21,000円、個人・非会員42,000円、団体・会員29,400円、団体・非会員58,800円。
- Subject.language
- 日本語
- Date
- 2007
- Rights
- 学術目的の利用に限る
- Format
- 6 DVD-ROM
- Format.encoding
- Unicode
- URI
- http://www.gsk.or.jp/catalog.html
- Usage Case
- (別ウィンドウに表示)
- Textual Entailment 評価データ
- Type
- Text
- Type.linguistics
- data collection
- Description
- 日本語のRTE(Recognizing Textual Entailment)の評価データ。評価データは約2700セットからなり、それぞれに4値の推論判定が付与されている。また、それぞれの評価セットを包含、語彙(体言)、語彙(用言)、構文、推論の5つのカテゴリに分類している。
- Creator
- 京都大学 黒橋・河原研究室
- Contact person
- 京都大学 黒橋・河原研究室 (nl-resourceあっとnlp.ist.i.kyoto-u.ac.jp)
- Price
- フリー
- Subject.language
- 日本語
- Date
- 2010
- URI
- http://nlp.ist.i.kyoto-u.ac.jp/index.php?Textual%20Entailment%20%E8%A9%95%E4%BE%A1%E3%83%87%E3%83%BC%E3%82%BF
- Baidu ブログ・掲示板時間軸コーパス
- Type
- Text
- Type.linguistics
- n-gram
- Description
- バイドゥ株式会社によってクロールされた掲示板の書き込みおよびブログの本文から抽出された日本語形態素Nグラム(1グラム〜3グラム)。2000年1月 2010年7月の期間における1ヶ月ごとの統計。
- Creator
- Baidu Japan
- Price
- フリー
- Date
- 2010
- Format.encoding
- UTF-8
- URI
- http://www.baidu.jp/corpus/
- Baidu 絵文字入りモバイルウェブコーパス
- Type
- Text
- Type.linguistics
- n-gram
- Description
- バイドゥ株式会社がモバイル検索に収集したWebデータを元に作成された日本語形態素 N-gram(1グラム〜5グラム)。絵文字の情報も形態素として含めている。
- Creator
- Baidu Japan
- Price
- フリー
- Date
- 2010
- Format.encoding
- UTF-8
- URI
- http://www.baidu.jp/corpus/
- 楽天データ
- Type
- Text
- Description
- 楽天が所有している様々なデータ。(1)楽天市場の全商品データ(5000万商品)。(2)楽天トラベルの施設データ(11,468施設)、レビューデータ(35万レビュー、34万評価)。(3)楽天GORAのゴルフ施設データ(1,669施設)、レビューデータ(32万レビュー)。NIIもしくはALAGINを通じて入手可能。
- Creator
- 楽天技術研究所
- Subject.language
- 日本語
- Date
- 2010
- URI
- http://rit.rakuten.co.jp/rdr/index.html
- ATR音声データベース
- Type
- Collection
- Description
- 6つのデータセットから構成される音声データベース。
- Creator
- 国際電気通信基礎技術研究所(ATR)
- Contact person
- ATR
- Subject.language
- 日本語, 英語
- Relation
- HasPart ATR音声DB(セットA)
HasPart ATR音声DB(セットB)
HasPart ATR音声DB(セットC)
HasPart ATR音声DB(セットD)
HasPart ATR音声DB(セットE)
HasPart ATR音声DB(セットF)
- URI
- http://www.red.atr.co.jp/database_main.html
- Usage Case
- (別ウィンドウに表示)
- ATR音声DB(セットA)
- Type
- Sound
- Type.linguistics
- transcription/read speech
- Description
- 日本語読み上げ音声データ。20話者。8,500単語。
- Creator
- 国際電気通信基礎技術研究所(ATR)
- Contact person
- ATR
- Price
- 600,000円 (研究用途)
- Subject.language
- 日本語
- Format
- 1 CD-ROM.
- Relation
- IsPartOf ATR音声データベース
- URI
- http://www.red.atr.co.jp/database_main.html
- ATR音声DB(セットB)
- Type
- Sound
- Type.linguistics
- transcription/read speech
- Description
- 日本語読み上げ音声データ。10話者。503文。
- Creator
- 国際電気通信基礎技術研究所(ATR)
- Contact person
- ATR
- Price
- 350,000円 (研究用途)
- Subject.language
- 日本語
- Format
- 1 CD-ROM.
- Relation
- IsPartOf ATR音声データベース
- URI
- http://www.red.atr.co.jp/database_main.html
- ATR音声DB(セットC)
- Type
- Sound
- Type.linguistics
- transcription/read speech
- Description
- 日本語読み上げ音声データ。20話者。84タイトル。
- Creator
- 国際電気通信基礎技術研究所(ATR)
- Contact person
- ATR
- Price
- 600,000円 (研究用途)
- Subject.language
- 日本語
- Format
- 1 CD-ROM.
- Relation
- IsPartOf ATR音声データベース
- URI
- http://www.red.atr.co.jp/database_main.html
- ATR音声DB(セットD)
- Type
- Sound
- Type.linguistics
- transcription/read speech
- Description
- 日本語読み上げ音声データ。4話者。400文書。
- Creator
- 国際電気通信基礎技術研究所(ATR)
- Contact person
- ATR
- Price
- 270,000円 (研究用途)
- Subject.language
- 日本語
- Format
- 1 CD-ROM.
- Relation
- IsPartOf ATR音声データベース
- URI
- http://www.red.atr.co.jp/database_main.html
- ATR音声DB(セットE)
- Type
- Sound
- Type.linguistics
- transcription/read speech
- Description
- 英語読み上げ音声データ。4話者。5,000単語。
- Creator
- 国際電気通信基礎技術研究所(ATR)
- Contact person
- ATR
- Price
- 270,000円 (研究用途)
- Subject.language
- 英語
- Format
- 1 CD-ROM.
- Relation
- IsPartOf ATR音声データベース
- URI
- http://www.red.atr.co.jp/database_main.html
- ATR音声DB(セットF)
- Type
- Sound
- Type.linguistics
- transcription/read speech
- Description
- 英語読み上げ音声データ。6話者。1,100文。
- Creator
- 国際電気通信基礎技術研究所(ATR)
- Contact person
- ATR
- Price
- 600,000円 (研究用途)
- Subject.language
- 英語
- Format
- 1 CD-ROM.
- Relation
- IsPartOf ATR音声データベース
- URI
- http://www.red.atr.co.jp/database_main.html
- ATR自然発話・言語DB
- Type
- Sound
- Type.linguistics
- transcription/dialogue
- Description
- 旅行代理店と顧客の模擬対話を収録した音声データ。5つのセットから成る。日本語での会話が892、日本語と英語での会話が618。書き起こし文と形態素情報も付加されている。
- Annotation.corpus
- word segmentation, part-of-speech
- Creator
- 国際電気通信基礎技術研究所(ATR)
- Contact person
- ATR
- Price
- 180,000円 (1セット当たり, 研究用途)
- Subject.language
- 日本語, 英語
- Format
- 4 CD-ROM.
- URI
- http://www.red.atr.co.jp/database_main.html
- ATR多数話者音声DB
- Type
- Collection
- Description
- 多数話者による音声データ。
- Creator
- 国際電気通信基礎技術研究所(ATR)
- Contact person
- ATR
- Subject.language
- 日本語
- Relation
- HasPart ATR多数話者音声DB(模擬会話)
HasPart ATR多数話者音声DB(音素バランス文)
HasPart ATR多数話者音声DB(辞書データ)
- URI
- http://www.red.atr.co.jp/database_main.html
- Usage Case
- (別ウィンドウに表示)
- ATR多数話者音声DB(模擬会話)
- Type
- Sound
- Type.linguistics
- transcription/conversation
- Description
- 多数の話者による音声データベース。3,774人の話者が会議のスケジューリングに関する模擬対話を行った。4つのセットから構成される。
- Creator
- 国際電気通信基礎技術研究所(ATR)
- Contact person
- ATR
- Price
- 180,000円 (1セット当たり, (研究用途), 1,000,000円 (1セット当たり, 商品化用途)
- Subject.language
- 日本語
- Format
- 3-5 CD-ROM per a set.
- Relation
- IsPartOf ATR多数話者音声DB
- URI
- http://www.red.atr.co.jp/database_main.html
- ATR多数話者音声DB(音素バランス文)
- Type
- Sound
- Type.linguistics
- transcription/read sentence
- Description
- 多数の話者による音声データベース。3,774人の話者が音素バランス文の読み上げを行った。4つのセットから構成される。
- Creator
- 国際電気通信基礎技術研究所(ATR)
- Contact person
- ATR
- Price
- 180,000円 (1セット当たり, 研究用途), 1,000,000円 (1セット当たり, 商品化用途)
- Subject.language
- 日本語
- Format
- 7-10 CD-ROM per a set.
- Relation
- IsPartOf ATR多数話者音声DB
- URI
- http://www.red.atr.co.jp/database_main.html
- ATR多数話者音声DB(辞書データ)
- Type
- Sound
- Type.linguistics
- transcription/read sentence
- Description
- 多数の話者による音声データベース。3,770人の話者が辞書データの読み上げを行った。
- Creator
- 国際電気通信基礎技術研究所(ATR)
- Contact person
- ATR
- Price
- 180,000円 (研究用途), 1,000,000円 (商品化用途)
- Subject.language
- 日本語
- Format
- 5 CD-ROM.
- Relation
- IsPartOf ATR多数話者音声DB
- URI
- http://www.red.atr.co.jp/database_main.html
- 日本音響学会研究用連続音声データベース
- Type
- Sound
- Type.linguistics
- transcription/dialogue
- Description
- 次の3つデータから成る音声データベース。(a) ATR 音素バランス 503文, 64話者(男性30名, 女性34名), のべ9600文。(b) 案内タスク文, 36話者(男性18名, 女性18名), のべ12474文。(c) 模擬対話37対話, 書き起こしテキスト付き, 37話者(男性29名, 女性8名)
- Creator
- 日本音響学会
- Contact person
- 西垣繁雄(〒105 港区芝公園3-5-8 機会振興会舘内 (財)日本情報処理開発協会 AIファジー振興センター tel 03-3432-9390, fax 03-3431-4324)
- Price
- 3090円+送料
- Subject.language
- 日本語
- Format
- 7 CD-ROM. Sampling: 16kHz, 16bits.
- Usage Case
- (別ウィンドウに表示)
- 日本音響学会 新聞記事読み上げ音声コーパス(JNAS)
- Type
- Sound
- Type.linguistics
- transcription/dialogue
- Description
- JNASとはJapanese Newspaper Article Sentencesの略。このコーパスは、毎日新聞記事とATR 音素バランス503文を306人の話者(男女そ れぞれ153名)が読み上げたデータとそのテキストから構成さ れている。発話はすべて日本語である。
- Creator
- 日本音響学会
- Contact person
- メディアドライブ株式会社 宮井千代子 chiyokoあっとmediadrive.co.jp
- Price
- 実費
- Subject.language
- 日本語
- Format
- 16 CD-ROM. Sampling: 16kHz, 16bits.
- URI
- http://www.milab.is.tsukuba.ac.jp/jnas/
- Usage Case
- (別ウィンドウに表示)
- 電総研道案内対話音声コーパス 1998
- Type
- Sound
- Type.linguistics
- transcription/dialogue
- Description
- Wizard of OZ法によって収録された、道案内に関する機械と人間との197個の対話から成る音声対話コーパス。人間の発話の音声データ・ピッチパターン・書き起し・発話の始端と終端・発話の意味表現からなる。
- Creator
- 電子技術総合研究所(現 産業技術総合研究所)
- Contact person
- 電子技術総合研究所(etlsdgあっとni.aist.go.jp)
- Price
- 郵送費
- Subject.language
- 日本語
- Date
- 1998
- Format
- 1 CD-ROM.
- URI
- http://akiba.media-interaction.jp/ETLSDG/
- 電総研音素バランス単語セット WD-I & II
- Type
- Sound
- Type.linguistics
- transcription/word
- Description
- 音素バランス単語セットの単語を男性話者が読み上げた音声データ。WD-Iは492語、WD-IIは1,542語から成る。WD-IはWD-IIの部分集合である。
- Creator
- 電子技術総合研究所(現 産業技術総合研究所)
- Contact person
- 田中 和世(kaz.tanakaあっとaist.go.jp)
- Price
- 郵送費
- Subject.language
- 日本語
- URI
- http://unit.aist.go.jp/is/speech/etlwd12a.html
- 電子協日本語共通音声データ--DAT版--
- Type
- Sound
- Description
- このコーパスは110音節、178単語、35個の4桁数字、計323個の単語を4回ずつ読み上げたデータである。録音時間は120時間で、76本のDATカセットに収められている。それぞれの単語は20歳から60歳の男女各75名ずつによって発音されている。合計のサンプル数は193,800である。
- Creator
- 日本電子工業振興協会(現 電子情報技術産業協会)
- Contact person
- 佐々木氏( サンライズミュージック, 〒106 東京都港区六本木 4-11-10 六本木富士ビル4階, Tel: 03-3408-6541, Fax: 03-3408-1505)
- Subject.language
- 日本語
- Format
- Sampling: 44kHz, 16bits.
- 連続音声(文科省 科研費 試験研究)
- Type
- Sound
- Type.linguistics
- transcription/
- Description
- 様々な単音節, 単語, 短文, 文章を6名の男女によって読み上げた音声データ。
- Creator
- 筑波大学 板橋研究室
- Contact person
- 板橋秀一(itahashiあっとmilab.is.tsukuba.ac.jp)
- Price
- フリー(CD-ROM版, 研究者のみ), 70,000円(DAT版)
- Subject.language
- 日本語
- Format
- CD-ROM or DAT. Sampling: 16kHz, 16bit.
- 方言音声データベース
- Type
- Sound
- Description
- 日本語の方言の音声データベース。大学、官公庁研究所に限る。
- Creator
- 田原 広史(大阪樟蔭女子大学), 江川 清(国立国語研究所)
- Contributor
- 文科省 科研費 重点領域 「日本語音声」
- Contact person
- 田原 広史(大阪樟蔭女子大学. Tel. 06-723-8181, Fax. 06-723-8881), 江川 清(国立国語研究所, Tel. 03-3900-3111, Fax. 03-3906-3530)
- Subject.language
- 日本語
- Format
- 19 Audio CD. 3 CD-ROM.
- 重点領域研究 音声対話コーパス
- Type
- Sound
- Type.linguistics
- transcription/dialogue
- Description
- 93対話の音声データと書き起こしテキスト。
- Creator
- 堂下修司
- Contributor
- 文科省 科研費 重点領域 「音声・言語・概念の統合的処理による対話の理解と生成に関する研究」
- Contact person
- メディアドライブ株式会社(juten-corpusあっとmediadrive.co.jp)
- Price
- 10,000 円
- Subject.language
- 日本語
- Format
- 4 CD-ROM.
- URI
- http://winnie.kuis.kyoto-u.ac.jp/taiwa-corpus/
- RWCP-DB-SPEECH-96-I (RWC音声対話データベース)
- Type
- Sound
- Type.linguistics
- transcription/dialogue
- Description
- 「海外旅行計画」24対話、「車の購入」24対話の音声波形と書き起こしテキスト。
現在、配布は一時停止されている。
- Creator
- Real World Computing Partnership, Japan
- Subject.language
- 日本語
- Format
- 4 CD-ROM.
- 東北大 -- 松下単語音声データベース
- Type
- Sound
- Description
- 単語音声データベース。大学、官公庁研究所に限る。
- Creator
- 牧野正三, 二矢田勝行, 真船裕雄, 城戸健一
- Contact person
- 牧野 正三(東北大学, Tel. +81-22-262-3469, Fax. +81-22-262-3469)
- 早大白井研 100地名単語データベース
- Type
- Sound
- Description
- 100個の地名の単語の音声データベース。12人の男性が2回ずつ読み上げた。
- Creator
- 早稲田大学白井研究室
- Contact person
- 大平 茂輝 (ohiraあっとshirai.info.waseda.ac.jp)
- Subject.language
- 日本語
- Format
- Sampling: 12.5kHz, 12bit.
- 京大堂下研 音素バランス単語セット
- Type
- Sound
- Description
- 音素バランス単語セットを男性28名、女性16名が読み上げたデータ。
- Creator
- 京都大学堂下研究室
- Contact person
- 河原 達也 (kawaharaあっとkuis.kyoto-u.ac.jp)
- Format
- Sampling: 16kHz, 16bit.
- パワーシフト コーパス V1-2009
- Type
- Sound
- Description
- 高齢者男女を被験者=話者として、当社指定のスタジオにて、「大正・昭和初期の思い出や子供の頃の遊びについて」という内容で、独白・自然発話の形で語ってもらった収録音声。
- Creator
- 株式会社 ストレードワード
- Publisher
- 株式会社 パワーシフト
- Contact person
- 株式会社 パワーシフト (http://www.powershift.co.jp/company/form.html)
- Price
- 550,000円 (税別)
- Subject.language
- 日本語
- URI
- http://www.powershift.co.jp/it/corpus.html
- JUMAN
- Type
- Software
- Type.functionality
- morphological analyzer
- Description
- ユーザによる拡張可能な日本語形態素解析ツール。最新のバージョンは7.0 (2012年1月現在)。
- Creator
- 京都大学 黒橋・河原研究室
- Contact person
- 京都大学 黒橋・河原研究室 (nl-resourceあっとnlp.ist.i.kyoto-u.ac.jp)
- Price
- フリー
- Subject.language
- 日本語
- Format
- 4 MB.
- Format.os
- unix,MSWindows
- Format.sourcecode
- C
- URI
- http://nlp.ist.i.kyoto-u.ac.jp/index.php?JUMAN
- Usage Case
- (別ウィンドウに表示)
- 茶筌
- Type
- Software
- Type.functionality
- morphological analyzer
- Description
- 茶筌はフリーの日本語形態素解析ツールである。JUMANに改良を加え、ツールとしての完成度を飛躍的に向上させた。奈良先端科学技術大学院大学 情報科学研究科 計算言語学研究室によって1997年2月19日にver.1.0がリリースされた。最新のバージョンは2002年2月8日にリリースされたver. 2.2.9である。
- Creator
- 奈良先端科学技術大学院大学 自然言語処理学講座
- Contact person
- 奈良先端科学技術大学 自然言語処理学講座(chasenあっとis.aist-nara.ac.jp)
- Price
- フリー
- Subject.language
- 日本語
- Format
- 3.3MB.
- Format.os
- unix,MSWindows
- Format.sourcecode
- C
- URI
- http://chasen.aist-nara.ac.jp/hiki/ChaSen/
- Usage Case
- (別ウィンドウに表示)
- すもも
- Type
- Software
- Type.functionality
- morphological analyzer
- Description
- 日本語の形態素解析ツール。最適解のみを高速に出力するようにカスタマイズされている。単純な未知語処理も行う。
- Creator
- NTTコミュニケーション科学研究所
- Contact person
- 鷲坂光一 (wasisakaあっとnttlabs.com), 山崎憲一 (yamazakiあっとt.onlab.ntt.co.jp)
- Price
- フリー
- Subject.language
- 日本語
- URI
- http://www.t.onlab.ntt.co.jp/sumomo/index.html
- Breakfast
- Type
- Software
- Type.functionality
- morphological analyzer
- Description
- 高速な形態素解析ツール。使用者が形態素文法を自由に記述できる点が特徴。
- Creator
- 富士通研究所
- Contact person
- 颯々野 学 (bf-staffあっとling.flab.fujitsu.co.jp)
- Price
- フリー
- Subject.language
- 日本語
- Format.os
- Windows 95, NT 3.51, NT 4.0
- URI
- http://www.labs.fujitsu.com/free/breakfast/index.html
- 和布蕪(MeCab)
- Type
- Software
- Type.functionality
- morphological analyzer
- Description
- 形態素解析ツール茶筌の別バージョン。茶筌より3〜4倍高速に動作する。
- Creator
- 奈良先端科学技術大学院大学 自然言語処理学講座
- Contact person
- 工藤拓(taku-kuあっとis.aist-nara.ac.jp)
- Price
- フリー
- Date
- 2001
- Format.os
- unix
- URI
- http://chasen.org/%7Etaku/software/mecab/
- Usage Case
- (別ウィンドウに表示)
- KyTea (京都テキスト解析ツールキット)
- Type
- Software
- Description
- 日本語など、単語(または形態素)分割を必要とする言語のための一般的なテキスト解析器。単語分割、読み推定、品詞推定の機能を持つ。ユーザが自分でモデルを学習することも可能。
- Creator
- Graham Neubig, 笹田鉄郎, 森信介
- Contact person
- Graham Neubig, 笹田鉄郎, 森信介
- Price
- フリー
- Subject.language
- 日本語ほか
- Date
- 2009
- Rights
- Apache License Version 2
- Format.os
- Linux, Mac OS X, Cygwin
- URI
- http://www.phontron.com/kytea/index-ja.html
- KNP
- Type
- Software
- Type.functionality
- syntactic analyzer
- Description
- 日本語の構文解析ツール。最初に入力文を文節に区切り、次に文節間の係り受け関係を解析する。最新のバージョンは4.0 (2012年1月現在)。
- Creator
- 京都大学 黒橋・河原研究室
- Contact person
- 京都大学 黒橋・河原研究室 (nl-resourceあっとnlp.ist.i.kyoto-u.ac.jp)
- Price
- フリー
- Subject.language
- 日本語
- Format
- 145 KB.
- Format.os
- unix
- Format.sourcecode
- C
- Relation
- Requires JUMAN
Requires 分類語彙表 増補改訂版 データベース (CD-ROM)
Requires EDR日本語単語辞書
Requires IPAL辞書(optional)
- URI
- http://nlp.ist.i.kyoto-u.ac.jp/index.php?KNP
- Usage Case
- (別ウィンドウに表示)
- MSLRパーザ
- Type
- Software
- Type.functionality
- morphological and syntactic analyzer
- Description
- MSLRパーザとそれに関連するツールをまとめたツールキット。MSLRパーザは形態素解析と構文解析を同時に行うLRパーザである。日本語解析のための標準辞書と文法が含まれる。さらに、ユーザは独自の辞書や文法を用いることもできる。
- Creator
- 東京工業大学
- Contact person
- 東京工業大学 徳永研究室 (mslrあっとcl.cs.titech.ac.jp)
- Price
- フリー
- Subject.language
- 日本語
- Format
- 1.5 MB.
- Format.os
- unix
- Format.sourcecode
- C
- Usage Case
- (別ウィンドウに表示)
- SAX
- Type
- Software
- Type.functionality
- Tool for syntactic analysis
- Description
- 拡張文脈自由文法の一つであるDCG(Definite Clause Grammar)に基づいて記述された文法をコンパイルして、上昇型チャート法に基づく構文解析Prologプログラムを生成するシステム。SICStus Prolog が必要。
- Creator
- 奈良先端科学技術大学院大学 自然言語処理学講座
- Contact person
- 奈良先端科学技術大学院大学 自然言語処理学講座 (nltあっとis.aist-nara.ac.jp)
- Price
- フリー
- URI
- http://chasen.naist.jp/sax.html
- Usage Case
- (別ウィンドウに表示)
- BUP
- Type
- Software
- Type.functionality
- Tool for syntactic analysis
- Description
- 拡張文脈自由文法の一つであるDCG(Definite Clause Grammar)に基づいて記述された文法をコンパイルして、左隅構文解析Prologプログラムを生成するシステム。SICStus Prolog が必要。
- Creator
- 奈良先端科学技術大学院大学 自然言語処理学講座
- Contact person
- 奈良先端科学技術大学院大学 自然言語処理学講座 (nltあっとis.aist-nara.ac.jp)
- Price
- フリー
- URI
- http://chasen.naist.jp/bup.html
- 南瓜(CaboCha)
- Type
- Software
- Type.functionality
- syntactic analyzer
- Description
- Support Vector Machine に基づく日本語係り受け解析器。
- Creator
- 奈良先端科学技術大学院大学 自然言語処理学講座
- Contact person
- 工藤拓(taku-kuあっとis.aist-nara.ac.jp)
- Price
- フリー
- Subject.language
- 日本語
- Date
- 2001
- Format.os
- unix, windows
- Relation
- Requires 茶筌
Requires YamCha
- URI
- http://chasen.org/%7Etaku/software/cabocha/
- Usage Case
- (別ウィンドウに表示)
- 美寿満 (ViJUMAN)
- Type
- Software
- Type.functionality
- Visualization tool for morphological analyzer
- Description
- 形態素解析ツール「JUMAN」の解析結果を視覚化するツール。
- Creator
- 奈良先端科学技術大学院大学 自然言語処理学講座
- Contact person
- 奈良先端科学技術大学院大学 自然言語処理学講座 (vijuman-admあっとcl.aist-nara.ac.jp)
- Price
- フリー
- Subject.language
- 日本語
- Format.os
- unix
- Relation
- Requires JUMAN
- URI
- http://chasen.naist.jp/vi4ma.html
- 美茶 (ViCha)
- Type
- Software
- Type.functionality
- Visualization tool for morphological analyzer
- Description
- 形態素解析ツール「茶筌」の解析結果を視覚化するツール。
- Creator
- 奈良先端科学技術大学院大学 自然言語処理学講座
- Contact person
- 奈良先端科学技術大学院大学 自然言語処理学講座 (vijuman-admあっとcl.aist-nara.ac.jp)
- Price
- フリー
- Subject.language
- 日本語
- Format.os
- unix
- Relation
- Requires 茶筌
- URI
- http://chasen.naist.jp/vi4ma.html
- Usage Case
- (別ウィンドウに表示)
- 構文解析過程表示システム (VisIPS)
- Type
- Software
- Type.functionality
- Visualization tool for syntactic analyzer
- Description
- 構文解析ツールのための視覚化ツール。CKY表や解析木を図示できる。
- Creator
- 奈良先端科学技術大学院大学 自然言語処理学講座
- Contact person
- 奈良先端科学技術大学院大学 自然言語処理学講座 (nltあっとis.aist-nara.ac.jp)
- Price
- フリー
- Format.os
- unix
- Relation
- Requires SAX
- URI
- http://chasen.naist.jp/visips.html
- SUFARY
- Type
- Software
- Type.functionality
- Tool for string matching
- Description
- Suffix arrayを用いた文字列検索ツール。
- Creator
- 奈良先端科学技術大学院大学 自然言語処理学講座
- Contact person
- 奈良先端科学技術大学院大学 自然言語処理学講座 (sufaryあっとcl.aist-nara.ac.jp)
- Price
- フリー
- Format.os
- unix
- Format.sourcecode
- C
- URI
- http://nais.to/%7Eyto/tools/sufary/
- Usage Case
- (別ウィンドウに表示)
- VisualMorphs
- Type
- Software
- Type.functionality
- assistant tool for constructing POS-tagged corpora
- Description
- 品詞タグ付きコーパス作成支援ツール。形態素解析システムの出力を表示・修正するためのGUIツール。
- Creator
- 奈良先端科学技術大学院大学 自然言語処理学講座
- Contact person
- 奈良先端科学技術大学院大学 自然言語処理学講座 (chasenあっとcl.aist-nara.ac.jp)
- Price
- フリー
- Subject.language
- 日本語
- Date
- 2001
- Format.os
- unix, windows
- Format.sourcecode
- java
- URI
- http://chasen.naist.jp/vm/index.html.ja
- Usage Case
- (別ウィンドウに表示)
- YamCha
- Type
- Software
- Type.functionality
- chunker
- Description
- 日本語の汎用chunker。カスタマイズが可能でオープンソース。Support Vectore Machineを利用している。
- Creator
- 奈良先端科学技術大学院大学 自然言語処理学講座
- Contact person
- 工藤拓(taku-kuあっとis.aist-nara.ac.jp)
- Price
- フリー
- Subject.language
- 日本語
- Date
- 2001
- Format.os
- unix
- URI
- http://chasen.org/%7Etaku/software/yamcha/
- Usage Case
- (別ウィンドウに表示)
- TinySVM
- Type
- Software
- Type.functionality
- machine learning tool
- Description
- 日本語の汎用chunker。カスタマイズが可能でオープンソース。Support Vectore Machineを利用している。
- Creator
- 奈良先端科学技術大学院大学 自然言語処理学講座
- Contact person
- 工藤拓(taku-kuあっとis.aist-nara.ac.jp)
- Price
- フリー
- Date
- 2001
- Format.os
- unix
- URI
- http://chasen.org/%7Etaku/software/TinySVM/
- Usage Case
- (別ウィンドウに表示)
- Lexical Chainers
- Type
- Software
- Type.functionality
- text processing
- Description
- テキスト中で互いに語彙的結束性を持つ語の連続である 語彙的連鎖(lexical chain)を計算するツール。
- Creator
- 望月源
- Contact person
- 望月源 (motizukiあっとtufs.ac.jp)
- Price
- フリー(研究目的に限る)
- Subject.language
- 日本語
- Format.os
- unix
- Format.sourcecode
- C
- URI
- http://www.tufs.ac.jp/ts/personal/motizuki/software/chainers/
- テキスト簡易要約器 Posum
- Type
- Software
- Type.functionality
- text summarizer
- Description
- 重要文抽出の手法に基づいてテキストを要約するツール。
- Creator
- 望月源
- Contact person
- 望月源 (motizukiあっとtufs.ac.jp)
- Price
- フリー(研究目的に限る)
- Subject.language
- 日本語
- Format.os
- unix
- Format.sourcecode
- C, perl
- Relation
- Requires Lexical Chainers
- URI
- http://www.tufs.ac.jp/ts/personal/motizuki/software/posumcl/
- Usage Case
- (別ウィンドウに表示)
- DL-MT
- Type
- Software
- Type.functionality
- text summarizer
- Description
- 日本語テキストを単語に区切り、各単語の英訳を表示する日本語学習者向け文書読解支援システム。
- Creator
- 望月源
- Contact person
- 望月源 (motizukiあっとtufs.ac.jp)
- Price
- フリー(研究目的に限る)
- Subject.language
- 日本語
- Format.os
- unix
- Format.sourcecode
- perl
- Relation
- Requires 茶筌
Requires EDICT
- URI
- http://www-cl.tufs.ac.jp/pub/tools/dlmt/index-j.html
- Julius
- Type
- Software
- Type.functionality
- speech recognition engine
- Description
- 大語彙連続音声認識ソフトウェア。単語3-gramと文脈依存な隠れマルコフモデルを採用している。
- Contact person
- juliusあっとkuis.kyoto-u.ac.jp
- Price
- free
- Subject.language
- 日本語
- Date
- 2002
- Format.os
- unix, windows
- Format.sourcecode
- C
- URI
- http://julius.sourceforge.jp/
- Usage Case
- (別ウィンドウに表示)
- Tagrin
- Type
- Software
- Type.functionality
- Annotation Tool
- Description
- 任意のタグ体系でテキストにタグを付与可能なツール。タグ付テキストはSGML形式でimport/export可能。 参考文献:「アノテーションツール"Tagrin"の紹介」 言語処理学会第12回年次大会予稿集, pp.228-231
- Creator
- 高橋哲朗
- Contact person
- 高橋哲朗
- Price
- フリー
- Format.os
- windows, linux (Tcl/Tk)
- URI
- http://kagonma.org/tagrin/
- Usage Case
- (別ウィンドウに表示)
- FuuTag
- Type
- Software
- Type.functionality
- Annotation Tool
- Description
- SGMLテキストにタグを付与するツール。初期設定では関根拡張NE体系に基づいているが、タグの種類は変更可能。
- Creator
- 関根聡
- Contact person
- 関根聡
- Price
- フリー
- Format.os
- unix, windows
- URI
- http://nlp.cs.nyu.edu/ene/
- Usage Case
- (別ウィンドウに表示)
- CRF++
- Type
- Software
- Description
- シンプル、カスタマイズ可能でオープンソースな条件付き確率場のツール。汎用ツールとして設計されているため、多くの自然言語処理タスクに使用できる。
- Creator
- 工藤拓
- Price
- フリー
- URI
- http://sourceforge.net/projects/crfpp/
- Minise: MIni Search Engine
- Type
- Software
- Type.functionality
- full text search tool
- Description
- Miniseは基本的な機能をサポートしたコンパクトな検索エンジン。検索対象の文章に対し索引を構築し,検索クエリに対する全文検索を行うことができる。 索引の種類として逐次検索、転置ファイル、N-gram、接尾辞配列をサポートする。主な利用用途として、小〜中規模(20万文書程度まで)の検索、また、研究用目的に使われることが想定されている。
- Creator
- 岡野原大輔
- Contact person
- 岡野原大輔
- Price
- フリー
- Date
- 2009
- Rights
- 研究利用に限る
- Format.os
- unix
- Format.sourcecode
- C++
- URI
- http://www-tsujii.is.s.u-tokyo.ac.jp/~hillbig/minise-j.htm
- ohmm: Online training for Hidden Markov Model
- Type
- Software
- Type.functionality
- library for training of Hidden Markov Model
- Description
- ohmmは隠れマルコフモデルのパラメタをOnline EMアルゴリズムを用いて学習するためのライブラリ。大規模なデータを利用した学習に対応し、数十万語規模の学習データを利用した学習が可能。また学習結果を他用途で利用できるような形で出力できる。
- Creator
- 岡野原大輔
- Contact person
- 岡野原大輔
- Price
- フリー
- Date
- 2009
- Format.os
- unix
- URI
- http://www-tsujii.is.s.u-tokyo.ac.jp/~hillbig/ohmm-j.htm
- OLL: オンライン学習ライブラリ
- Type
- Software
- Type.functionality
- library for online learning
- Description
- 様々なオンライン学習(Perceptron, Averaged Perceptron, Passive Agressive, ALMA, Confidence Weighted Linear-Classification)をサポートした機械学習ライブラリ。自然言語処理など、大規模、かつ疎な学習問題に最適化されている。これらのオンライン学習手法は速度面、作業領域面で非常に効率的(学習サンプル数、素性種類数に比例)でありながら、SVMsやMEsなどのバッチ学習と同程度の精度を達成する。学習、推定を行なうプログラムとC++ libraryを提供する。
- Creator
- 岡野原大輔
- Contact person
- 岡野原大輔
- Price
- フリー
- Date
- 2008
- Format.os
- unix
- Format.sourcecode
- C++
- URI
- http://code.google.com/p/oll/wiki/OllMainJa
- Bep: Associative Arrays for Very Large Collections
- Type
- Software
- Type.functionality
- library for associative array
- Description
- 大規模なコレクションからなる連想配列を扱うためのライブラリ。内部に最小完全ハッシュ関数を利用し、従来の実装に比べ少ない作業領域量でコレクションを保持する。
- Creator
- 岡野原大輔
- Contact person
- 岡野原大輔
- Price
- フリー
- Date
- 2007
- Format.os
- unix
- Format.sourcecode
- C++
- URI
- http://www-tsujii.is.s.u-tokyo.ac.jp/~hillbig/bep-j.htm
- Tx: Succinct Trie Data structure
- Type
- Software
- Type.functionality
- library for Trie
- Description
- コンパクトなTrieを構築するためのライブラリ。従来のTrieの実装に比べ1/4〜1/10の作業領域量で辞書を保持することができ、数億〜十億キーワードなど大規模な辞書を扱うことが可能。
- Creator
- 岡野原大輔
- Contact person
- 岡野原大輔
- Price
- フリー
- Date
- 2007
- Format.os
- unix
- Format.sourcecode
- C++
- URI
- http://code.google.com/p/tx-trie/
- CRFsuite
- Type
- Software
- Type.functionality
- tool for training of Conditional Random Field
- Description
- 系列ラベリング問題を解く条件付確率場(CRF)を高速に学習するツール。
- Creator
- 岡崎直観
- Contact person
- 岡崎直観
- Price
- フリー
- Date
- 2007
- Format.os
- Linux, Windows
- URI
- http://www.chokkan.org/software/crfsuite/
- Usage Case
- (別ウィンドウに表示)
- Classias
- Type
- Software
- Type.functionality
- machine learning tool
- Description
- 分類のための機械学習アルゴリズムのツール。分類モデルとして、L1/L2正則化ロジスティック回帰(最大エントロピー法)、L1/L2正則化L1損失線形カーネルサポートベクトルマシン(SVM)、平均化パーセプトロンをサポートしている。
- Creator
- 岡崎直観
- Contact person
- 岡崎直観
- Price
- フリー
- Date
- 2009
- Format.os
- Unix, Windows
- URI
- http://www.chokkan.org/software/classias/
- Usage Case
- (別ウィンドウに表示)
- MACCORI: Marginal Containers Covering Relevant Items
- Type
- Software
- Type.functionality
- tool for combinatorial optimization problem
- Description
- ナップザック問題に似た組み合わせ最適化問題の解を求めるツール。例えば、複数文書要約、すなわち与えられた文書集合から小数の重要文を抽出することに適用できる。
- Creator
- 岡崎直観
- Contact person
- 岡崎直観
- Price
- フリー
- Format.os
- Unix, Windows
- URI
- http://www.chokkan.org/software/maccori/
- SimString
- Type
- Software
- Type.functionality
- library for string search
- Description
- 類似文字列検索のための高速かつシンプルなライブラリ。文字列集合(データベース)の中から,クエリ文字列との類似度が閾値以上のものを見つけ出すことができる。スペル訂正、柔軟な辞書マッチング、重複レコード検出などが実現できる。
- Creator
- 岡崎直観
- Contact person
- 岡崎直観
- Price
- フリー
- Date
- 2010
- Format.os
- Unix
- Format.sourcecode
- C++
- URI
- http://www.chokkan.org/software/simstring/
- lda - a Latent Dirichlet Allocation package
- Type
- Software
- Type.functionality
- tool of Latent Dirichlet Allocation
- Description
- LDA(Latent Dirichlet Allocation)のパラメタ推定のためのツール。MATLABとC言語(コマンドライン)で実装されている。
- Creator
- 持橋大地
- Contact person
- 持橋大地
- Price
- フリー
- Format.os
- unix
- Format.sourcecode
- C, MATLAB
- URI
- http://chasen.org/~daiti-m/dist/lda/
- 茶器
- Type
- Software
- Type.functionality
- annotation tool
- Description
- 自然言語コーパスの構築、検索、および言語要素へのタグ付けをサポートするツール群。
- Creator
- 奈良先端科学技術大学院大学 自然言語処理学講座
- Contact person
- 奈良先端科学技術大学院大学 自然言語処理学講座
- Price
- フリー
- Format.os
- Windows
- URI
- http://sourceforge.jp/projects/chaki/releases/
- Usage Case
- (別ウィンドウに表示)
- 新茶
- Type
- Software
- Type.functionality
- predicate argument structure analyzer
- Description
- 日本語の述語項構造解析器。
- Creator
- 奈良先端科学技術大学院大学 自然言語処理学講座
- Contact person
- 奈良先端科学技術大学院大学 自然言語処理学講座
- Price
- フリー
- URI
- http://syncha.sourceforge.jp/
- Usage Case
- (別ウィンドウに表示)
- 夕茶
- Type
- Software
- Type.functionality
- predicate argument structure analyzer
- Description
- 日本語の述語項構造解析器。
- Creator
- 奈良先端科学技術大学院大学 自然言語処理学講座
- Contact person
- 林部祐太
- Price
- フリー
- Date
- 2010
- URI
- http://hayashibe.jp/yucha/
- 解析結果汎用表示ツールTableDisplay
- Type
- Software
- Type.functionality
- visualization tool
- Description
- 自然言語の解析結果を視覚的にわかりやすく表示するツール。CGIで実装されているため、多くのプラットフォームに対応している。
- Creator
- 京都大学 黒橋・河原研究室
- Contact person
- 京都大学 黒橋・河原研究室 (nl-resourceあっとnlp.ist.i.kyoto-u.ac.jp)
- Price
- フリー
- URI
- http://nlp.ist.i.kyoto-u.ac.jp/nl-resource/tabledisplay/index.cgi
- Usage Case
- (別ウィンドウに表示)
- 意味役割付与システム
- Type
- Software
- Type.functionality
- semantic role labeling
- Description
- 日本語入力文に対して述語項構造解析を行い,述語の語義を同定して,係り関係にある項の意味役割を付与するツール。
- Creator
- 岡山大学 竹内研究室
- Contact person
- 岡山大学 竹内研究室
- Price
- フリー
- URI
- http://cl.it.okayama-u.ac.jp/study/project/sea.html
- JACABIT Japanese term extraction system
- Type
- Software
- Type.functionality
- term extraction
- Description
- 品詞のパターンマッチによって日本語テキストから用語を抽出するフリーのツール。
- Creator
- 岡山大学 竹内研究室
- Contact person
- 岡山大学 竹内研究室
- Price
- フリー
- URI
- http://cl.cs.okayama-u.ac.jp/rsc/jacabit/index.html
- SAGACE (サガス)
- Type
- Software
- Type.functionality
- Concordancer and collocation extraction
- Description
- 日本語など、活用の(比較的に)少ない言語のコーパスの分析ソフト(コンコーダンサー)。主な機能は辞書を使用してコーパス中の語列のパターンを検索することである。CECILL(フリー)ライセンスで配布される。
- Creator
- Blin R.
- Contact person
- blinあっとehess.fr
- Price
- フリー
- Subject.language
- 日本語, 活用の少ない言語
- Format.os
- Linux
- URI
- http://crlao.ehess.fr/japonais-coreen/corpus/sagace/sagace_jp.html
- TETDM - Total Environment for Text Data Mining
- Type
- Software
- Type.functionality
- text mining tool
- Description
- テキストマイニングのための統合環境。10のマイニングツールと17の可視化ツールかなる。ユーザによるカスタマイズや改変が可能。
- Creator
- 人工知能学会 近未来チャレンジ Total Environment for Text Data Mining
- Contact person
- 砂山渡 (user-supportあっとtetdm.jp)
- Price
- フリー
- Format.os
- Windows (XP, Vista, 7), Mac OS X
- Format.sourcecode
- Java
- Relation
- Requires 茶筌
- URI
- http://www.sys.info.hiroshima-cu.ac.jp/people/sunayama/future/newfuture.html
- 専門用語(キーワード)自動抽出システム
- Type
- Software
- Description
- テキストから専門用語を自動的に抽出するツール。(1)形態素解析プログラムによる単語分割、(2)複合語の作成、(3)文章中における重要度の計算、という3つのステップを踏むことで、複合語により複雑な概念を表すことが多い専門用語を抽出する。日本語および英語を対象言語とする。ウェブサービス「言選Web」も提供している。
- Creator
- 中川裕志, 前田朗, 小島浩之
- Contributor
- 森辰則
- Contact person
- gs-webあっとmm.itc.u-tokyo.ac.jp
- Price
- フリー
- Subject.language
- 日本語, 英語
- Date
- 2003
- Format.sourcecode
- Perl module
- Relation
- References 茶筌
References 和布蕪(MeCab)
- URI
- http://gensen.dl.itc.u-tokyo.ac.jp/
言語情報処理ポータルのページへ戻る
nlp_portal あっと anlp.jp