形態素解析済みコーパスの公開

更新履歴

このページについて

このページでは形態素解析済みのコーパスを公開しています。 本コーパスは、ウェブでフリーで公開されているテキストに対し、自動的に形態素解析を行い、その情報を付与したものです。 データのフォーマットは国立国語研究所で公開している全文検索システム『ひまわり』に準拠しています。 利用者の皆様は、本データをダウンロードし、『ひまわり』をパソコンにインストールすれば、 といった作業を簡単に行うことができます。

動作環境

本データを利用するのに必要な環境は以下の通りです。
[注意]
『青空文庫』の形態素解析済みコーパスをご利用になる場合には、ある程度性能の高いパソコンが必要です。特にWindowsパソコンの場合は2GB以上のメモリを必要とします。現在動作確認しているパソコンの仕様は以下の通りです。

公開データ

本サイトで公開しているコーパスは以下の2種類です。 また、形態素解析を行う際には以下の3種類の形態素解析ツールを使用しています。 したがって、2(コーパス)×3(ツール)=6種類のデータを公開しています。 好きなデータを選んでダウンロードして下さい。

ダウンロード

以下の表中の下線のあるファイル名をクリックするとデータをダウンロードできます。ファイルサイズが大きいので、ダウンロードの際にはご注意下さい。

  茶筌+UniDic 茶筌+IPAdic Juman
プロジェクト杉田玄白 JEITA_Genpaku_ChaSen_UniDic.zip
(約46MB)
JEITA_Genpaku_ChaSen_IPAdic.zip
(約37MB)
JEITA_Genpaku_Juman.zip
(約39MB)
青空文庫 JEITA_Aozora_ChaSen_UniDic_data1.zip
(約137MB)
JEITA_Aozora_ChaSen_IPAdic_data1.zip
(約110MB)
JEITA_Aozora_Juman_data1.zip
(約120MB)
JEITA_Aozora_ChaSen_UniDic_data2.zip
(約123MB)
JEITA_Aozora_ChaSen_IPAdic_data2.zip
(約99MB)
JEITA_Aozora_Juman_data2.zip
(約107MB)
JEITA_Aozora_ChaSen_UniDic_data3.zip
(約181MB)
JEITA_Aozora_ChaSen_IPAdic_data3.zip
(約145MB)
JEITA_Aozora_Juman_data3.zip
(約158MB)
JEITA_Aozora_ChaSen_UniDic_data4.zip
(約154MB)
JEITA_Aozora_ChaSen_IPAdic_data4.zip
(約123MB)
JEITA_Aozora_Juman_data4.zip
(約135MB)

青空文庫のデータは XXX_data1.zip 〜 XXX_data4.zip の4つのファイルで1セットになります。データの使用方法については XXX_data1.zip の中にある Readme.html をお読み下さい。

謝辞

本データを作成する際には多くの公開データ、ツールを使わせていただいております。次の方々に深く感謝いたします。

その他


言語情報処理ポータルに戻る