[注意]
『青空文庫』の形態素解析済みコーパスをご利用になる場合には、ある程度性能の高いパソコンが必要です。特にWindowsパソコンの場合は2GB以上のメモリを必要とします。現在動作確認しているパソコンの仕様は以下の通りです。
- Windows XP, Intel Xeon CPU 5140 @ 2.33GHz, メモリ 2GB
- Mac OS X 10.5.8, Intel Core 2 Duo 1.8GHz, メモリ 2GB
以下の表中の下線のあるファイル名をクリックするとデータをダウンロードできます。ファイルサイズが大きいので、ダウンロードの際にはご注意下さい。
| 茶筌+UniDic | 茶筌+IPAdic | Juman | |
|---|---|---|---|
| プロジェクト杉田玄白 | JEITA_Genpaku_ChaSen_UniDic.zip (約46MB) |
JEITA_Genpaku_ChaSen_IPAdic.zip (約37MB) |
JEITA_Genpaku_Juman.zip (約39MB) |
| 青空文庫 | JEITA_Aozora_ChaSen_UniDic_data1.zip (約137MB) |
JEITA_Aozora_ChaSen_IPAdic_data1.zip (約110MB) |
JEITA_Aozora_Juman_data1.zip (約120MB) |
| JEITA_Aozora_ChaSen_UniDic_data2.zip (約123MB) |
JEITA_Aozora_ChaSen_IPAdic_data2.zip (約99MB) |
JEITA_Aozora_Juman_data2.zip (約107MB) |
|
| JEITA_Aozora_ChaSen_UniDic_data3.zip (約181MB) |
JEITA_Aozora_ChaSen_IPAdic_data3.zip (約145MB) |
JEITA_Aozora_Juman_data3.zip (約158MB) |
|
| JEITA_Aozora_ChaSen_UniDic_data4.zip (約154MB) |
JEITA_Aozora_ChaSen_IPAdic_data4.zip (約123MB) |
JEITA_Aozora_Juman_data4.zip (約135MB) |
青空文庫のデータは XXX_data1.zip 〜 XXX_data4.zip の4つのファイルで1セットになります。データの使用方法については XXX_data1.zip の中にある Readme.html をお読み下さい。
(社)電子情報技術産業協会 (JEITA)
知識情報処理技術委員会
言語資源分科会
連絡先:![]()