Logo Questions Linux Laravel Mysql Ubuntu Git Menu
 

what is the MeCab output and the tagset?

Can someone enlighten me on the MeCab default output? what annotation does the MeCab output and where can i find the tagset for the morpho analyzer

http://mecab.sourceforge.net/

can anyone decipher this output from MeCab?

<s>
ブギス・ジャンクション ブギス・ジャンクション ブギス・ジャンクション 名詞-一般       
に   ニ   に   助詞-格助詞-一般       
は   ハ   は   助詞-係助詞      
最も  モットモ    最も  副詞-一般       
買い  カイ  買う  動詞-自立   五段・ワ行促音便    連用形
物慣れ モノナレ    物慣れる    動詞-自立   一段  連用形
し   シ   する  動詞-自立   サ変・スル   連用形
た   タ   た   助動詞 特殊・タ    基本形
人々  ヒトビト    人々  名詞-一般       
を   ヲ   を   助詞-格助詞-一般       
も   モ   も   助詞-係助詞      
魅了  ミリョウ    魅了  名詞-サ変接続     
する  スル  する  動詞-自立   サ変・スル   基本形
品   シナ  品   名詞-一般       
揃え  ソロエ 揃える 動詞-自立   一段  連用形
が   ガ   が   助詞-格助詞-一般       
あり  アリ  ある  動詞-自立   五段・ラ行   連用形
ます  マス  ます  助動詞 特殊・マス   基本形
。   。   。   記号-句点       
</s>
like image 773
alvas Avatar asked Apr 07 '11 09:04

alvas


1 Answers

The output format in your example appears to be chasen2, which is defined in the dicrc file. That would be:

; ChaSen (include spaces)
node-format-chasen2 = %M\t%f[7]\t%f[6]\t%F-[0,1,2,3]\t%f[4]\t%f[5]\n
unk-format-chasen2  = %M\t%m\t%m\t%F-[0,1,2,3]\t\t\n
eos-format-chasen2  = EOS\n

For a normal node format, that would be:

1. surface value, including any whitespace
2. \t
3. reading
4. \t
5. root form
6. \t
7. part of speech
8. part of speech, subtype 1
9. part of speech, subtype 2
10. part of speech, subtype 3
11. \t
12. conjugation
13. \t
14. inflection
15. newline

where items 7 through 10 are hyphen-delimited.

For further details, you should see the 出力フォーマット documentation for mecab.

EDIT: updated link to the MeCab output formatting explanation page.

like image 198
buruzaemon Avatar answered Dec 04 '22 22:12

buruzaemon