今天用了 jcseg 中文分詞器,簡單好用,非常愉悅。按照〈Jcseg-开发帮助文档-1.8.8〉的說明,很容易就可以配置好。
- 將
jcseg-1.8.8/
裡的jcseg-core-1.8.8.jar
,jcseg-solr-1.8.8.jar
,jcseg.properties
,lexicon/
複製到 Solr 的lib/
底下。 - 因為用不到拼音,所以將
jcseg.properties
當中的jcseg.loadpinyin
設為0
。 - 編輯之前提到的 core-nutch 的
schema.xml
,將text_general
欄位類型的 tokenizer 指定為 jcseg。(<tokenizer class="com.webssky.jcseg.solr.JcsegTokenizerFactory"/>
) - Jcseg 提供的詞庫是簡體中文的,所以在
lexicon/
補上自己適用的詞庫。 - 重跑 Solr,此時 Solr 不應有任何的錯誤訊息,否則就是 jcseg 設定過程出了問題。
- 用 nutch solrindex 指令將之前 Nutch 抓過的 crawldb 重新匯入進 Solr,此時按照 Solr 的索引編製原理,會將匯入的資料、欄位類型為
text_general
者交由 jcseg 負責分詞而建立索引。 - 匯入完成後,可進 Web 管理介面測試 Query,記得勾選 debugQuery 選項,以獲取除錯資料,判斷所下的查詢,是否有按照預期的分詞。
留言
在〈Jcseg 1.8.8, Solr 4.3.1〉中有 1 則留言
哈,感谢分享。