Jcseg 1.8.8, Solr 4.3.1

今天用了 jcseg 中文分詞器，簡單好用，非常愉悅。按照〈Jcseg-开发帮助文档-1.8.8〉的說明，很容易就可以配置好。

將 jcseg-1.8.8/ 裡的 jcseg-core-1.8.8.jar, jcseg-solr-1.8.8.jar, jcseg.properties, lexicon/ 複製到 Solr 的 lib/ 底下。
因為用不到拼音，所以將 jcseg.properties 當中的 jcseg.loadpinyin 設為 0。
編輯之前提到的 core-nutch 的 schema.xml，將 text_general 欄位類型的 tokenizer 指定為 jcseg。(<tokenizer class="com.webssky.jcseg.solr.JcsegTokenizerFactory"/>)
Jcseg 提供的詞庫是簡體中文的，所以在 lexicon/ 補上自己適用的詞庫。
重跑 Solr，此時 Solr 不應有任何的錯誤訊息，否則就是 jcseg 設定過程出了問題。
用 nutch solrindex 指令將之前 Nutch 抓過的 crawldb 重新匯入進 Solr，此時按照 Solr 的索引編製原理，會將匯入的資料、欄位類型為 text_general 者交由 jcseg 負責分詞而建立索引。
匯入完成後，可進 Web 管理介面測試 Query，記得勾選 debugQuery 選項，以獲取除錯資料，判斷所下的查詢，是否有按照預期的分詞。

留言