Jcseg 1.8.8, Solr 4.3.1

今天用了 jcseg 中文分詞器,簡單好用,非常愉悅。按照〈Jcseg-开发帮助文档-1.8.8〉的說明,很容易就可以配置好。

  1. jcseg-1.8.8/ 裡的 jcseg-core-1.8.8.jar, jcseg-solr-1.8.8.jar, jcseg.properties, lexicon/ 複製到 Solr 的 lib/ 底下。
  2. 因為用不到拼音,所以將 jcseg.properties 當中的 jcseg.loadpinyin 設為 0
  3. 編輯之前提到的 core-nutch 的 schema.xml,將 text_general 欄位類型的 tokenizer 指定為 jcseg。(<tokenizer class="com.webssky.jcseg.solr.JcsegTokenizerFactory"/>)
  4. Jcseg 提供的詞庫是簡體中文的,所以在 lexicon/ 補上自己適用的詞庫。
  5. 重跑 Solr,此時 Solr 不應有任何的錯誤訊息,否則就是 jcseg 設定過程出了問題。
  6. 用 nutch solrindex 指令將之前 Nutch 抓過的 crawldb 重新匯入進 Solr,此時按照 Solr 的索引編製原理,會將匯入的資料、欄位類型為 text_general 者交由 jcseg 負責分詞而建立索引。
  7. 匯入完成後,可進 Web 管理介面測試 Query,記得勾選 debugQuery 選項,以獲取除錯資料,判斷所下的查詢,是否有按照預期的分詞。

已發佈

分類:

作者:

標籤:

留言

在〈Jcseg 1.8.8, Solr 4.3.1〉中有 1 則留言

  1. 「riff」的個人頭像
    riff

    哈,感谢分享。