Hiroshi Y.

    • About
    • Privacy Policy
  • [Daily Digest] 2013-07-18

    2013-07-18

    Online resources:

    • 苗栗縣政府強拆大埔4戶即時報導 | 苦勞網
    • 快訊反大埔拆遷楊儒門總統府前潑漆 | 即時新聞 | 20130718 | 蘋果日報
    • The first Go program – The Go Blog
    • Re: Why mobile web apps are slow | Blog: timdream
    • 組み込み用Ruby「mruby」でモノ作りを始めよう – マイコンボードでmrubyを動かす:ITpro
    • 使用Eclipse快樂的mruby開發
    • Why you shouldn’t worry that the NSA is inside Android’s code | ZDNet
    • Solidot | Slackware二十周年
    • Solidot | 秘鲁将为穷人免费安装太阳能
    • 馬來西亞柔佛州議員在台抗議設石化工廠 – BBC中文網 – 國際
    • 用电扇驱蚊效果好 – 纽约时报中文网 国际纵览
    • friso – C语言开源高性能中文分词组件,C语言mmseg中文分词器 《狮子的魂》 – Google Project Hosting
    • 【華光社區文史巡禮】台北刑務所與他日本血統的兄弟們 | 台灣環境資訊協會-環境資訊中心
    • 苗栗大埔張藥房的最後一夜 | 台灣好生活電子報
    • 食補如何挑紅棗?捏皮看屁股,支持苗栗農民轉型努力 – 上下游News&Market新聞市集
    • NTP 的網路資源

    Murmurs:

    • 被本日眾多負面新聞惹得心情非常低落。
  • [Daily Digest] 2013-07-17

    2013-07-17

    Online resources:

    • Plurk Open Source – Loso Chinese Segmentation System
    • Type is Beautiful » Adjustable Font 簡介
    • 如何让搜索引擎抓取AJAX内容? – 阮一峰的网络日志
    • Intel In Bed with NSA
    • OS X apps on their way to Linux courtesy of Darling project | ZDNet
    • 夏日鮮味:淺海發光的竹筴魚 – 上下游News&Market新聞市集

    Murmurs:

    • 寶塚一百週年!
    • 報了「COSCUP 2013 Hands-on:一小時 Firefox OS App 就上手 – Mozilla Taipei 工程師團隊」。
  • 濾掉 Unicode Private Use 的字

    2013-07-17

    整理生物俗名詞庫時,發現資料來源塞了很多前人自造的字,放在 Private Use Areas,很多程式遇到這類字元就爛掉,所以不得不把它們濾除。

    因為在 Unicode 以及衍生的一系列編碼,這樣的私用造字是合規範的,所以原本以為用 iconv 或 Ruby 的 encode 把 UTF-8 先轉 UTF-16、再轉回 UTF-8 這樣「過」一次水可以搞定,結果這些字還是好端端地在那邊。

    如果用 Big5 這個字收錄太少的編碼來濾,又會濾掉太多無辜的字元,所以轉個彎,想到用 EUC-TW 來濾,就可以取得折衷。

    最後再用 diff 查看過濾前後的差異,找到真正是私用造字的所在,予以編修,這樣比起用工人智慧直接掃讀整份文件要好辨識得多,錯漏的地方也就少了。

  • [Daily Digest] 2013-07-16

    2013-07-16

    Online resources:

    • Myron Marston » The Plan for RSpec 3
    • 別讓洪仲丘事件成為仇軍/廢軍的理由
    • 護衛少數的尊嚴 – 楊照部落格 – Yahoo!奇摩部落格
    • 高官們,別把人命當玩具! | 台灣好生活電子報
    • 雨蒼的終端機: 國軍問題在於制度
    • 帶照相手機應處申誡 洪仲丘枉死 – 新頭殼 newtalk
    • スマホ普及、日本38% 先進国で最低水準:日本経済新聞 不敢置信…
    • Bill Gates:Microsoft Bob 概念將重生 | 即時新聞 | iThome online
    • Solidot | CTRL + ALT + DELETE的历史
    • 博物館優質化 宜縣推動認證 | 基宜花東 | 地方新聞 | 聯合新聞網
    • 我的組合語言、基礎化學教學網頁
    • xv6-rpi – xv6 for Raspberry Pi – Google Project Hosting
  • Jcseg 1.8.8, Solr 4.3.1

    2013-07-16

    今天用了 jcseg 中文分詞器,簡單好用,非常愉悅。按照〈Jcseg-开发帮助文档-1.8.8〉的說明,很容易就可以配置好。

    1. 將 jcseg-1.8.8/ 裡的 jcseg-core-1.8.8.jar, jcseg-solr-1.8.8.jar, jcseg.properties, lexicon/ 複製到 Solr 的 lib/ 底下。
    2. 因為用不到拼音,所以將 jcseg.properties 當中的 jcseg.loadpinyin 設為 0。
    3. 編輯之前提到的 core-nutch 的 schema.xml,將 text_general 欄位類型的 tokenizer 指定為 jcseg。(<tokenizer class="com.webssky.jcseg.solr.JcsegTokenizerFactory"/>)
    4. Jcseg 提供的詞庫是簡體中文的,所以在 lexicon/ 補上自己適用的詞庫。
    5. 重跑 Solr,此時 Solr 不應有任何的錯誤訊息,否則就是 jcseg 設定過程出了問題。
    6. 用 nutch solrindex 指令將之前 Nutch 抓過的 crawldb 重新匯入進 Solr,此時按照 Solr 的索引編製原理,會將匯入的資料、欄位類型為 text_general 者交由 jcseg 負責分詞而建立索引。
    7. 匯入完成後,可進 Web 管理介面測試 Query,記得勾選 debugQuery 選項,以獲取除錯資料,判斷所下的查詢,是否有按照預期的分詞。
  • [Daily Digest] 2013-07-15

    2013-07-15

    Online resources:

    • Montage – HTML5 framework
    • A Review of Chinese Word Lists Accessible on the Internet
    • 讓田陪著我:專訪「宜蘭小田田」農事管理員吳佳玲 – 上下游News&Market新聞市集
    • 今朝不義,看我「原」在一起行動 記金曲獎光榮時刻 | [POTS]
    • 近日陸軍洪姓下士疑遭凌虐致死案,據報導有國防部陸軍官員表示將二六九旅前少尉呂姓醫官依過失致死罪嫌移送法辦。醫勞盟秉持維護醫療勞動人權初衷以及同為醫界一份子的責任,對此不合理也無法被接受的粗率做法提出嚴正抗議。

    Murmurs:

    我想把輕鬆輸入法重新撿起來維護,畢竟不是每個人都會使用注音符號系統,要人學習拆字型輸入法,對某些人來說是個踏入電腦世界的超高門檻。

    比如說,我爸當年其實是學倉頡輸入法的,而同時開始學電腦的我比較背骨,堅持不用這種拆碼方式詭異、例外規則超阿雜的輸入法,寧願用注音慢慢打,但是時間一久,當年打字像在飛的爸爸,現在倉頡輸入法全忘光了,反而回來使用注音輸入法。

    問題就在於他對注音符號系統並不熟稔,以有些「台灣國語」的腔調去拼注音,有時就不曉得為何打不出預期的字。這時,借自取倉頡頭尾兩碼的「簡易輸入法」概念,但是沒有那堆奇奇怪怪變形字根的輕鬆輸入法,應該會是個不錯的解決方案。

    輕鬆輸入法本身就有詞庫的設計了,如果再配上一個自動選字的引擎,類似自由行列、超注音這樣,應該就會更好用。

←上一頁 下一頁→
「Hui-Hong YOU」的個人頭像

「喵喔,我是貓。」

  • GitHub
  • Mail

Hiroshi Y.

個人雜記

使用 WordPress 設計

This website uses cookies to improve your experience. We'll assume you're ok with this, but you can opt-out if you wish. Accept Read More
Privacy & Cookies Policy

Privacy Overview

This website uses cookies to improve your experience while you navigate through the website. Out of these, the cookies that are categorized as necessary are stored on your browser as they are essential for the working of basic functionalities of the website. We also use third-party cookies that help us analyze and understand how you use this website. These cookies will be stored in your browser only with your consent. You also have the option to opt-out of these cookies. But opting out of some of these cookies may affect your browsing experience.
Necessary
Always Enabled
Necessary cookies are absolutely essential for the website to function properly. This category only includes cookies that ensures basic functionalities and security features of the website. These cookies do not store any personal information.
Non-necessary
Any cookies that may not be particularly necessary for the website to function and is used specifically to collect user personal data via analytics, ads, other embedded contents are termed as non-necessary cookies. It is mandatory to procure user consent prior to running these cookies on your website.
SAVE & ACCEPT