月份: 2013 年 7 月

  • [Daily Digest] 2013-07-10

    Online resources:

    Murmurs:

    • 畢業之後,最大的感慨就是,看到往日同儕還在為了尋得萬能的銀子彈而汲汲營營。我不否認「手動工具比徒手蠻幹省力、電動氣動工具比手動工具省力」追求更好的工具基本上是沒錯的,但是現實的場景需要的是多種工具的互相配合,不是一件萬能工具解決一切。
  • Nutch 1.7 + Solr 4.3.1

    昨天被 Nutch 2.2.1 整得七葷八素,用一個工作天來證明這個版本完全不合用,晚上回住處,想到或許可以給 1.7 版一個機會?今天初步證實可用。

    • 從 Nutch 網站下載 apache-nutch-1.7-bin.tar.gz 回來解開 (~/apache-nutch-1.7/)
    • 把 Solr 預設的 core 範例 collection1 複製為 core-nutch
    • 把 Nutch 提供的 conf/schema-solr4.xml 覆蓋掉 Solr core-nutch 的 conf/schema.xml
    • 將 Solr core-nutch conf/schema.xml 補上一行漏掉的欄位設定 <field name="_version_" type="long" stored="true" indexed="true" multiValued="false"/>
    • 重開 Solr,進 Web 管理介面的 Core Admin 新增一個 core-nutch core,並且不該有這個新增 core 的錯誤訊息。
    • 回來 ~/apache-nutch-1.7/ 設定 Nutch。conf/ 底下先編輯 nutch-site.xml 補上 http.agent.name 的 crawler 名稱設定。
    • 再編輯 regex-urlfilter.txt 將最後一行 +. 註解掉,改為 +^http://my.site.domain.name 只抓我自己的網站
    • 再回到 ~/apache-nutch-1.7/,新增一個 urls/ 目錄,裡頭放一個 seed.txt,內容放自己想要抓的種子網址,這裡因為只想要抓自己的網站,所以只要放一行 http://my.site.domain.name/ 就好
    • 接下來跑 ./bin/nutch crawl urls/ -solr http://solr.server.name/solr/core-nutch/ -threads 20 -depth 2 -topN 3 測試能不能抓到網站上層的幾個網頁,到 Solr 管理介面裡頭用查詢功能如果有資料,就是成功了。
  • [Daily Digest] 2013-07-08

    Online resources:

    Murmurs:

    • 被 Nutch 擊倒。看不出問題所在的錯誤訊息、不符合預期的執行狀況,把我整得七葷八素。
  • DrupalCamp Taipei 2013 Day 2

    今天原本是沒有報名的,但是後來和 OSM Taiwan 的昕迪在 mailing list 約好,就還是跑來。但是也因為沒有報名,所以被盡責的工作人員攔下片刻,確認我不是什麼怪叔叔才讓我入場。

    主持 OSM Taiwan 這場 Drupalthon 的是 Charles Chuang

    今天收穫最多的就是從 Charles 分配給我的任務中學得 Microdata 和 Open Graph 的標記,我這個不長進的大叔,知識還停在 meta tag, Microformats, RDF Dublin Core。

    光是這點,今天就沒白活了啊!

    中間發現陪伴我多年的微軟光學精靈鯊滑鼠掛了,於是中午就直接殺到旁邊的光華商場,買午餐兼買一隻新滑鼠來用。這次決定使用無線滑鼠了,因為連續兩隻光學精靈鯊都壞在纜線的末端,因長期的折疊擠壓而內傷、接觸不良。若今天不是在北科這邊辦 DrupalCamp,懶人如我可能就這麼靠著筆電的小紅點和觸碰板撐個好一陣子。

    歸程的捷運上,跟東波請教了 OSM 資料應用的授權問題,同樣獲益良多。

    今天真是充實的一天,真是可喜可賀、可喜可賀。(←俗爛的日本動畫風格結尾)

  • DrupalCamp Taipei 2013 Day 1

    我應該是講者群裡第一個報到的吧?報到處有位志工頗親切的,還上前來要幫我導覽。

    早上因為頂著傷勢,其實狀況不太好。直到 WM 夶到場、找到我跟我抬槓之前,我都覺得半身痠痛、又帶些微頭疼,癱在位子上不想動。聊開了之後,感覺也好些了,我果然還是沒辦法當個離群索居的孤僻動物啊。

    今天看到的熟人除了 WM 夶,還有 OSM Taiwan 的東波、昕迪,Ubuntu Taiwan 的凍仁夶、魏喵,大學學妹 Yukiko,不曉得該說是同事還是前同事的正欣,特有生物研究保育中心的林旭宏老師。在我場次開始之前,也跟 Ubuntu Taiwan 的 BlueT 夶交流了一番。

    寫到這邊才發現,反而 Drupal Taiwan 我沒一個互相認識的啊啊啊。怎麼會這樣?

    早上兩場 keynotes 都很棒,蕭老師的 Open Data Overview 把脈絡交代得很清楚;Marc Robinsone Caballero 則是呈現了之前我從未知悉的東南亞 Drupal 社群樣貌。

    午餐的時候知道演講的場地是一般教室,突然放下了緊張的心頭大石,因為若像去年那樣在大廳裡面對聽眾,我一定又要拿出萬金油或涼舒來減緩緊張感。

    下午第一場我聽的是 John Wilkins 的題目,因為我這個在辦公室誇稱了 n 次:「我寫 CSS 比寫 PHP 還厲害」的傢伙,說什麼也要瞭解 Drupal 8 在前端、RWD 的進展。

    接下來我因為太過疲累,第二場就跳過了。

    第三場就是我的場次了,嚴格說來是我和 Jimmy 各講半場的場次。這次自評表現比去年好太多,而最大的缺點是沒把時間掌控好,不好意思讓 Jimmy 必須很趕地講完。

    Room A 的主持人「滿月」,辛苦您了,謹在此致上我的感謝。

    最後應頭頭要求(因為單位內也有很多 GIS 方面的應用需求),我直接留在 Room A 聽吳柏旻先生講「用 Drupal 打造 GIS 網站」,真的很受用,感謝他的心得分享。而同時間我就沒聽到好像也很精彩的閃電秀,只好期待之後會有錄影可以看。