作者: Hui-Hong YOU

  • Nutch 1.7 + Solr 4.3.1

    昨天被 Nutch 2.2.1 整得七葷八素,用一個工作天來證明這個版本完全不合用,晚上回住處,想到或許可以給 1.7 版一個機會?今天初步證實可用。

    • 從 Nutch 網站下載 apache-nutch-1.7-bin.tar.gz 回來解開 (~/apache-nutch-1.7/)
    • 把 Solr 預設的 core 範例 collection1 複製為 core-nutch
    • 把 Nutch 提供的 conf/schema-solr4.xml 覆蓋掉 Solr core-nutch 的 conf/schema.xml
    • 將 Solr core-nutch conf/schema.xml 補上一行漏掉的欄位設定 <field name="_version_" type="long" stored="true" indexed="true" multiValued="false"/>
    • 重開 Solr,進 Web 管理介面的 Core Admin 新增一個 core-nutch core,並且不該有這個新增 core 的錯誤訊息。
    • 回來 ~/apache-nutch-1.7/ 設定 Nutch。conf/ 底下先編輯 nutch-site.xml 補上 http.agent.name 的 crawler 名稱設定。
    • 再編輯 regex-urlfilter.txt 將最後一行 +. 註解掉,改為 +^http://my.site.domain.name 只抓我自己的網站
    • 再回到 ~/apache-nutch-1.7/,新增一個 urls/ 目錄,裡頭放一個 seed.txt,內容放自己想要抓的種子網址,這裡因為只想要抓自己的網站,所以只要放一行 http://my.site.domain.name/ 就好
    • 接下來跑 ./bin/nutch crawl urls/ -solr http://solr.server.name/solr/core-nutch/ -threads 20 -depth 2 -topN 3 測試能不能抓到網站上層的幾個網頁,到 Solr 管理介面裡頭用查詢功能如果有資料,就是成功了。
  • [Daily Digest] 2013-07-08

    Online resources:

    Murmurs:

    • 被 Nutch 擊倒。看不出問題所在的錯誤訊息、不符合預期的執行狀況,把我整得七葷八素。
  • DrupalCamp Taipei 2013 Day 2

    今天原本是沒有報名的,但是後來和 OSM Taiwan 的昕迪在 mailing list 約好,就還是跑來。但是也因為沒有報名,所以被盡責的工作人員攔下片刻,確認我不是什麼怪叔叔才讓我入場。

    主持 OSM Taiwan 這場 Drupalthon 的是 Charles Chuang

    今天收穫最多的就是從 Charles 分配給我的任務中學得 Microdata 和 Open Graph 的標記,我這個不長進的大叔,知識還停在 meta tag, Microformats, RDF Dublin Core。

    光是這點,今天就沒白活了啊!

    中間發現陪伴我多年的微軟光學精靈鯊滑鼠掛了,於是中午就直接殺到旁邊的光華商場,買午餐兼買一隻新滑鼠來用。這次決定使用無線滑鼠了,因為連續兩隻光學精靈鯊都壞在纜線的末端,因長期的折疊擠壓而內傷、接觸不良。若今天不是在北科這邊辦 DrupalCamp,懶人如我可能就這麼靠著筆電的小紅點和觸碰板撐個好一陣子。

    歸程的捷運上,跟東波請教了 OSM 資料應用的授權問題,同樣獲益良多。

    今天真是充實的一天,真是可喜可賀、可喜可賀。(←俗爛的日本動畫風格結尾)

  • DrupalCamp Taipei 2013 Day 1

    我應該是講者群裡第一個報到的吧?報到處有位志工頗親切的,還上前來要幫我導覽。

    早上因為頂著傷勢,其實狀況不太好。直到 WM 夶到場、找到我跟我抬槓之前,我都覺得半身痠痛、又帶些微頭疼,癱在位子上不想動。聊開了之後,感覺也好些了,我果然還是沒辦法當個離群索居的孤僻動物啊。

    今天看到的熟人除了 WM 夶,還有 OSM Taiwan 的東波、昕迪,Ubuntu Taiwan 的凍仁夶、魏喵,大學學妹 Yukiko,不曉得該說是同事還是前同事的正欣,特有生物研究保育中心的林旭宏老師。在我場次開始之前,也跟 Ubuntu Taiwan 的 BlueT 夶交流了一番。

    寫到這邊才發現,反而 Drupal Taiwan 我沒一個互相認識的啊啊啊。怎麼會這樣?

    早上兩場 keynotes 都很棒,蕭老師的 Open Data Overview 把脈絡交代得很清楚;Marc Robinsone Caballero 則是呈現了之前我從未知悉的東南亞 Drupal 社群樣貌。

    午餐的時候知道演講的場地是一般教室,突然放下了緊張的心頭大石,因為若像去年那樣在大廳裡面對聽眾,我一定又要拿出萬金油或涼舒來減緩緊張感。

    下午第一場我聽的是 John Wilkins 的題目,因為我這個在辦公室誇稱了 n 次:「我寫 CSS 比寫 PHP 還厲害」的傢伙,說什麼也要瞭解 Drupal 8 在前端、RWD 的進展。

    接下來我因為太過疲累,第二場就跳過了。

    第三場就是我的場次了,嚴格說來是我和 Jimmy 各講半場的場次。這次自評表現比去年好太多,而最大的缺點是沒把時間掌控好,不好意思讓 Jimmy 必須很趕地講完。

    Room A 的主持人「滿月」,辛苦您了,謹在此致上我的感謝。

    最後應頭頭要求(因為單位內也有很多 GIS 方面的應用需求),我直接留在 Room A 聽吳柏旻先生講「用 Drupal 打造 GIS 網站」,真的很受用,感謝他的心得分享。而同時間我就沒聽到好像也很精彩的閃電秀,只好期待之後會有錄影可以看。

  • 有些腦震盪的現象

    我想往後我會對那些講話、撰文看來顛三倒四,但是事實上很有誠意想要表達自己想法的人,多一點包容,因為我發現那個之前撰文總會斟酌再三的自己,發文後反覆讀了幾次,竟都沒有發現到用了贅字累詞,直到剛剛睡一覺起來,精神清醒些、頭昏噁心的感覺低了些,才看見。

    有很多事情,真要像青山學長當年教訓我這小屁孩的,要學著圓滑些,但又不似大學某學長倚老賣老所謂的「等你出社會就知道了」那樣隨波逐流、捨去自我。這些年來,隔著或長或短的間隔,生理的病痛、心理的煎熬總迭次找上門來,每每讓我學著反省。

  • 使命與自我定位,要認清,不要本末倒置

    很久很久以前,在 KKCity 上的台大圖資 BBS 上跟人討論到「圖資人負有文化傳承的使命」的問題。那時還無法交待清楚自己的想法。

    最近,可能是想得夠久了,加上拜研究所的某位教授,以及某些自稱「傳統圖書館館員」的朋友給我的觀感之賜,我現在好像可以很簡單的用一段話講完:「圖資人要知道自己做的是文化傳承的工作,但是不能反過來拿『文化人』往自己臉上貼金,更甚而當成不長進的藉口,抗拒學習不同載體的處理知識。對於使命、自我定位,不要分不清。哪裡有 information 要處理,那裡就該是 LIS 人的戰場。」