在暗黑圖資界看 NoSQL

最近因為 Web 2.0 站台資料儲存的 scaling 議題,以及雲端運算正夯的關係,很多地方開始用起了所謂非關聯式資料庫的資料倉儲軟體 (Non-relational Data Stores),俗稱 NoSQL。因為這些東西真是夠噱頭,所以連我也忍不住拿了一些像是 Tokyo Cabinet, MongoDB, Cassandra 的 NoSQL 產品來玩。

要先說明的是,這些 NoSQL 產品跟既有的關聯式資料庫產品(如 MySQL, PostgreSQL, MS SQL Server, Oracle 等)並不是打對台、有你就沒有我的關係,而是必須相輔相成、互補不足、各有擅場的,而這些 NoSQL 產品也各有差異。所以想玩的人就看自己需求挑幾款適合的來玩、來學,並不需要有什麼選邊站的考量。

那麼,我又是根據什麼需求來評估、導入 NoSQL 產品?那是因為我在實務中遭遇到了暗黑圖資界、數位典藏界的 schemaless data, semi-structured data, hierarchical data structure,比如像是 XML 和 MARC,拿關聯式資料庫來處理,做起來會讓人血尿控訴的問題。當我看到了某些 NoSQL 產品可以較容易處理這類資料時,我的眼鏡突然閃過一道光芒(請參考名偵探柯南)。

我看過、用過、經手過的數位典藏系統環境,讀多於寫、數位物件佔用空間的問題比其後設資料要大,看起來很像是 flickr 這類相簿網站的架構,卻又因為每個單位自己做自己各自的系統,所以個體規模又沒大到需要擔心 scaling 的問題;倒是為了常要遷就關聯式資料庫,而讓原本就不太能打平的資料結構硬要打平,反倒丟失了原有結構所能呈現的較嚴謹的語意。又或者用了超級恐怖的方式去把這些半結構化資料放進去關聯式資料庫、再用非常可怕的方式讀出來,反而失去了關連、正規化的意義,又耗掉可觀的效能。

所以我才想要找這類 document store, native XML database 的解決方案。

或許有人看到這裡會跟我介紹有「某字母系統」這種東西,我只能說,我不是沒用過,使用過的觀感,實在是很無言。而且呢,「某字母系統」並不是可以自由取得的,遑論使用、修改、散佈。

所以我才想要找這類 document store, native XML database 的 Free Software or Open Source Software 解決方案,好重新發明輪子。

目前我看到、想到幾組有趣的組合是:

我希望能夠提供一組 F/OSS 的「統整資源管理系統」,讓圖資機構原先設計還算不錯的後設資料結構,所產出的後設資料,就悉數存進去、讀出來啊(而且還要很好存、很好讀),何苦東減西扣的?

附註:標題為少年漫畫常見梗,純無厘頭,謝絕借題發揮。


已發佈

分類:

作者:

標籤:

留言

在〈在暗黑圖資界看 NoSQL〉中有 1 則留言

  1. […] This post was mentioned on Twitter by grazewind. grazewind said: 分享 http://ghostsinthelab.org/?p=2060 (在暗黑圖資界看 NoSQL « hiroshi yui)(這部份我不熟,可是覺得蠻重要的。) http://plurk.com/p/4y76yn […]