Indexing and abstracting上課筆記

representation 
來個好可怕的字,背了很重的社會學意涵。不過在這裡只有要用到很簡單的意思,是one thing stands for another之意。

索引與摘要就是一種representation,也是將散落的不同文件聚集起來的方式。
"The main purpose of indexing and abstracting is to construct representations of published items in a form suitable for inclusion in some type of database”(Lancaster,2003)

紅綠燈也是一種representation,代表了紅燈停綠燈行闖紅燈被罰,不闖才是好國民等等複雜的訊息。
「小綠人」是臺北交通號誌的一大特色。 圖片來源:http://www.taipei.gov.tw/cgi-bin/SM_themePro?page=469598b6

在一個資料庫裡面的物件,可以分成三種描述、representation的方式:1.descriptive catalogue,像是圖書館的描述編目資料,記載書名、作者;2.indexing,處理關於這個物件的主題,可能是用一些控制的語彙。常見的分類語彙有:書目分類架構,如杜威十進位法;主題標目;還有索引典。 3.abstracting,摘要這個物件的內容。

subject indexing的過程包含了從一個文件中挑出適合的term,這需要經過concept analysis和translation.後者是conversion of the conceptual analysis of a document into a particularly set of terms.前者則困難了,每個人對於一個東西「關於什麼」的定義可能天差地遠。"of-ness"比較簡單,我們可以判斷比如說一幅畫是of 狗,但它可能是about a abstract concept,比如說正義。


給一個物件一個term就是在提供這個物件的access point.〈就像你要給文章下關鍵字,關鍵字就是access point〉access point越多,這個文件就越容易被找到,文件越長的話,access point越多,也當然越容易被找到。

*
我們怎麼幫作品、書......分類?
可以分成physical/intellectual部分,也就是descriptive/subject 的不同啦,書或作品因為有這個subject的部分較為抽象,使它比其他東西難分類。另外,對於某個主題〈你想要找的某個東西〉查詢的時候,不可能得到「全部的東西」,也就是說recall絕對不完整。

在進行information retrieval的時候,當然就是要盡可能找到有用的東西、並且盡可能避開無用的東西。
recall 是找到useful item 的能力;而precision則是避開無用item的能力,這兩個東西可當做評估一個資料庫搜尋表現的指標。

文件和文件、資料和資料連結的方式有很多;是有機的。好像在過河一樣,河中有許多石頭可以踩,關連的方式很多,你可以跳跳跳,或是一步一步走。

譬如一篇文章,我們可以看摘要、看引用文獻、或是看共同作者這些連結點,依此都可以找到類似主題的文章。

arrow
arrow
    全站熱搜

    山沙拉 發表在 痞客邦 留言(0) 人氣()