最重要的indexing dimension:
Exhaustivity 窮盡性
refers to the detail with which topics or features of a document are analyzed and described.
大致上可以說是一個文件中,有多少term的程度,當你用越多的term去描述一個文件,這個文件也容易被找到(high recall),但是找到的東西不一定準確,因為有可能:

1.false association,因為是用詞去找,可能這些詞之間根本沒有文法語句上的相關,但因為都有這個詞就被找到了。
2.很minor的相關,在文件中只提到這個東西一點點,根本不是文件的主軸,但還是會被找到。

當窮盡性非常高時,雖然可以找到很多東西,有個"large retrieval  phenomenon",我們常會用「日期、作者、摘要」等去過濾排序資料,但是沒有辦法減少這樣的狀況,為何?
因為常常主題、關鍵字、標目往往duplicate each other,大家彼此抄來抄去,還是找不到想要的。

diminishing returns 
大部分的詞都用80%就可以滿足讀者需要了。如果要更有區別度,就要花更多的力氣去找更窮盡的詞。有些詞份量會比較大,而有些詞相對不重要,就算用這些不重要的詞去搜尋,滿意程度也可能較少。也就是那個圖會大致長這樣:



precision 專指性
1.thematic precision
你的詞和這個文件有多貼近。
2.operational precision
描述term本身的性質,如果這個term可以被用來描述這個文章,又可用來描述那個文章,那麼這個term的專指性就很低。
3.language precision
描述控制語言可以多精確。

在給term的時候用最精確的就好了,比如說這篇文章在講orange給term就給citrus fruit,而不用多給fruit,因為這樣會讓通則性的文章和專論的文章沒有辦法被辨別。當使用者用fruit查詢時他應該會想的是通論水果的文章,而不是專指orange的文章。

在從前的人工書面時代,有post-up這個動作,就是說把一個詞和有關的詞BT, RT等都列出來的動作,方便generic searches。而在數位時代,這個列出來的動作可免,可以在一開始設計的時候,就先有個詞語詞之間的架構。


arrow
arrow
    全站熱搜

    山沙拉 發表在 痞客邦 留言(0) 人氣()