我承認,當出現了一連串的英文而後面附有中文解釋的時候,我習慣先看中文,而這個中文解釋如果讓我對這個主題完全提不起興趣的話,我就更不會的深入去看這個標題甚至文章要傳達給我的訊息。Bibliographic Latent Semantic Indexing: No Blames On Users(書目隱性語義索引:使用者無錯)是我第一次看到的此次演講題目,我當時看不懂那一連串英文的專有名詞,對於「使用者無錯」這個名詞更是覺得拗口而對於這個題目沒有很大的興趣。
##ReadMore##
穆教授在演講的開始,提起了他小時候對於圖書館的感覺。當他走進圖書館,矮矮的個子抬頭看坐在櫃檯上高高在上的阿姨,只覺得是走進了當舖!不了解書的擺架,不懂圖書分類的法則,不會使用卡片目錄,走進圖書館有如霧裡看花,這是誰的問題?是館員該抱怨使用者太笨了找不到書,我們明明就照著我們認為最好的分類方法將人類的知識分類了,怎麼還會找不到這麼簡單的排架;還是使用者會碎碎念,圖書館怎麼會這麼爛,不是收藏很多書嗎,怎麼我想看的一本也找不到?
或許也有人會說,這都是過去的情形了,現在電腦科技發達,大部分的人都懂得使用電腦去查詢想要的書,查出來的書還會告訴你在哪個樓層可以找到等等,這些問題在實體圖書館有稍微減少;那麼,在這麼個資訊發達的時代,我們有了這麼好的工具使用,當使用者利用電腦網路來搜尋資料,是總是輕鬆的找到想要的,還是總是找不到,還是一找又了太多了?這又是誰的錯?
穆教授提到,經統計,使用者在進行資訊搜尋行為的時候,是很少使用到進階搜尋的功能的,就算有,往往也是錯誤的使用,然後再找到錯誤的答案,而會使用布林邏輯來檢索的使用者更是佔了很少的比例。自從網路發達之後,各網站、網頁如雨後春筍般的出現,而這些網站的出現不就是要提供使用者來瀏覽?那使用者在這麼浩瀚的網路世界中能夠準確的找到他所要看的網站嗎?
我們再將問題拉回圖書館。圖書館五律中提到,每本書是有他的讀者,每個讀者也有他的書,這我們唸圖資的都知道,而他們要怎麼才能夠被順利的找到彼此,這就是我們圖資所要做的。但是一本書經過館員的分類編目、上架,之後能不能被使用者找到?這打了一個很大的問號,館員常常會以圖資人的心態覺得分類編目很簡單,進行了我們自以為簡單的分類編目後,卻跟使用者間出現了很大的鴻溝,我們的語言跟他們的語言常常是不相同的!我們要怪館員太死腦筋,要怪使用者太笨?還是要怪圖書館網頁太爛?
而穆教授希望能以書目隱性索引來作為改善讀者和圖書館的「溝通橋樑」。圖書館視每一筆資料都是單獨的一個文件,但是事實並非如此,文件和文件間會存在著連結關係。舉例來說,某筆中文資料和英文資料在查詢時是完全不搭嘎的,但是他們卻因為是同個作者所寫的,而存在在彼此間的聯結關係,如果我們能找出文件和文件之間的「隱藏連結」,將可以使這些文件更容易的被找到,而這也就是隱性語意索引的基本概念。
穆教授以隱性語意索引研究書目的狀況而成書目隱性索引,而所要進行的第一步驟,就是找出該文件的重要特徵,成為區別該文件的索引。以電視節目「全民最大黨」來看,每個演員都辦的唯妙唯肖,不僅穿著一樣、髮型特色一樣,有的連說話語調語氣都很類似,但是民眾知道他們不是政治人物本人,原因就在每個人都還是有足以區分自我特色的因素在,在隱性語意索引中,其中就有以singular value docomposition(SVD)的方法,以矩陣來找出每筆文件當中的關鍵字。
透過LSI的數學計算,我們最後可以得知每個文件關鍵字的分布情況並予以權重計算,找出一個讓使用者更容易查詢想要資料的規則,穆教授已著手將LSI與書目結合,成為Bibliographic Latent Semantic Indexing(B-LSI),但是尚有許多問題有待克服。誠如曾元顯老師所說,以隱性語意索引來看,我們可以把常出現的關鍵字抓出來,但是這也意味著我們放棄了很多因為特性不夠顯著的關鍵字,這些關鍵字出現的次數可能較少,但並不意味著他們的重要性不高,但卻會因為LSI出現的「長尾理論」而被淘汰,這是還有待加強的地方。
這次的演講讓我感觸很深的,一個是穆教授在一開始提到的,網頁的價值,不完全在有多少人連結,我們應該依照他的特性,他的使用族群而給予不同的權重,要怎麼給予權重?卜老師的解釋是依照權威性。兩個文獻來比較,20個一般大學生說A比較好,但是另外5個教授說B比較重要,那麼哪方面的意見比較重要?當然是教授的意見較具權威性,而我們可以依照不同「身分」的網頁(如依照PageRank的排名),成為計算網頁權重的元素之一。
另外一個是,是要說我們不了解使用者的資訊尋求行為,還是該說使用者的資訊尋求行為很難讓我們了解?當使用者在搜尋鍵入「高清電視」,他有可能是想要了解他的規格,可能是要知道他的價錢,也有可能是要知道他的製造廠商等等,這是使用者與我們的代溝。使用者常常會不了解該如何表達他們所想要的意思,但是並不是我們不去了解他們的意思,是訴諸於文字更甚至是查詢語言的想法,可能連使用者自己都不明白,所以我們提供了如LSI的技術、如(PageRank)的排名告訴使用者你輸入的詞彙其他人大家較多看的是怎麼樣的網頁,我們為使用者進行了改革,但是我認為是相對的,使用者應該也要從網路的使用中,逐漸的成熟自我的資訊素養,這樣網路世界才有更成長與演化的空間。No Blames On Users,但是我希望並不是使用者等著吃糖果就好了,如果當時山頂洞人要吃什麼就出現什麼,那人類也不會進化,網路世界應該是要互相學習而成長的。
最後,關於B-LSI是正在起步的技術,還有許多尚待克服的問題,像我原本在結束想問的,如果真要用矩陣來表示這麼大維度的文件加所有的單字單詞,我想是需要相當大的空間才能存入以作分析的,目前穆教授取樣的樣本還不是很大,但是未來還有很多成長的空間吧我想。
沒有留言:
張貼留言