(來(lái)源:中國(guó)
攝影 作者:黃一凱)
過(guò)去幾個(gè)月時(shí)間,在新的人肉外包系統(tǒng)幫助下,馬格南圖片社差不多將它們現(xiàn)存所有五十萬(wàn)幅數(shù)字圖片的關(guān)鍵詞重新整理了一遍。這家傳奇圖片社與紐約的新興公司Tagasauris合作開發(fā)了一款基于網(wǎng)頁(yè)的媒體標(biāo)記工具,借助亞馬遜公司Mechanical Turk提供的大量在線人力資源,解決了過(guò)去極為耗時(shí)的元數(shù)據(jù)編纂工作。
Mechanical Turk相當(dāng)于一個(gè)"人才市場(chǎng)",讓商家和開發(fā)者能夠"根據(jù)需要雇傭數(shù)量相當(dāng)?shù)膭趧?dòng)力"。這一網(wǎng)絡(luò)服務(wù)始于2005年,用戶可以在上面發(fā)布人類智能工作(Human Intelligence Tasks)。顧名思義,這種任務(wù)需要人力輔助完成機(jī)器不能輕松完成的工作,例如說(shuō)解讀
照片、理解照片中的主要視覺元素并用語(yǔ)言概括。
任務(wù)的響應(yīng)者可能來(lái)自世界各地。有的任務(wù)只需注冊(cè)就可以做,但有些任務(wù)則需要完成相應(yīng)的資格測(cè)試,例如說(shuō)Tagasauris把關(guān)的馬格南關(guān)鍵詞編纂任務(wù)。
根據(jù)馬格南圖片社網(wǎng)絡(luò)內(nèi)容主管Meagan Young的說(shuō)法,通過(guò)新系統(tǒng)發(fā)送出去的照片每張至少都會(huì)有八個(gè)人為其編寫關(guān)鍵詞,不到一分鐘就能返回結(jié)果。經(jīng)過(guò)去年夏天的小批量測(cè)試后,他們就開始以兩萬(wàn)張照片為批次發(fā)送編寫關(guān)鍵詞。"這真的很讓人開心,"她說(shuō)。"只要幾周時(shí)間就可以把所有圖片的關(guān)鍵詞寫好。"
對(duì)現(xiàn)有圖庫(kù)的關(guān)鍵詞編寫工作按計(jì)劃將在十二月份完成,隨后馬格南計(jì)劃將添加更多來(lái)自其成員攝影師作品的照片。新的作品一經(jīng)收錄,就會(huì)立刻編寫關(guān)鍵詞。此前,在馬格南圖片社位于巴黎、倫敦、紐約、東京的四處辦公室里,有五六個(gè)人在負(fù)責(zé)元數(shù)據(jù)的編寫工作,他們的圖庫(kù)里有大約二十萬(wàn)張照片沒有圖片說(shuō)明或關(guān)鍵詞信息。
試行結(jié)果顯示每幅照片的關(guān)鍵詞編寫者在四到八個(gè)之間最為理想,人數(shù)再多就會(huì)導(dǎo)致重復(fù)。大多數(shù)照片送出去有多少關(guān)鍵詞,回來(lái)還是多少個(gè),但新的關(guān)鍵詞更加精確恰當(dāng)。這歸功于另一項(xiàng)創(chuàng)新:新的關(guān)鍵詞和一個(gè)語(yǔ)義數(shù)據(jù)庫(kù)關(guān)聯(lián),每個(gè)關(guān)鍵詞的含義都能被關(guān)鍵詞編寫者和文件數(shù)據(jù)庫(kù)同時(shí)識(shí)別。
Young具體解釋道:"在我們過(guò)去的系統(tǒng)里,關(guān)鍵詞以純文本形式存儲(chǔ);新的關(guān)鍵詞則附帶了相關(guān)的語(yǔ)義數(shù)據(jù)。假設(shè)在我們的新系統(tǒng)還沒有完全生效前你在系統(tǒng)里輸入'美洲豹'。你得到的搜索結(jié)果里可能有汽車、動(dòng)物等等。而新的系統(tǒng)則會(huì)問(wèn)你到底指的是汽車,還是動(dòng)物。只有我們給每個(gè)關(guān)鍵詞都提供了相關(guān)的語(yǔ)義數(shù)據(jù),系統(tǒng)才能識(shí)別。搜索者指明美洲豹的具體所指后,數(shù)據(jù)返還系統(tǒng),系統(tǒng)就能很快識(shí)別你具體搜索的內(nèi)容。"
這一關(guān)鍵詞數(shù)據(jù)庫(kù)源于另一項(xiàng)人肉外包的數(shù)據(jù)源:維基百科;或者更精確一點(diǎn)說(shuō):
DBpedia。DBpedia將自己形容為"維基百科項(xiàng)目的一部分,著力挖掘維基百科信息中的信息結(jié)構(gòu)"。簡(jiǎn)單來(lái)說(shuō),這句話的意思就是關(guān)鍵詞可以關(guān)聯(lián)到一個(gè)脫胎于維基百科的數(shù)據(jù)分類系統(tǒng),根據(jù)關(guān)鍵詞的含義將其與其它關(guān)鍵詞相互聯(lián)系。而且,DBpedia的數(shù)據(jù)基于創(chuàng)作共用許可(Creative Comm** licence)發(fā)布,不屬于任何圖庫(kù),可以自由使用。
因此從理論上來(lái)講,每個(gè)人都可以從Tagasauris所說(shuō)的"世界上最大的知識(shí)寶庫(kù)"中選擇相同的詞用來(lái)標(biāo)記照片。使用這種方式標(biāo)記照片后,用戶就能通過(guò)關(guān)鍵詞間的相互聯(lián)系輕松瀏覽圖庫(kù)中的照片,就像在Google中查找相關(guān)鏈接一樣方便。而且這些關(guān)鍵詞并非來(lái)自某個(gè)圖片庫(kù)的數(shù)據(jù)系統(tǒng),而是來(lái)自一個(gè)人肉的詞義分類系統(tǒng)。
為什么會(huì)這樣做?對(duì)馬格南圖片社營(yíng)運(yùn)總監(jiān)Mark Lubell來(lái)說(shuō)好處顯而易見。"我們的照片會(huì)變得更好找,它們之間的關(guān)聯(lián)會(huì)變得更加密切,銷售情況也會(huì)因此見長(zhǎng)。而且這么做代價(jià)并不大。"
但對(duì)于