過去幾個月,在新的“人肉外包”系統(tǒng)幫助下,瑪格南圖片社差不多將它們現(xiàn)存所有50萬幅數(shù)字圖片的關(guān)鍵詞重新整理了一遍。這家傳奇圖片社與紐約泰格薩瑞斯公司(Tagasauris)合作開發(fā)了一款基于網(wǎng)頁的媒體標(biāo)記工具,借助亞馬遜公司土耳其機(jī)器人(Mechanical Turk)提供的大量在線人力資源,解決了過去極為耗時的元數(shù)據(jù)編纂工作。
土耳其機(jī)器人相當(dāng)于一個“人才市場”,讓商家和開發(fā)者能夠“根據(jù)需要雇傭數(shù)量相當(dāng)?shù)膭趧恿Α薄_@一網(wǎng)絡(luò)服務(wù)始于2005年,用戶可以在上面發(fā)布人類智能工作(Human Intelligence Tasks)。顧名思義,這種需要人力輔助完成機(jī)器不能輕松完成的工作,例如解讀照片、理解照片中的主要視覺元素并用語言概括。任務(wù)的響應(yīng)者可能來自世界各地。有的任務(wù)只需注冊就可以做,但有些任務(wù)則需要完成相應(yīng)的資格測試,例如泰格薩瑞斯把關(guān)的瑪格南關(guān)鍵詞編纂任務(wù)。
根據(jù)瑪格南圖片社網(wǎng)絡(luò)內(nèi)容主管米格·揚(yáng)(Meagan Young)的說法,通過新系統(tǒng)發(fā)送出去的照片,每張至少都會有8個人為其編寫關(guān)鍵詞,不到一分鐘就能返回結(jié)果。經(jīng)過去年夏天的小批量測試后,他們就開始以兩萬張照片為批次發(fā)送編寫關(guān)鍵詞!斑@真的很讓人開心”,她說,“只要幾周時間,就可以把所有圖片的關(guān)鍵詞寫好。”
對現(xiàn)有圖庫的關(guān)鍵詞編寫工作按計劃將在今年12月完成,隨后瑪格南將添加更多來自其成員攝影師作品的照片。新的作品一經(jīng)收錄,就會立刻編寫關(guān)鍵詞。此前,在瑪格南圖片社位于巴黎、倫敦、紐約、東京的4處辦公室里,有五六個人在負(fù)責(zé)元數(shù)據(jù)的編寫工作,他們的圖庫里有大約20萬張照片沒有圖片說明或關(guān)鍵詞信息。
試行結(jié)果顯示,每幅照片的關(guān)鍵詞編寫者在4到8個之間最為理想,人數(shù)再多就會導(dǎo)致重復(fù)。大多數(shù)照片送出去有多少關(guān)鍵詞,回來還是多少個,但新的關(guān)鍵詞更加精確恰當(dāng)。這歸功于另一項(xiàng)創(chuàng)新:新的關(guān)鍵詞和一個語義數(shù)據(jù)庫關(guān)聯(lián),每個關(guān)鍵詞的含義都能被關(guān)鍵詞編寫者和文件數(shù)據(jù)庫同時識別。
米格說:“在我們過去的系統(tǒng)里,關(guān)鍵詞以純文本形式存儲;新的關(guān)鍵詞則附帶了相關(guān)的語義數(shù)據(jù)。假設(shè)在我們的新系統(tǒng)還沒有完全生效前,你在系統(tǒng)里輸入‘美洲豹’,你得到的搜索結(jié)果里可能有汽車、動物等。而新的系統(tǒng)則會問你到底指的是汽車,還是動物。只有我們給每個關(guān)鍵詞都提供了相關(guān)的語義數(shù)據(jù),系統(tǒng)才能識別。搜索者指明美洲豹的具體所指后,數(shù)據(jù)返還系統(tǒng),系統(tǒng)就能很快識別你具體搜索的內(nèi)容!
這一關(guān)鍵詞數(shù)據(jù)庫源于另一項(xiàng)人肉外包的數(shù)據(jù)源:維基百科;蛘吒_一點(diǎn)說:DBpedia。DBpedia將自己形容為“維基百科項(xiàng)目的一部分,著力挖掘維基百科信息中的信息結(jié)構(gòu)”。簡單來說,即關(guān)鍵詞可以關(guān)聯(lián)到一個脫胎于維基百科的數(shù)據(jù)分類系統(tǒng),根據(jù)關(guān)鍵詞的含義將其與其他關(guān)鍵詞相互聯(lián)系。而且,DBpedia的數(shù)據(jù)基于創(chuàng)作共用許可(Creative Commons licence)發(fā)布,不屬于任何圖庫,可以自由使用。
從理論上來講,每個人都可以從泰格薩瑞斯所說的“世界上最大的知識寶庫”中選擇相同的詞用來標(biāo)記照片。使用這種方式標(biāo)記照片后,用戶就能通過關(guān)鍵詞間的相互聯(lián)系輕松瀏覽圖庫中的照片,就像在谷歌中查找相關(guān)鏈接一樣方便。而且這些關(guān)鍵詞并非來自某個圖片庫的數(shù)據(jù)系統(tǒng),而是來自一個人肉的詞義分類系統(tǒng)。
為什么會這樣做?對瑪格南圖片社營運(yùn)總監(jiān)馬克·魯貝爾(Mark Lubell)來說好處顯而易見,“我們的照片會變得更好找,它們之間的關(guān)聯(lián)會變得更加密切,銷售情況也會因此見好。而且這么做代價并不大!
對于照片買賣來說這只是一部分。