過去幾個月時間,在新的人肉外包系統(tǒng)幫助下,馬格南圖片社差不多將它們現(xiàn)存所有五十萬幅數(shù)字圖片的關鍵詞重新整理了一遍。這家傳奇圖片社與紐約的新興公司Tagasauris合作開發(fā)了一款基于網(wǎng)頁的媒體標記工具,借助亞馬遜公司Mechanical Turk提供的大量在線人力資源,解決了過去極為耗時的元數(shù)據(jù)編纂工作。
Mechanical Turk相當于一個"人才市場",讓商家和開發(fā)者能夠"根據(jù)需要雇傭數(shù)量相當?shù)膭趧恿?。這一網(wǎng)絡服務始于2005年,用戶可以在上面發(fā)布人類智能工作(Human Intelligence Tasks)。顧名思義,這種任務需要人力輔助完成機器不能輕松完成的工作,例如說解讀照片、理解照片中的主要視覺元素并用語言概括。
任務的響應者可能來自世界各地。有的任務只需注冊就可以做,但有些任務則需要完成相應的資格測試,例如說Tagasauris把關的馬格南關鍵詞編纂任務。
根據(jù)馬格南圖片社網(wǎng)絡內(nèi)容主管Meagan Young的說法,通過新系統(tǒng)發(fā)送出去的照片每張至少都會有八個人為其編寫關鍵詞,不到一分鐘就能返回結(jié)果。經(jīng)過去年夏天的小批量測試后,他們就開始以兩萬張照片為批次發(fā)送編寫關鍵詞。"這真的很讓人開心,"她說。"只要幾周時間就可以把所有圖片的關鍵詞寫好。"
對現(xiàn)有圖庫的關鍵詞編寫工作按計劃將在十二月份完成,隨后馬格南計劃將添加更多來自其成員攝影師作品的照片。新的作品一經(jīng)收錄,就會立刻編寫關鍵詞。此前,在馬格南圖片社位于巴黎、倫敦、紐約、東京的四處辦公室里,有五六個人在負責元數(shù)據(jù)的編寫工作,他們的圖庫里有大約二十萬張照片沒有圖片說明或關鍵詞信息。
試行結(jié)果顯示每幅照片的關鍵詞編寫者在四到八個之間最為理想,人數(shù)再多就會導致重復。大多數(shù)照片送出去有多少關鍵詞,回來還是多少個,但新的關鍵詞更加精確恰當。這歸功于另一項創(chuàng)新:新的關鍵詞和一個語義數(shù)據(jù)庫關聯(lián),每個關鍵詞的含義都能被關鍵詞編寫者和文件數(shù)據(jù)庫同時識別。
Young具體解釋道:"在我們過去的系統(tǒng)里,關鍵詞以純文本形式存儲;新的關鍵詞則附帶了相關的語義數(shù)據(jù)。假設在我們的新系統(tǒng)還沒有完全生效前你在系統(tǒng)里輸入'美洲豹'。你得到的搜索結(jié)果里可能有汽車、動物等等。而新的系統(tǒng)則會問你到底指的是汽車,還是動物。只有我們給每個關鍵詞都提供了相關的語義數(shù)據(jù),系統(tǒng)才能識別。搜索者指明美洲豹的具體所指后,數(shù)據(jù)返還系統(tǒng),系統(tǒng)就能很快識別你具體搜索的內(nèi)容。"
這一關鍵詞數(shù)據(jù)庫源于另一項人肉外包的數(shù)據(jù)源:維基百科;或者更精確一點說:DBpedia。DBpedia將自己形容為"維基百科項目的一部分,著力挖掘維基百科信息中的信息結(jié)構(gòu)"。簡單來說,這句話的意思就是關鍵詞可以關聯(lián)到一個脫胎于維基百科的數(shù)據(jù)分類系統(tǒng),根據(jù)關鍵詞的含義將其與其它關鍵詞相互聯(lián)系。而且,DBpedia的數(shù)據(jù)基于創(chuàng)作共用許可(Creative Commons licence)發(fā)布,不屬于任何圖庫,可以自由使用。
因此從理論上來講,每個人都可以從Tagasauris所說的"世界上最大的知識寶庫"中選擇相同的詞用來標記照片。使用這種方式標記照片后,用戶就能通過關鍵詞間的相互聯(lián)系輕松瀏覽圖庫中的照片,就像在Google中查找相關鏈接一樣方便。而且這些關鍵詞并非來自某個圖片庫的數(shù)據(jù)系統(tǒng),而是來自一個人肉的詞義分類系統(tǒng)。
為什么會這樣做?對馬格南圖片社營運總監(jiān)Mark Lubell來說好處顯而易見。"我們的照片會變得更好找,它們之間的關聯(lián)會變得更加密切,銷售情況也會因此見長。而且這么做代價并不大。"
但對于照片買賣來說這只是一部分。盡管關鍵詞必不可少,但對于馬格南所面對的數(shù)字市場全面重組戰(zhàn)略來說只是很小的一步。從1947年Henri Cartier-Bresson、Robert Capa、Chim Seymour和George Roger等人合作建立馬格南圖片社到之后的很多年里,