自动化的人肉搜索引擎即将出现?
人肉搜素是MOP(今天的貓撲網)開創的一個概念,最早是用來指發帖子請人幫忙尋找一些互聯網上的稀缺資源,并支付一定的虛擬貨幣。自從虐貓女事件之后,慢慢演變成發動眾多網友的力量找出互聯網上的某個人在現實中的身份。Google在有一年的愚人節在招聘了人肉搜素管理員和志愿者。
所謂人肉搜索,說白了還是利用人的智慧和經驗來搜尋并綜合各種信息。既然人工智能的目標是模仿人的各種思維能力,那么模擬人肉搜索也應該是人工智能的目標之一。
前一陣,科技博客Techcrunch宣稱,音樂社交網站Last.fm向美國唱片業協會(RIAA)透露數據,使得RIAA能追蹤那些搶先試聽U2泄漏專輯的網友。很快Last.fm出來辟謠說沒有這回事,他們對用戶的隱私數據保存得很好,并且不允許那些利用用戶數據識別個人身份的行為。
問題在于,如果RIAA真的想要揪出那些聽U2的人是誰——即使他在公開的用戶資料中用的是假名——是不是一定要Last.fm提供詳細的諸如IP地址之類的數據呢?Peter Eckersley在最近的一份技術分析給出了否定的答案。要揪出ID背后的那個人,要執行人肉搜索,可以借助數據挖掘技術來實現。
Last.fm和國內的巨鯨音樂網等網站相似,每個用戶可以收藏自己喜歡的歌手和音樂,并將之放在個性化的主頁上。網站根據你的愛好會推薦一些與你有相似口味的ID。同時你有一個好友列表,表示你們有某種比較密切的聯系。下面我們來看看這些信息如何暴露一個人的身份。
1.用戶名:你在這個網站的用戶名是不是跟在別的網站一樣?而另一個網站上你是不是就填寫了詳細的資料來告訴人們“我是誰&rdquo?
2.好友列表:每個人的好友列表綜合在一起,構成了一副“好友聯系圖”。在別的網站,比如Facebook,校內網,開心網,也有這樣的好友聯系圖。通過一些數據挖掘算法,就可以把兩幅圖中近似的部分匹配起來。Last.fm的A,對應Facebook的B。
3.音樂喜好:你是不是在你的博客中討論過自己的音樂喜好?而這些你最喜歡的音樂是不是都在你Last.fm收藏夾里?如果是這樣,那么一個數據挖掘程序就能把你的在Last.fm的帳號跟你的博客,或者一組近似的博客聯系起來。那樣要找出你是誰就容易多了。
總之,很多時候,根本不需要IP等信息,只要通過仔細的數據挖掘程序,你在Last.fm的公開信息就告訴了世界你是誰。并且,計算機的大容量存儲和快速查找能力,使得這一過程比傳統的靠人力的“人肉搜索”快得多。
那么,為了避免被人肉搜索到,需要做一些什么呢?下面是Peter Eckersley針對Last.fm這種網站給出的建議:
1 不要用與別的網站相同的用戶名。
2 不要在網站上添加真實世界的朋友為好友。
3 不要在別的渠道公開你對音樂的喜好。
4 通過代理軟件(Tor等)上Last.fm。
當然,在中國這樣做肯定有些大題小作。但是,在別的場合,例如你想在公開的論壇討論一些敏感話題,又不想被人肉搜索到時,這些建議還是有用的。而我們的網監部門,如果充分利用數據挖掘技術,勢必可以揪出更多的人去喝茶,我們生活的這個世界必將更加和諧。
總結
以上是生活随笔為你收集整理的自动化的人肉搜索引擎即将出现?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: JAVA编译器的作用
- 下一篇: Google最新算法 - 人肉搜索引擎