互联网日志的种类、存储和计算
最近幾年,經(jīng)常聽到數(shù)據(jù)挖掘這個(gè)詞。
不過,我仔細(xì)看了下,發(fā)現(xiàn)這個(gè)詞還是挺模糊的。
挖掘
這個(gè)詞,應(yīng)該指從數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的信息。
比如從搜索詞中,發(fā)現(xiàn)網(wǎng)民的關(guān)注點(diǎn),進(jìn)而指導(dǎo)廣告投放、產(chǎn)品推薦,生產(chǎn)用戶需要的產(chǎn)品。
數(shù)據(jù)
根據(jù)我有限的閱歷來看,數(shù)據(jù)最常見的形式就是日志,各種各樣的日志。
限于從業(yè)經(jīng)驗(yàn)有限,本文只是簡要介紹下日志的種類、存儲(chǔ)和計(jì)算,僅供參考。
日志的種類
1.瀏覽日志
a.廣告曝光日志
? 一個(gè)廣告的一次曝光,會(huì)產(chǎn)生一條曝光日志。
? 日志格式:廣告位ID、媒體、頻道、曝光時(shí)間、IP、來源、操作系統(tǒng)、瀏覽器、用戶ID等。
? 注:可以用監(jiān)測點(diǎn)ID來代替媒體和頻道等更多信息。
b.網(wǎng)頁訪問日志
? 網(wǎng)頁被一個(gè)用戶訪問一次,產(chǎn)生一條訪問日志。
? 日志格式:網(wǎng)頁URL、用戶ID、訪問時(shí)間、來源、操作系統(tǒng)、瀏覽器等。
2.行為日志
a.廣告點(diǎn)擊日志
日志格式:廣告位ID、媒體、頻道、點(diǎn)擊時(shí)間、IP、來源、操作系統(tǒng)、瀏覽器、用戶ID等。
b.內(nèi)容點(diǎn)擊日志
?用戶點(diǎn)擊了站內(nèi)的鏈接,記錄這個(gè)日志,可以得出用戶的喜好。
日志格式:?與網(wǎng)頁訪問和廣告點(diǎn)擊日志類似。
c.分享日志
?用戶分享了文章或者文章的一部分。
d.收藏
用戶收藏了商品、文章、代碼等。
e.搜索
? 百度肯定記錄了用戶的搜索記錄。
?優(yōu)酷等視頻網(wǎng)站、新浪等媒體網(wǎng)站也有吧。
?更多日志,不再一一列舉。
日志的存儲(chǔ)
百度、優(yōu)酷等大型互聯(lián)網(wǎng)網(wǎng)站,肯定有很多服務(wù)器。
日志也會(huì)存儲(chǔ)到多臺(tái)服務(wù)器上。
日志可以存儲(chǔ)到文件中,一條日志一個(gè)文件,或者多個(gè)日志共用一個(gè)文件。
至于怎樣更合理,我還沒有啥實(shí)際經(jīng)驗(yàn)。
兩個(gè)疑問
1.日志數(shù)據(jù)作為互聯(lián)網(wǎng)公司的重要資產(chǎn),是否會(huì)統(tǒng)一存儲(chǔ)起來呢?
我覺得最終會(huì)統(tǒng)一存放到數(shù)據(jù)倉庫中,一臺(tái)機(jī)器顯然是不夠的,會(huì)有很多臺(tái)。
2.這些日志數(shù)據(jù)有必要備份么?
?我覺得有必要。
日志的計(jì)算
1.實(shí)時(shí)計(jì)算
? 來一條日志,或者一定量的日志,就計(jì)算。
? 然后,把多態(tài)服務(wù)器上的計(jì)算結(jié)果累加,得出最終的結(jié)果。
? 現(xiàn)在,很多客戶都要求“實(shí)時(shí)數(shù)據(jù)”。比如,廣告投放15分鐘之后,就可以看到監(jiān)測數(shù)據(jù)了。
?實(shí)時(shí)計(jì)算能力已經(jīng)成為一個(gè)技術(shù)公司的核心競爭力了。
2.非實(shí)時(shí)計(jì)算
? 等所有相關(guān)數(shù)據(jù)都出來了,然后再統(tǒng)一計(jì)算。
? 這種方式,準(zhǔn)確度會(huì)更高。
云存儲(chǔ)
有的技術(shù)公司,有自己私有的云存儲(chǔ)技術(shù),不對外提供。
有的技術(shù)公司,不但有私有的云存儲(chǔ)技術(shù),還對外提供服務(wù)。比如百度、金山、QQ等都有免費(fèi)提供給用戶的云存儲(chǔ)服務(wù)。
公司內(nèi)部與向外提供還是有區(qū)別的。比如象訪問和點(diǎn)擊日志這種,文件比較小。而對外提供的,文件可能比較大。
場景和需求的不同,也就決定了云存儲(chǔ)技術(shù)還是會(huì)分化成好幾種。
云計(jì)算
我一直沒有搞清楚“云計(jì)算”和“分布式計(jì)算”有啥區(qū)別,總感覺“云”就是一個(gè)模糊的讓人“云山霧繞”的概念。
姑且就認(rèn)為云計(jì)算=分布式計(jì)算。
我的理解,云計(jì)算就是把一個(gè)復(fù)雜的計(jì)算問題,拆分成了可以單獨(dú)計(jì)算的多個(gè)部分,然后把多個(gè)計(jì)算結(jié)果進(jìn)行合并。
(上周末看了《云計(jì)算-大數(shù)據(jù)時(shí)代的系統(tǒng)工程》這本書,對云計(jì)算有了更清晰的認(rèn)識(shí)。)
友情提示
本人從業(yè)時(shí)間有限,經(jīng)驗(yàn)有限,因此本文僅供參考。
本人正在努力學(xué)習(xí)和研究當(dāng)中。
歡迎提出建設(shè)性的意見和建議。
原文鏈接:http://blog.fansunion.cn/articles/3445(小雷博客-blog.fansunion.cn)
轉(zhuǎn)載于:https://www.cnblogs.com/qitian1/p/6463369.html
總結(jié)
以上是生活随笔為你收集整理的互联网日志的种类、存储和计算的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
                            
                        - 上一篇: 【MongoDB】递归获取字段更新表达式
 - 下一篇: T T[] toArray(T[] a)