百度seo優(yōu)化排名
推薦《這就是搜索引擎:核心技術(shù)詳解》一書(shū)
比較務(wù)實(shí)的一本書(shū),也是我2014年推薦的第一本書(shū)《這就是搜索引擎:核心技術(shù)詳解》,這本書(shū)陸陸續(xù)續(xù)看了大半年,受益匪淺。雖說(shuō)是核心技術(shù)詳解,實(shí)際上這并不是給專業(yè)人員看的書(shū),站長(zhǎng)朋友看了后會(huì)對(duì)搜索引擎多了一份理性,少一分謾罵。本書(shū)看起來(lái)很輕松。
全書(shū)通俗易懂,內(nèi)容廣而不深,對(duì)搜索引擎的技術(shù)做了很全面的介紹,包括搜索引擎整體框架、爬蟲(chóng)、抓取策略、暗網(wǎng)爬取、分布式爬蟲(chóng)等內(nèi)容。
搜索引擎作為互聯(lián)網(wǎng)用戶的上網(wǎng)入口,對(duì)流量的引導(dǎo)與分流至關(guān)重要,甚至可以說(shuō)起了決定性的作用。1991年,Tim Berners-Lee將超文本的概念引入互聯(lián)網(wǎng),同時(shí)推出了WWW雛形、配套的HTTP傳輸協(xié)議及相應(yīng)的Web服務(wù)器技術(shù)。1993年,第一個(gè)圖形瀏覽器mosaic誕生,網(wǎng)頁(yè)瀏覽客戶端趨于成熟,這些技術(shù)與產(chǎn)品為互聯(lián)網(wǎng)的快速普及和發(fā)展做好了技術(shù)準(zhǔn)備,互聯(lián)網(wǎng)用戶開(kāi)始從最初的軍隊(duì)和高校等科研機(jī)構(gòu)普及到普通的個(gè)人用戶,為接下來(lái)互聯(lián)網(wǎng)的商業(yè)化大規(guī)模發(fā)展奠定了基礎(chǔ)。
互聯(lián)網(wǎng)信息量在過(guò)去15年獲得了爆炸性增長(zhǎng),信息過(guò)載的問(wèn)題目前來(lái)說(shuō)非常嚴(yán)重,隨著互聯(lián)網(wǎng)個(gè)性化的發(fā)展趨勢(shì)逐步展現(xiàn),普通用戶發(fā)布信息的成本越來(lái)越低,這個(gè)問(wèn)題將會(huì)更加嚴(yán)重。這是搜索引擎相關(guān)引用越來(lái)越重要的一個(gè)基礎(chǔ)背景。搜索是目前解決信息過(guò)載的相對(duì)有效的方式,在沒(méi)有有效的替代解決方式出來(lái)之前,搜索引擎作為互聯(lián)網(wǎng)網(wǎng)站和應(yīng)用的入口及處于行業(yè)制高點(diǎn)的重要地位只會(huì)逐步加強(qiáng)。
搜索引擎發(fā)展史:分類目錄(網(wǎng)址導(dǎo)航)是史前時(shí)代、文本檢索是第一代、鏈接分析是第二代、以用戶中心是第三代,
搜索引擎的3個(gè)目標(biāo):更全、更快、更準(zhǔn)。
搜索引擎的3個(gè)核心問(wèn)題:1.用戶真正的需求是什么,2.哪些信息是和用戶需求是真正相關(guān)的,3.哪些信息是用戶可以信賴的。
搜索引擎的架構(gòu),一張圖可以說(shuō)明情況:
除了上述的子功能模塊,“反作弊”模塊也日益重要。
互聯(lián)網(wǎng)頁(yè)面劃分為五個(gè)部分:1.已下載網(wǎng)頁(yè)集合、2.已過(guò)期網(wǎng)頁(yè)集合、3.待下載網(wǎng)頁(yè)集合、4.可知網(wǎng)頁(yè)集合、5.不可知網(wǎng)頁(yè)集合。
網(wǎng)絡(luò)爬蟲(chóng)分為:批量性爬蟲(chóng)、增量型爬蟲(chóng)、垂直型爬蟲(chóng)。
爬蟲(chóng)抓取的策略:1.寬度優(yōu)先遍歷、2.非完全PageRank、3.OPIC(Online Page Importantance Computation)、4.大站優(yōu)先。
網(wǎng)頁(yè)更新策略:1.歷史參考策略、2.用戶體驗(yàn)策略、3.聚類抽樣策略。
寫在最后:
結(jié)合上面的信息我們就能大致明白了:爬蟲(chóng)分很多種,爬蟲(chóng)來(lái)了不一定抓取的原因就是這里。另外爬蟲(chóng)是否抓取(重新抓取)你的網(wǎng)頁(yè)也有很多種參考因素,我們通常所以的保證網(wǎng)站持續(xù)更新就是歷史參考策略了。本文我把網(wǎng)頁(yè)和爬蟲(chóng)的部分都羅列了出來(lái),有興趣的朋友可以買書(shū)來(lái)看。
很多時(shí)候,你問(wèn)的答案就在這里,如果你不細(xì)讀的話!
書(shū)名:《這就是搜索引擎:核心技術(shù)詳解》
作者:張俊林
出版社:電子工業(yè)出版社
出版日期: 2012年1月1日
平裝: 300頁(yè)
相關(guān)產(chǎn)品
相關(guān)文章
- 百度公布圖文搜索結(jié)果優(yōu)化方法2015年11月19日
- 7條經(jīng)典傳統(tǒng)定律指導(dǎo)網(wǎng)站運(yùn)營(yíng)2015年11月19日
- 月底前百度將有大范圍更新2015年11月19日
- 扯扯淡:四大搜索引擎在站長(zhǎng)圈的發(fā)展走向2015年11月19日
- SEO從業(yè)者回首在“魔都”北京的日子2015年11月19日
聯(lián)系我們
深圳市東方富海科技有限公司
彭經(jīng)理:手機(jī):13728723580 (微信號(hào)) QQ:1805577930
華經(jīng)理:手機(jī):13418535424 (微信號(hào)) QQ:75759344
公司地址:深圳市龍華新區(qū)民治大道648號(hào)牛欄前大廈A1508、A1510