小h片在线观看_国产精品色网_欧美日韩岛国_澳门精品久久国产

歡迎您訪問富海360-深圳seo優化軟件銷售加盟網站! (電話:13728723580)

首頁 > 百度seo優化服務  > 百度seo優化排名

百度seo優化排名

推薦《這就是搜索引擎:核心技術詳解》一書

來源:m.keyuanqt.com 發布時間:2015年11月19日

比較務實的一本書,也是我2014年推薦的第一本書《這就是搜索引擎:核心技術詳解》,這本書陸陸續續看了大半年,受益匪淺。雖說是核心技術詳解,實際上這并不是給專業人員看的書,站長朋友看了后會對搜索引擎多了一份理性,少一分謾罵。本書看起來很輕松。

全書通俗易懂,內容廣而不深,對搜索引擎的技術做了很全面的介紹,包括搜索引擎整體框架、爬蟲、抓取策略、暗網爬取、分布式爬蟲等內容。

搜索引擎作為互聯網用戶的上網入口,對流量的引導與分流至關重要,甚至可以說起了決定性的作用。1991年,Tim Berners-Lee將超文本的概念引入互聯網,同時推出了WWW雛形、配套的HTTP傳輸協議及相應的Web服務器技術。1993年,第一個圖形瀏覽器mosaic誕生,網頁瀏覽客戶端趨于成熟,這些技術與產品為互聯網的快速普及和發展做好了技術準備,互聯網用戶開始從最初的軍隊和高校等科研機構普及到普通的個人用戶,為接下來互聯網的商業化大規模發展奠定了基礎。

互聯網信息量在過去15年獲得了爆炸性增長,信息過載的問題目前來說非常嚴重,隨著互聯網個性化的發展趨勢逐步展現,普通用戶發布信息的成本越來越低,這個問題將會更加嚴重。這是搜索引擎相關引用越來越重要的一個基礎背景。搜索是目前解決信息過載的相對有效的方式,在沒有有效的替代解決方式出來之前,搜索引擎作為互聯網網站和應用的入口及處于行業制高點的重要地位只會逐步加強。

搜索引擎發展史:分類目錄(網址導航)是史前時代、文本檢索是第一代、鏈接分析是第二代、以用戶中心是第三代,

搜索引擎的3個目標:更全、更快、更準。

搜索引擎的3個核心問題:1.用戶真正的需求是什么,2.哪些信息是和用戶需求是真正相關的,3.哪些信息是用戶可以信賴的。

搜索引擎的架構,一張圖可以說明情況:


除了上述的子功能模塊,“反作弊”模塊也日益重要。

互聯網頁面劃分為五個部分:1.已下載網頁集合、2.已過期網頁集合、3.待下載網頁集合、4.可知網頁集合、5.不可知網頁集合。

網絡爬蟲分為:批量性爬蟲、增量型爬蟲、垂直型爬蟲。

爬蟲抓取的策略:1.寬度優先遍歷、2.非完全PageRank、3.OPIC(Online Page Importantance Computation)、4.大站優先。

網頁更新策略:1.歷史參考策略、2.用戶體驗策略、3.聚類抽樣策略。

寫在最后:

結合上面的信息我們就能大致明白了:爬蟲分很多種,爬蟲來了不一定抓取的原因就是這里。另外爬蟲是否抓取(重新抓取)你的網頁也有很多種參考因素,我們通常所以的保證網站持續更新就是歷史參考策略了。本文我把網頁和爬蟲的部分都羅列了出來,有興趣的朋友可以買書來看。

很多時候,你問的答案就在這里,如果你不細讀的話!

書名:《這就是搜索引擎:核心技術詳解》

作者:張俊林

出版社:電子工業出版社

出版日期: 2012年1月1日

平裝: 300頁

相關文章

聯系我們

深圳市東方富海科技有限公司
彭經理:手機:13728723580 (微信號) QQ:1805577930

華經理:手機:13418535424 (微信號) QQ:75759344

公司地址:深圳市龍華新區民治大道648號牛欄前大廈A1508、A1510

www.easthinks.com

主站蜘蛛池模板: 宝山区| 榕江县| 道孚县| 古浪县| 丰都县| 博兴县| 漾濞| 长宁区| 山东省| 新乡市| 巴青县| 菏泽市| 东丰县| 沾化县| 五寨县| 金乡县| 潞西市| 句容市| 平凉市| 漳州市| 鹤壁市| 沅江市| 司法| 翁牛特旗| 博白县| 西乡县| 延边| 兴城市| 河间市| 政和县| 车险| 京山县| 林州市| 天镇县| 介休市| 镇安县| 玉溪市| 沭阳县| 潍坊市| 酉阳| 马公市|