㈠ 請問什麼是網路爬蟲啊是干什麼的呢
爬蟲就是能夠自動訪問互聯網並將網站內容下載下來的的程序或腳本,類似一個機器人,能把別人網站的信息弄到自己的電腦上,再做一些過濾,篩選,歸納,整理,排序等等。
網路爬蟲能做什麼:數據採集。
網路爬蟲是一個自動提取網頁的程序,它為搜索引擎從萬維網上下載網頁,是搜索引擎的重要組成。傳統爬蟲從一個或若干初始網頁的URL開始,獲得初始網頁上的URL,在抓取網頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統的一定停止條件。
(1)主網站可以爬取擴展閱讀:
網路爬蟲按照系統結構和實現技術,大致可以分為以下幾種類型:通用網路爬蟲(General Purpose Web Crawler)、聚焦網路爬蟲(Focused Web Crawler)、增量式網路爬蟲(Incremental Web Crawler)、深層網路爬蟲(Deep Web Crawler)。 實際的網路爬蟲系統通常是幾種爬蟲技術相結合實現的 。
通用網路爬蟲
通用網路爬蟲又稱全網爬蟲(Scalable Web Crawler),爬行對象從一些種子 URL 擴充到整個 Web,主要為門戶站點搜索引擎和大型 Web 服務提供商採集數據。 由於商業原因,它們的技術細節很少公布出來。 這類網路爬蟲的爬行范圍和數量巨大,對於爬行速度和存儲空間要求較高,對於爬行頁面的順序要求相對較低,同時由於待刷新的頁面太多,通常採用並行工作方式,但需要較長時間才能刷新一次頁面。 雖然存在一定缺陷,通用網路爬蟲適用於為搜索引擎搜索廣泛的主題,有較強的應用價值 。
通用網路爬蟲的結構大致可以分為頁面爬行模塊 、頁面分析模塊、鏈接過濾模塊、頁面資料庫、URL 隊列、初始 URL 集合幾個部分。為提高工作效率,通用網路爬蟲會採取一定的爬行策略。 常用的爬行策略有:深度優先策略、廣度優先策略 。
1) 深度優先策略:其基本方法是按照深度由低到高的順序,依次訪問下一級網頁鏈接,直到不能再深入為止。 爬蟲在完成一個爬行分支後返回到上一鏈接節點進一步搜索其它鏈接。 當所有鏈接遍歷完後,爬行任務結束。 這種策略比較適合垂直搜索或站內搜索, 但爬行頁面內容層次較深的站點時會造成資源的巨大浪費 。
2) 廣度優先策略:此策略按照網頁內容目錄層次深淺來爬行頁面,處於較淺目錄層次的頁面首先被爬行。 當同一層次中的頁面爬行完畢後,爬蟲再深入下一層繼續爬行。 這種策略能夠有效控制頁面的爬行深度,避免遇到一個無窮深層分支時無法結束爬行的問題,實現方便,無需存儲大量中間節點,不足之處在於需較長時間才能爬行到目錄層次較深的頁面。
聚焦網路爬蟲
聚焦網路爬蟲(Focused Crawler),又稱主題網路爬蟲(Topical Crawler),是指選擇性地爬行那些與預先定義好的主題相關頁面的網路爬蟲。 和通用網路爬蟲相比,聚焦爬蟲只需要爬行與主題相關的頁面,極大地節省了硬體和網路資源,保存的頁面也由於數量少而更新快,還可以很好地滿足一些特定人群對特定領域信息的需求 。
聚焦網路爬蟲和通用網路爬蟲相比,增加了鏈接評價模塊以及內容評價模塊。聚焦爬蟲爬行策略實現的關鍵是評價頁面內容和鏈接的重要性,不同的方法計算出的重要性不同,由此導致鏈接的訪問順序也不同 。
增量式網路爬蟲
增量式網路爬蟲(Incremental Web Crawler)是 指 對 已 下 載 網 頁 采 取 增 量式更新和只爬行新產生的或者已經發生變化網頁的爬蟲,它能夠在一定程度上保證所爬行的頁面是盡可能新的頁面。 和周期性爬行和刷新頁面的網路爬蟲相比,增量式爬蟲只會在需要的時候爬行新產生或發生更新的頁面 ,並不重新下載沒有發生變化的頁面,可有效減少數據下載量,及時更新已爬行的網頁,減小時間和空間上的耗費,但是增加了爬行演算法的復雜度和實現難度。增量式網路爬蟲的體系結構[包含爬行模塊、排序模塊、更新模塊、本地頁面集、待爬行 URL 集以及本地頁面URL 集 。
增量式爬蟲有兩個目標:保持本地頁面集中存儲的頁面為最新頁面和提高本地頁面集中頁面的質量。 為實現第一個目標,增量式爬蟲需要通過重新訪問網頁來更新本地頁面集中頁面內容,常用的方法有:1) 統一更新法:爬蟲以相同的頻率訪問所有網頁,不考慮網頁的改變頻率;2) 個體更新法:爬蟲根據個體網頁的改變頻率來重新訪問各頁面;3) 基於分類的更新法:爬蟲根據網頁改變頻率將其分為更新較快網頁子集和更新較慢網頁子集兩類,然後以不同的頻率訪問這兩類網頁 。
為實現第二個目標,增量式爬蟲需要對網頁的重要性排序,常用的策略有:廣度優先策略、PageRank 優先策略等。IBM 開發的 WebFountain是一個功能強大的增量式網路爬蟲,它採用一個優化模型控制爬行過程,並沒有對頁面變化過程做任何統計假設,而是採用一種自適應的方法根據先前爬行周期里爬行結果和網頁實際變化速度對頁面更新頻率進行調整。北京大學的天網增量爬行系統旨在爬行國內 Web,將網頁分為變化網頁和新網頁兩類,分別採用不同爬行策略。 為緩解對大量網頁變化歷史維護導致的性能瓶頸,它根據網頁變化時間局部性規律,在短時期內直接爬行多次變化的網頁 ,為盡快獲取新網頁,它利用索引型網頁跟蹤新出現網頁 。
Deep Web 爬蟲
Web 頁面按存在方式可以分為表層網頁(Surface Web)和深層網頁(Deep Web,也稱 Invisible Web Pages 或 Hidden Web)。 表層網頁是指傳統搜索引擎可以索引的頁面,以超鏈接可以到達的靜態網頁為主構成的 Web 頁面。Deep Web 是那些大部分內容不能通過靜態鏈接獲取的、隱藏在搜索表單後的,只有用戶提交一些關鍵詞才能獲得的 Web 頁面。例如那些用戶注冊後內容才可見的網頁就屬於 Deep Web。 2000 年 Bright Planet 指出:Deep Web 中可訪問信息容量是 Surface Web 的幾百倍,是互聯網上最大、發展最快的新型信息資源 。