Web Analytics
首先瞧瞧Google Search的網址,嘗試輸入任意關鍵字執行搜尋後可以發現,搜尋的網址是長這樣的:1
http://www.google.com.tw/search?q=
“=”後面便是搜尋的關鍵字了,再觀察網頁原始碼,搜尋結果就在class=”g”的div區塊中。
既然爬蟲能這樣到處玩耍,想必也會有不歡迎爬蟲的網站,畢竟要是放任大量爬蟲在自家網站撒野,可是會給伺服器帶來困擾的呢。所以Web Crawler也會有許多技巧來偽裝,讓自己在伺服器的認知裡看起來像是人為操作:例如,在request加上user agent偽裝成瀏覽器,或在多個request之間設置隨機延遲,除了模擬人為操作,亦避免造成他人伺服器的負擔…
Code
1 | #!/usr/bin/env python3 |
輸出結果: