互聯(lián)網(wǎng)上分析IIS的工具倒是不少,不過我沒有遇見能夠符合我要求的,一般的都是只能查詢IIS日志內(nèi)的蜘蛛爬行的次數(shù)而已。下面說個比較簡單且非常實用的方法,通過EXCEL的一些簡單的公式做出想得到的一系列數(shù)據(jù),例如時間間隔,爬行頁面,返回狀態(tài)碼,網(wǎng)址參數(shù),蜘蛛類型,蜘蛛IP等,通過以上數(shù)據(jù)可以進行對網(wǎng)站的問題的排查,更正。 首先必須有自己的服務(wù)器或者能夠查看IIS日志的權(quán)限,通過FTP將iis日志文件從空間中下載到本地 服務(wù)器獲取IIS日志的方式:打開IIS,點擊要查詢網(wǎng)站>右鍵>屬性>網(wǎng)站選項卡>屬性>即可看到如圖 如果是空間的話有些空間服務(wù)上會將日志文件放在網(wǎng)站根目錄的。如果沒有的話可以向服務(wù)商索取。

然后根據(jù)路徑進行查找相應(yīng)的文件夾然,可以看到文件夾下有很多.log文件就是日志文件,然后通過FTP下載到本地。

如果文件過大操作起來可能不方面,可以使用UltraEdit打開,篩查你想得到的數(shù)據(jù)(具體自己下載一個研究下)。文件不是很大可以使用記事本直接打開后復(fù)制到EXCEL。

然后將前4行刪除,選擇A列,點擊excel數(shù)據(jù)>分列>分割符號


下一步>其他>輸入空格>下一步>完成。這樣第一步就完成了。

然后選擇A1列>右鍵>插入 然后將C,D,E,I列刪除。在第一行分別輸入:日期,時間,網(wǎng)頁,參數(shù),端口,IP,蜘蛛,狀態(tài)碼 另外說明一下參數(shù),參數(shù)這個是動態(tài)網(wǎng)頁面問號(?)后面的部分。http://www.huiwang.org/jiaju/chufang/5309_3.html 這個路徑后面的參數(shù)值為3,那么組合之后真是的URL就是http://www.huiwang.org/jiaju/chufang/5309_3.html?3 因此說明蜘蛛還是可以分辨參數(shù)的,有些網(wǎng)站投放廣告后面經(jīng)常都會帶上參數(shù)進行統(tǒng)計,但經(jīng)過抓取后參數(shù)都會被去除的。所以盡量不要在內(nèi)容頁使用此類的URL。

選中G列>數(shù)據(jù)>篩選>點擊G列箭頭>文本篩選>包含

輸入baidupider 點擊確定。即可看到所有百度蜘蛛訪問的數(shù)據(jù) 這樣的話大致的數(shù)據(jù)已經(jīng)呈現(xiàn)出來了,如果查看google在篩選時候輸入googlebot就可以了。隨后制作一個簡單的數(shù)據(jù)透視表便于分析。 一次順序:插入>數(shù)據(jù)透視表>數(shù)據(jù)透視表>確定 在右側(cè)按先后順序勾選網(wǎng)頁,蜘蛛,時間。然后點擊蜘蛛后面的小三角

點擊標(biāo)簽篩選>包含>輸入baidupider。既可以篩選出最終要看的網(wǎng)頁的spider爬行時間詳細(xì)數(shù)據(jù),當(dāng)然可以按照其他組合進行篩選各類數(shù)據(jù),就不演示了。

Luigi's blog原創(chuàng),轉(zhuǎn)載請注明http://www.itemseo.com/432.html 謝謝