• <bdo id="oq0yq"><xmp id="oq0yq">
    <menu id="oq0yq"></menu>
  • 建站常識

    網站日志文件如何分析搜索引擎爬蟲

    發布時間 | 2018/8/25  點擊 | 

    在你網站遇到收錄問題的時候,可能會分析這分析那的原因,但首頁分析的應該是爬蟲有沒有到你網站的記錄,如果沒有,說明你的鏈接不過吸引爬蟲;如果有過,你就應該看返回的代碼,然后根據這個再分析其它的原因。要找到事情的原因,才能更加有效的解決問題?!?

       假如你要搜索百度的爬蟲,那么就直接在保存記錄的文本文檔上搜索“Baiduspider”,我們節選以下一行來做詳細的分析:

      2011-07-22 15:02:40 CDKKIS111 198.16.12.1  GET /index.html - 80 - 61.135.168.50 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 64- - bbs.szr.com

      這段IIS日志代碼表示:在2011-07-22 15:02:40 這個時間,百度搜索引擎的蜘蛛(ip地址為61.135.168.50,后面的http://www.baidu.com/search/spider.htm是關于Baiduspider+的相關問題)訪問了服務器ip為198.16.12.1的網站bbs.szr.com,并且抓取了首頁/index.html,該日志記錄保存在 CDKKIS111文件夾。其中,兩個地方值得說明:  一是各大搜索引擎爬蟲(蜘蛛)的名稱整理如下,大家可以對號入座:

      1. Google爬蟲名稱

      1.1 Googlebot:從Google的網站索引和新聞索引中抓取網頁

      1.2 Googlebot-Mobile針對Google的移動索引抓取網頁

      1.3 Googlebot-Image:針對Google的圖片索引抓取網頁

      1.4 Mediapartners-Google:抓取網頁確定 AdSense 的內容。只有在你的網站上展示 AdSense 廣告的情況下,Google才會使用此漫游器來抓取您的網站。

      1.5 Adsbot-Google:抓取網頁來衡量 AdWords 目標網頁的質量。只有在你使用 Google AdWords 為你的網站做廣告的情況下,Google才會使用此漫游器。

      2. 百度(Baidu)爬蟲名稱:Baiduspider

      3. 雅虎(Yahoo)爬蟲名稱:Yahoo Slurp

      4. 有道(Yodao)蜘蛛名稱:YodaoBot

      5. 搜狗(sogou)蜘蛛名稱:sogou spider

      6. MSN的蜘蛛名稱:Msnbot

      其他的搜索引擎我們使用得很少,就不需要理會了。

           二是代碼中的200表示搜索引擎蜘蛛爬行后返回HTTP的狀態代碼,代表成功爬行并抓取。

      各個數字代碼的具體意思參見如下:

      2xx 成功

      200 正常;請求已完成。

      201 正常;緊接 POST 命令。

      202 正常;已接受用于處理,但處理尚未完成。

      203 正常;部分信息 — 返回的信息只是一部分。

      204 正常;無響應 — 已接收請求,但不存在要回送的信息。

      3xx 重定向

      301 已移動 — 請求的數據具有新的位置且更改是永久的。

      302 已找到 — 請求的數據臨時具有不同 URI。

      303 請參閱其它 — 可在另一 URI 下找到對請求的響應,且應使用 GET 方法檢索此響應。

      304 未修改 — 未按預期修改文檔。

      305 使用代理 — 必須通過位置字段中提供的代理來訪問請求的資源。

      306 未使用 — 不再使用;保留此代碼以便將來使用。

      4xx 客戶機中出現的錯誤

      400 錯誤請求 — 請求中有語法問題,或不能滿足請求。

      401 未授權 — 未授權客戶機訪問數據。

      402 需要付款 — 表示計費系統已有效。

      403 禁止 — 即使有授權也不需要訪問。

      404 找不到 — 服務器找不到給定的資源;文檔不存在。

      407 代理認證請求 — 客戶機首先必須使用代理認證自身。

      410 請求的網頁不存在(永久);

      415 介質類型不受支持 — 服務器拒絕服務請求,因為不支持請求實體的格式。

      5xx 服務器中出現的錯誤

      500 內部錯誤 — 因為意外情況,服務器不能完成請求。

      501 未執行 — 服務器不支持請求的工具。

      502 錯誤網關 — 服務器接收到來自上游服務器的無效響應。

      503 無法獲得服務 — 由于臨時過載或維護,服務器無法處理請求。

       說了這么多,可能很多SEO新手朋友還找不到網站日志該在哪里看,這個是需要在IIS服務器進行配置的哦,把步驟列出來,想想聰明的你很快就能學會:

        第一個步驟:打開IIS服務器。選擇所要設置的網站屬性。選擇“啟用日志記錄”,勾選,選擇“W3C擴展日志文件格式”。

        第二步驟:點擊“W3C擴展日志文件格式”后面的“屬性”按鈕,常規選項里面,選擇新日志計劃為“每天”,當然也可以選擇其他,選擇好保存日志文件的目錄。(注:日志文件最好跟你要設置的網站放在一個目錄內,避免和其他網站日志混淆)

        第三個步驟:選擇高級選項。勾選底下的用戶代理(cs(User-Agent))等選項,我一般都將最下面的三個選項勾選起來。這樣,你才可以看到百度等爬蟲的名稱。

        第四個步驟:選擇名為“主目錄”的選項卡,勾選“記錄訪問”的復選框即可。這樣你的IIS日志就開始正常記錄了。

        希望通過以上方法能夠讓大家更好的了解搜索引擎,在優化的時候達到事半功倍的效果!

    相關信息