• 新聞資訊

    首頁 > 百度公告 > 百度移動搜索建站優化白皮書
    百度移動搜索建站優化白皮書發布時間:2019-08

    1 前言


    手機百度是一款有6億用戶在使用的手機搜索客戶端,在中文用戶信息獲取上發揮了不可替代的作用;移動搜索引擎每日分發上億流量給到優質安全網站,來滿足用戶的搜索需求;而對于廣大的站長來說,優質安全的網站有助于在搜索引擎中獲得良好的排序和展現,從而吸引更多用戶,獲得更多流量。


    移動搜索引擎優化,指從建站開始到吸引用戶,貫穿所有流程,為了讓百度搜索的重要合作伙伴——廣大站長充分了解百度搜索引擎規則,并根據規則合理安全建設網站、優化網站,更好的獲取搜索流量;百度搜索資源平臺歷時3個月,探訪搜索內部各個技術部門,將百度搜索內部技術原理抽絲剝繭,化零為整,整理出《百度移動搜索建站優化白皮書》,希望與各位站長攜手,為用戶提供一個健康安全高效的搜索環境。



    2 網站建設

    2.1??域名選擇

    網站域名選擇,不僅能快速直觀讓用戶了解網站定位,域名設置,更會影響搜索對網站的抓取情況。因此,選擇簡單好記且安全的域名,是網站搭建前期最重要的一步。


    2.1.1??域名選擇的注意事項

    網站搭建之初,對網站域名選擇,建議域名獨立,簡單好記;獨立移動站域名選擇也遵循此規則。

    移動站的域名需與PC站域名分開,移動站不建議與PC站公用一個域名;比如PC網站域名建議是www.test.com,對應移動站的域名是m.test.com,而不是www.test.com/m/的形式;如果是自適應網站可不考慮此情況。

    網站域名選擇中,主要有以下兩點建議:

    √?建議使用比較常見的域名后綴,如.com\.cn\.net等;


    √?如果網站追求個性化使用罕見域名后綴,為了保證搜索效果,請來百度搜索資源平臺(原百度站長平臺)進行站點驗證。

    2.1.2??使用子域名或目錄

    網站是否需要建立子域名,或是劃分多級目錄,可根據網站自身定位及網站內容量級決定。通常來說,綜合類或內容量較多的網站,可將內容按照不同二級域明確劃分;而如果網站內容較少,不建議網站開設過多的子域名。

    舉例來說,blog形式站點,有的網站給到每個blog作者單獨的三級域,但如果作者發布頻率較低,整個三級域都是更新頻率很低的狀態,過低的發布頻率對搜索引擎來說是不友好的。


    2.2??內容發布系統

    內容發布系統,無論是網站自建還是使用第三方建站系統,百度都是支持的;所有發布系統,除遵循有條理、邏輯清晰建站,還要注意網站搭建的安全問題,避免網站安全隱患,才能更好的提升網站價值。


    2.2.1??自建內容發布系統

    網站自建內容發布系統,注意事項包括:

    √?主體內容清晰且能夠很好的識別與分辨;

    √?后臺發布時間切勿自行設置,遵循發布時間與展示時間一致;

    √?內容發布系統中各表單設置合理,如對tag標簽的設置不宜過多、不宜羅列關鍵詞;

    √?分類劃分明確,分類主題的文章對應發布到相應分類下;

    √?題文相符,切勿掛羊頭賣狗肉,欺騙搜索引擎流量,損傷用戶體驗;

    √?段落清晰合理、字體大小適中、字體顏色切勿使用與背景色相近的顏色;

    √?發布內容目錄劃分清晰,具體參考2.3章節中網站結構設置。


    2.2.2??第三方發布系統

    使用第三方發布系統建站,需要站長關注以下注意事項:

    √?模板主題不建議頻繁更換;

    √?類似wordpress等系統,不建議使用過多插件,會影響網頁打開速度;

    √?URL偽靜態的處理,命名規范、層級清晰;

    √?開源建站系統存在較多安全隱患,使用過程中務必做一些安全上的設置和優化。


    2.2.3 ?頁面生成規范

    無論網站自建發布系統,還是網站使用第三方建站系統,網站頁面的生成,都應注意以下幾點:

    √?網頁結構清晰、各分類名稱設置醒目;


    √?導航、面包屑導航設置合理,機器可讀、位置突出,用戶能很好得知所訪問頁面在網站中的位置;

    √?不存在遮擋主體內容的廣告元素;

    √?無三俗圖文、音頻元素;

    注意網站搭建系統安全問題,杜絕網站安全隱患。

    訪問請求中的content-type需要根據對應的類型進行正確設置,圖示如下:



    除此之外,關于頁面規范標準,建議參考搜索學院發布的《百度搜索Mobile Friendly(移動友好度)標準V1.0》


    2.3??網站結構

    合理設置網站結構,是網站被快速抓取、獲得搜索流量的基礎;因網站結構設置不合理,導致網站無法被快速識別抓取的事例在百度日常反饋中經常見到,且網站換域名也會對網站造成一定損失,故希望各位站長從建站之初重視網站結構設置,避免不必要的損失。


    2.3.1??URL結構設置

    URL搭建是否有嚴格要求,請看以下幾點注意事項:

    √?在搭建網站結構、制作URL時,盡量避開非主流設計,追求簡單美即可,越簡單越平常,越好,例如URL中出現生僻字符,如不常見的“II”,會引起搜索引擎識別錯誤;

    √?URL長度要求去掉協議頭http(s)://之后的URL長度不要超過256個字節;

    √?謹慎使用#參數,有效的參數不能放在#后面;可能被截斷導致網頁抓取異常。



    2.3.2??目錄結構設置

    網站目錄結構搭建是否合理,影響搜索引擎對網站的抓取情況,這里需要提到的是,網站目錄結構無論是扁平化還是樹形結構,一般都可以被搜索引擎發現,但有以下幾點注意事項:

    √?建議不同內容放在不同目錄或子域下,域名劃分在2.1.2網站域名劃分章節中有詳細提到;

    √?不要使用孤島鏈接,孤島鏈接很難被搜索引擎快速發現;若網站已存在大量孤島鏈接,建議使用搜索資源平臺的鏈接提交工具向百度提交數據;

    √?重要內容不建議放在深層目錄,若該內容沒有大量內鏈指向,搜索引擎很難判斷該頁面的重要程度。

    以下是圖片示例:



    2.4??服務商/自建服務器

    選擇服務商或者自建服務器,對網站搭建都是十分重要基礎的一環;服務器安全和穩定將直接影響百度搜索引擎對網站的整體判斷。


    2.4.1??域名服務


    2.4.1.1??域名服務&域名部署

    關于域名服務和域名部署,有以下注意事項:

    √?站長在域名部署中請仔細各環節問題,不要出現域名部署錯誤情況;

    √?不建議網站進行泛解析,若網站爆發大規模泛解析,且影響惡劣,則會受到搜索策略打壓;

    √?盡量選擇優質域名服務商。


    2.4.2??服務器

    做網站還有非常重要的一環,就是服務器的選擇,那服務器選擇中,無論是虛擬主機、云主機還是獨立的服務器,都應該注意以下四點:

    √?中文網站不建議選擇國外服務器;

    √?服務器的穩定性非常重要,需要保持訪問流暢,服務器是否穩定,可以使用百度搜索資源平臺(原百度站長平臺)抓取異常、抓取診斷工具進行檢測維護。(服務器經常無法訪問或者死機,對爬蟲來講都是致命傷害);

    √?服務器選擇除了自身的穩定性外,實際上還要考慮網站的業務量,例如帶寬、內存、CPU是否能夠承受訪問量,突發大流量情況下是否可以正常訪問;

    √?服務器主機設置,需要注意是否有禁止爬蟲抓取的設置、或存在404錯誤信息設置,這些情況都會引起不必要的搜索引擎抓取判斷異常,為網站帶來不必要的損失。


    2.4.2.1??虛擬主機

    總的來說,建議虛擬主機選購時候需要特別注意:

    √?主機商是否存在限制搜索引擎訪問的情況;

    √?主機商的資質是否符合要求;

    √?主機商的技術沉淀是否足夠,建議選擇品牌較大的主機商;

    √?主機商托管的機房的物理條件和網絡條件是否足夠優秀;

    √?主機商的技術和客服支持情況是否夠好;

    √?主機商是否會存在超容量的情況;

    √?主機商是否存在違規接入高風險站點的問題或同一IP下是否會存在高風險站點的情況;

    √?國內站點建議選購國內云主機建站。


    2.4.2.2??獨立主機

    獨立主機為站點帶來更加寬松的使用環境和個性軟件的安裝,因此獨立主機需要站長擁有一定的技術力量來保證網站的正常運行和安全。

    我們對于站長選購和托管獨立主機的建議是:

    √?注意虛擬主機是否有將爬蟲IP拉入黑名單,關于百度UA,可以參考3.1.2.1百度蜘蛛章節;

    √?建議使用獨立IP地址的主機;

    √?建議使用規模較大機構的主機,在安全配置、穩定性上相對更好;

    √?對IDC服務商的建設標準需要一定的考慮,例如防火、防盜、是否有UPS保證、室內溫控、消防等;

    √?IDC服務商的服務質量和技術是否達標,是否24h值班,是否能夠協助排查一些故障、免費重啟重裝系統等;

    √?IDC機房的資質是否齊全,存放站點是否有高風險站點或服務器存在。


    2.4.3??安全服務


    2.4.3.1??HTTPS

    當前百度已實行全站化HTTPS安全加密服務,百度HTTPS安全加密已覆蓋主流瀏覽器,旨在用戶打造了一個更隱私化的互聯網空間、加速了國內互聯網的HTTPS化。同時也希望更多網站加入到HTTPS的隊伍中來,為網絡安全貢獻一份力量。

    HTTPS安全原理解析

    HTTPS主要由有兩部分組成:HTTP + SSL / TLS,也就是在HTTP上又加了一層處理加密信息的模塊。服務端和客戶端的信息傳輸都會通過TLS進行加密,所以傳輸的數據都是加密后的數據。HTTPS與HTTP的原理區別可以觀察下圖:

    HTTS復雜的加密機制有效的加大了網站的安全性,加密機制與認證機制可以減少網站被劫持和假冒的風險,建議站長們可以通過做HTTPS改造來強化網站安全。

    百度搜索資源平臺為了更好的抓取識別HTTPS網站,2017年還推出了HTTPS認證工具,已經完成HTTPS改造的網站,可以在搜索資源平臺-網站支持-HTTPS認證工具中提交網站的HTTPS數據,便于百度更好抓取識別網站。關于HTTPS認證工具詳解,可以參考5.3.2HTTPS認證工具章節。


    2.4.3.2??網站防止被黑對策

    網站被黑,通常表現為網站中出現大量非本網站發布的類似博彩內容,或網站頁面直接跳轉到博彩頁面;以下是網站被黑后發布的內容:

    內容非網站發布,內容中含大量博彩網站指向:


    網站頁面直接跳轉到博彩網站:


    網站被黑代表網站安全存在嚴重問題或漏洞,如何防范網站被黑,請參考以下:

    首先,自查是否被黑

    √ 被黑網站在數據上有一個特點,即索引量和從搜索引擎帶來的流量在短時間內異常數據異常。所以,站長可以利用百度搜索資源平臺(原百度站長平臺)的索引量工具,觀察站點索引量是否有異常;如果發現數據異常,再通過流量與關鍵詞工具查看獲得流量的關鍵詞是否與網站有關、是否涉及博彩和色情;

    √?通過Site語法查詢站點,結合一些常見的色情、博彩類關鍵詞效果更佳,有可能發現不屬于站點的非法頁面;

    √?由于百度流量巨大,有些被黑行為僅針對百度帶來的流量予以跳轉,站長很難發現,所以在查看自己站點是否被黑時,一定要從百度搜索結果中點擊站點頁面,查看是否跳轉到了其他站點;

    √?站點內容在百度搜索結果中被提示存在風險;

    √?后續可以請網站技術人員通過后臺數據和程序進一步確認網站是否被黑。

    其次,被黑之后如何處理

    √?確認網站被黑后,SEO人員除了要推動技術人員快速修正外,還需要做一些善后和預防的工作;

    √?網站如有變更頁面,變更頁面建議使用鏈接提交工具向百度提交數據;

    √?立即停止網站服務,避免用戶繼續受影響,防止繼續影響其他站點;

    √?如果同一主機提供商同期內有多個站點被黑,可以聯系主機提供商,敦促對方做出應對;

    √?清理已發現的被黑內容,將被黑頁面設置為404死鏈,并通過百度搜索資源平臺(原百度站長平臺)死鏈提交工具進行提交。(我們發現有些站點采用了將被黑頁面跳轉至首頁的做法,非常不可取。);

    √?排查出可能的被黑時間,和服務器上的文件修改時間相比對,處理掉黑客上傳、修改過的文件;檢查服務器中的用戶管理設置,確認是否存在異常的變化;更改服務器的用戶訪問密碼。注:可以從訪問日志中,確定可能的被黑時間。不過黑客可能也修改服務器的訪問日志;

    √?做好安全工作,排查網站存在的漏洞,防止再次被黑。

    網站自我防護的注意事項:

    √?多種安全防護同步進行:適合中小型資訊網站;

    ●?網站程序勤打補丁:現在很多資訊類網站用的系統使用了內容管理系統(CMS),作為新聞發布系統,功能還算可以了,但是作為比較常見的內容管理系統(CMS),也有另一個問題,那就是漏洞比較大眾化,因為源碼是公開的,所以很容易被研究出漏洞,需要對網站程序及時進行漏洞修復。

    √?對服務器進行常規的安全防護;

    ●?在上班時間之外,對服務器上的網站權限做設置,禁止文件修改,后臺文件隱藏或遷移到根目錄之外。

    ●?參考一些網站的安全設置,非限定的IP不能寫入到數據庫。

    √?不使用開源程序默認的robots文件;

    ●?下圖是一個地級市的資訊類站點的robots文件,從robots文件中可以看出,該網站用的是織夢后臺,那黑客就可以通過各種針對織夢攻擊的軟件進行操作了,也可以針對織夢網站的常見漏洞進行掃描和針對性攻擊了。



    2.4.4??網絡服務


    2.4.4.1??CDN

    從搜索抓取機制上講:百度蜘蛛對站點的抓取方式和普通用戶訪問一樣,只要普通用戶能訪問到的內容,百度蜘蛛就能抓取到。不管是用什么技術,只要能保證用戶能流暢的訪問網站,對搜索引擎就沒有影響。但有站長反饋使用CDN后出現網站抓取異常、甚至流量異常等問題,主要是兩方面的因素:

    一是部分CDN服務商硬件投入不夠,經常出現不穩定情況,會導致大量的蜘蛛抓取失敗,從而影響網站抓取效果,有的甚至影響了索引量數據;所以選擇有實力的CDN服務商很重要;

    二是緩存機制在網站出現死鏈、無法打開、被黑等情況的時候起到了推波助瀾的作用。短時間內產生了一些不利快照,影響了排名。這種情況不用擔心,及時清理源文件和CDN緩存,并在百度搜索資源平臺(原百度站長平臺)提交相關死鏈數據等方法進行挽回,是可以恢復的。

    3 網站優化

    3.1??抓取友好性

    關于抓取的優先級,在此重點強調:

    √?網站更新頻率:經常更新高價值的站點,優先抓取;

    √?受歡迎程度:用戶體驗好的站點,優先抓取;

    √?優質入口:優質站點內鏈接,優先抓取;

    √?歷史的抓取效果越好,越優先抓取;

    √?服務器穩定,優先抓取;

    √?安全記錄優質的網站,優先抓取;

    順暢穩定的抓取是網站獲得搜索用戶、搜索流量的重要前提,影響抓取的關鍵因素,站長可以通過本章節了解。


    3.1.1??URL規范

    網站的URL如何設置,可參考2.3.1中的URL設置規范


    3.1.1.1??參數

    URL中的參數放置,需遵循兩個要點:

    √?參數不能太復雜;

    √?不要用無效參數,無效參數會導致頁面識別問題,頁面內容最終無法在搜索展示

    另外,很多站長利用參數(對搜索引擎和頁面內容而言參數無效)統計站點訪問行為,這里強調下,盡量不要出現這種形式資源,例如:

    https://www.test.com/deal/w00tb7cyv.html?s=a67b0e875ae58a14e3fcc460422032d3

    或者:

    http://nmtp.test.com/;NTESnmtpSI=029FF574C4739E1D0A45C9C90D656226.hzayq-nmt07.server.163.org-8010#/app/others/details?editId=&articleId=578543&articleType=0&from=sight


    3.1.2??鏈接發現


    3.1.2.1??百度蜘蛛

    很多站長會咨詢如何判斷百度移動蜘蛛,這里推薦一種方法,只需兩步,正確識別百度蜘蛛:

    查看UA

    如果UA都不對,可以直接判斷非百度搜索的蜘蛛,目前對外公布過的UA是:

    移動UA 1:

    Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,likeGecko)?Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0;+http://www.baidu.com/?search/?spider.html)

    移動UA 2:

    Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 likeMac OS X) AppleWebKit/601.1.46?(KHTML, like Gecko) Version/9.0 Mobile/13B143Safari/601.1 (compatible; Baiduspider-render/2.0;?+http://www.baidu.com/search/spider.html)

    PC UA 1:

    Mozilla/5.0 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)

    PC UA 2:

    Mozilla/5.0(compatible;Baiduspider-render/2.0;+http://www.baidu.com/search/?spider.html)

    反查IP

    站長可以通過DNS反查IP的方式判斷某只蜘蛛是否來自百度搜索引擎。根據平臺不同驗證方法不同,如Linux/Windows/OS三種平臺下的驗證方法分別如下:

    在Linux平臺下,可以使用hostip命令反解IP來判斷是否來自百度蜘蛛的抓取。百度蜘蛛的hostname以*.baidu.com格式命名,非*.baidu.com即為冒充。



    這里需要再提出一點,建議使用DNS更換為8.8.8.8后進行nslookup反向解析,否則很容易出現無返回或返回錯誤的問題。

    在Windows平臺下,可以使用nslookup ip命令反解IP來判斷是否來自百度蜘蛛的抓取。打開命令處理器輸入nslookup?xxx.xxx.xxx.xxx(IP地址)就能解析IP,來判斷是否來自百度蜘蛛的抓取,百度蜘蛛的hostname以*.baidu.com格式命名,非*.baidu.com即為冒充。

    在Mac?OS平臺下,網站可以使用dig命令反解IP來判斷是否來自百度蜘蛛的抓取。打開命令處理器輸入dig?xxx.xxx.xxx.xxx(IP地址)就能解析IP,來判斷是否來自百度蜘蛛的抓取,百度蜘蛛的hostname以*.baidu.com的格式命名,非*.baidu.com即為冒充。


    3.1.2.2??鏈接提交

    鏈接提交工具是網站主動向百度搜索推送數據的工具,網站使用鏈接提交可縮短爬蟲發現網站鏈接時間,目前鏈接提交工具支持四種方式提交:

    √?主動推送:是最為快速的提交方式,建議將站點當天新產出鏈接立即通過此方式推送給百度,以保證新鏈接可以及時被百度抓取;

    √?Sitemap:網站可定期將網站鏈接放到Sitemap中,然后將Sitemap提交給百度。百度會周期性的抓取檢查提交的Sitemap,對其中的鏈接進行處理,但抓取速度慢于主動推送;

    √?手工提交:如果不想通過程序提交,那么可以采用此種方式,手動將鏈接提交給百度;

    √?自動推送:是輕量級鏈接提交組件,將自動推送的JS代碼放置在站點每一個頁面源代碼中,當頁面被訪問時,頁面鏈接會自動推送給百度,有利于新頁面更快被百度發現。

    簡單來說:建議有新聞屬性站點,使用主動推送進行數據提交;新驗證平臺站點,或內容無時效性要求站點,可以使用Sitemap將網站全部內容使用Sitemap提交;技術能力弱,或網站內容較少的站點,可使用手工提交方式進行數據提交;最后,還可以使用插件方式,自動推送方式給百度提交數據。


    3.1.3??網頁抓取


    3.1.3.1??訪問速度

    關于移動頁面的訪問速度,百度搜索資源平臺(原百度站長平臺)已于2017年10月推出過閃電算法,針對頁面首頁的打開速度給予策略支持。閃電算法中指出,移動搜索頁面首屏加載時間將影響搜索排名。移動網頁首屏加載時間在2秒之內的,在移動搜索下將獲得提升頁面評價優待,獲得流量傾斜;同時,在移動搜索頁面首屏加載非常慢(3秒及以上)的網頁將會被打壓。

    對于頁面訪問速度的提速,這里也給到幾點建議:

    資源加載:

    √?將同類型資源在服務器端壓縮合并,減少網絡請求次數和資源體積;

    √?引用通用資源,充分利用瀏覽器緩存;

    √?使用CDN加速,將用戶的請求定向到最合適的緩存服務器上;

    √?非首屏圖片類加載,將網絡帶寬留給首屏請求。

    頁面渲染:

    √?將CSS樣式寫在頭部樣式表中,減少由CSS文件網絡請求造成的渲染阻塞;

    √?將JavaScript放到文檔末尾,或使用異步方式加載,避免JS執行阻塞渲染;

    √?對非文字元素(如圖片,視頻)指定寬高,避免瀏覽器重排重繪;

    希望廣大站長持續關注頁面加載速度體驗,視網站自身情況,參照建議自行優化頁面,或使用通用的加速解決方案(如MIP),不斷優化頁面首屏加載時間。

    了解MIP-移動網頁加速器可參考:https://www.mipengine.org/


    3.1.3.2??返回碼

    HTTP狀態碼是用以表示網頁服務器HTTP響應狀態的3位數字代碼。各位站長在平時維護網站過程中,可能會在站長工具后臺抓取異常里面或者服務器日志里看到各種各樣的響應狀態碼,有些甚至會影響網站的SEO效果,例如重點強調網頁404設置,百度搜索資源平臺(原百度站長平臺)中部分工具如死鏈提交,需要網站把內容死鏈后進行提交,這里要求設置必須是404。

    下面為大家整理了一些常見的HTTP狀態碼:

    301:(永久移動)請求的網頁已被永久移動到新位置。服務器返回此響應(作為對GET或HEAD請求的響應)時,會自動將請求者轉到新位置。

    302:(臨時移動)服務器目前正從不同位置的網頁響應請求,但請求者應繼續使用原有位置來進行以后的請求。此代碼與響應GET和HEAD請求的301代碼類似,會自動將請求者轉到不同的位置。

    這里強調301與302的區別:

    301/302的關鍵區別在于:這個資源是否存在/有效;

    301指資源還在,只是換了一個位置,返回的是新位置的內容;

    302指資源暫時失效,返回的是一個臨時的代替頁(例如鏡像資源、首頁、404頁面)上。注意如果永久失效應當使用404。

    有時站長認為百度對302不友好,可能是誤用了302處理仍然有效的資源;

    400:(錯誤請求)服務器不理解請求的語法;

    403:(已禁止)服務器已經理解請求,但是拒絕執行它;

    404:(未找到)服務器找不到請求的網頁;

    這里不得不提的一點,很多站長想自定義404頁面,需要做到確保蜘蛛訪問時返回狀態碼為404,若因為404頁面跳轉時設置不當,返回了200狀態碼,則容易被搜索引擎認為網站上出現了大量重復頁面,從而對網站評價造成影響;

    500:(服務器內部錯誤)服務器遇到錯誤,無法完成請求;

    502:(錯誤網關)服務器作為網關或代理,從上游服務器收到了無效的響應;

    503:(服務不可用)目前無法使用服務器(由于超載或進行停機維護)。通常,這只是一種暫時的狀態;

    504:(網關超時)服務器作為網關或代理,未及時從上游服務器接收請求。


    3.1.3.3? robots

    robots工具的詳細工具使用說明,細節參考4.3.4robots工具章節,關于robots的使用,僅強調以下兩點:

    A片毛片免费视频在线看 - 视频 - 在线观看 - 影视资讯 - 品尚网