亚洲日韩va无码中文字幕,亚洲国产美女精品久久久久,亚洲男同gay在线观看,亚洲乱亚洲乱妇,亚洲精品综合一区二区

Google爬蟲(chóng)SEO優(yōu)化實(shí)踐:穩(wěn)定性、體驗(yàn)優(yōu)化與差異化承接

2024-12-25 7:09:33
0

搜索引擎在對(duì)網(wǎng)頁(yè)進(jìn)行收錄和排序的過(guò)程中,首先需要依靠搜索引擎爬蟲(chóng)來(lái)抓取網(wǎng)頁(yè)內(nèi)容。針對(duì)搜索引擎爬蟲(chóng)的優(yōu)化是SEO的重要一環(huán)。

去年在AliExpress的SEO工作中,我們遇到了一些搜索引擎爬蟲(chóng)的問(wèn)題,主要是Googlebot。例如,由于爬蟲(chóng)抓取量過(guò)大導(dǎo)致服務(wù)器崩潰、彈窗廣告被搜索引擎判斷為影響用戶體驗(yàn)、如何更好地抓取JavaScript內(nèi)容等。為了應(yīng)對(duì)這些問(wèn)題,我們啟動(dòng)了一個(gè)名為“蜘蛛俠項(xiàng)目”的爬蟲(chóng)優(yōu)化專項(xiàng),并取得了顯著的效果:整體抓取量提升了數(shù)億,流量增加了數(shù)十萬(wàn),虛擬機(jī)也下線了上百臺(tái)。

在整體內(nèi)容方面,搜索引擎爬蟲(chóng)的SEO優(yōu)化主要分為以下幾個(gè)部分:

一、建立抓取穩(wěn)定性機(jī)制,解決服務(wù)器被搜索引擎爬蟲(chóng)抓崩的問(wèn)題。

這個(gè)問(wèn)題的起源還要從一個(gè)P0級(jí)的bug說(shuō)起。有一天,我們發(fā)現(xiàn)AliExpress的搜索服務(wù)器崩潰了,用戶無(wú)法正常進(jìn)行站內(nèi)搜索。經(jīng)過(guò)分析,我們發(fā)現(xiàn)罪魁禍?zhǔn)资荊ooglebot,其抓取量突然增加了一倍,導(dǎo)致搜索服務(wù)器負(fù)載過(guò)高。為了保證用戶在站內(nèi)的正常搜索,我們不得不暫時(shí)屏蔽了搜索引擎爬蟲(chóng)。

基于之前的經(jīng)驗(yàn),我們知道如果搜索引擎爬蟲(chóng)無(wú)法正常抓取,會(huì)認(rèn)為頻道/網(wǎng)站無(wú)法正常訪問(wèn)(當(dāng)時(shí)網(wǎng)站返回的是驗(yàn)證碼網(wǎng)頁(yè),仍然是200狀態(tài)碼),從而會(huì)降低網(wǎng)站的排名和流量。于是,我提出了一套爬蟲(chóng)穩(wěn)定性方案:當(dāng)爬蟲(chóng)QPS超過(guò)一定“水位”時(shí),返回對(duì)爬蟲(chóng)友好的狀態(tài)碼(如429/500/503),告訴Googlebot當(dāng)前是網(wǎng)站服務(wù)器壓力過(guò)大,需要降低抓取頻率;當(dāng)爬蟲(chóng)訪問(wèn)在可接受范圍內(nèi)時(shí),就正常返回網(wǎng)頁(yè)(200狀態(tài)碼)。這個(gè)方案上線后,爬蟲(chóng)收到了信號(hào),馬上調(diào)低了抓取頻率,服務(wù)器狀態(tài)也迅速恢復(fù)正常。我們將這個(gè)機(jī)制沉淀下來(lái),形成了一套長(zhǎng)期可用的爬蟲(chóng)穩(wěn)定性機(jī)制。值得一提的是,這個(gè)方案在雙十一期間也成功應(yīng)用,保障了用戶的正常訪問(wèn),同時(shí)確保了SEO流量的穩(wěn)定。

二、搜索引擎爬蟲(chóng)的體驗(yàn)優(yōu)化,解決彈窗廣告對(duì)用戶體驗(yàn)的傷害以及流量影響的問(wèn)題。

在當(dāng)前電商SEO領(lǐng)域,無(wú)線端的流量比例高于PC端,但這部分流量的轉(zhuǎn)化遠(yuǎn)低于PC端。AliExpress為了提升無(wú)線端流量的利用效率,會(huì)展示全屏遮罩的彈窗廣告來(lái)引導(dǎo)用戶下載APP并轉(zhuǎn)化。這類彈窗其實(shí)非常影響用戶體驗(yàn)。Google和百度等搜索引擎在文檔中都提到了彈窗廣告對(duì)用戶體驗(yàn)的傷害,并強(qiáng)調(diào)了其在排名上的影響。為了提升流量,我們需要優(yōu)化彈窗策略。在第一期優(yōu)化中,我們針對(duì)Googlebot和其他搜索引擎爬蟲(chóng)去掉了彈窗廣告。也就是說(shuō),當(dāng)搜索引擎爬蟲(chóng)訪問(wèn)時(shí),頁(yè)面不會(huì)展示這個(gè)彈窗廣告;當(dāng)用戶訪問(wèn)時(shí),彈窗廣告正常顯示。去掉彈窗廣告后,SEO流量有了明顯的提升。后續(xù)我們還與其他團(tuán)隊(duì)合作,改進(jìn)了廣告形式,使其更加友好和智能。

實(shí)話實(shí)說(shuō),對(duì)于爬蟲(chóng)而言,采用緩存策略是最有效的方法之一。緩存不僅可以大幅提升爬蟲(chóng)的抓取效率,同時(shí)還能顯著降低服務(wù)器的成本。當(dāng)爬蟲(chóng)訪問(wèn)一個(gè)頁(yè)面時(shí),每次都需要實(shí)時(shí)調(diào)用服務(wù)器獲取數(shù)據(jù)(因?yàn)楝F(xiàn)代網(wǎng)頁(yè)大多是動(dòng)態(tài)的),這會(huì)產(chǎn)生與服務(wù)器握手的時(shí)間。由于爬蟲(chóng)每天需要抓取大量數(shù)據(jù),對(duì)服務(wù)器來(lái)說(shuō)是一個(gè)不小的壓力(參考第一部分服務(wù)器負(fù)載過(guò)高的案例)。我們將網(wǎng)頁(yè)進(jìn)行靜態(tài)緩存,并放置在服務(wù)器上。當(dāng)爬蟲(chóng)進(jìn)行抓取時(shí),直接返回靜態(tài)緩存頁(yè)面,無(wú)需實(shí)時(shí)獲取數(shù)據(jù)。這樣不僅能提高抓取速度,還能減輕服務(wù)器的壓力。中間還需要一些緩存策略,如主動(dòng)緩存和被動(dòng)緩存的選擇、緩存頻道的確定、緩存時(shí)間的設(shè)定等。

關(guān)于SSR+CSR的實(shí)現(xiàn)方式

在之前的《JavaScript SEO》一書(shū)中提到,Googlebot已經(jīng)具備了JavaScript內(nèi)容的解析能力,但同步化仍是更有效率的方式,因?yàn)镴avaScript渲染還是有一定的成本。在人蟲(chóng)分離的架構(gòu)下,我們可以考慮采用SSR+CSR的實(shí)現(xiàn)方式。

針對(duì)爬蟲(chóng),使用SSR(服務(wù)器端渲染)的方式,使得爬蟲(chóng)可以直接獲取到內(nèi)容,而無(wú)需JavaScript引擎的渲染。這樣能提高爬蟲(chóng)的抓取效率,使其更快速地獲取到網(wǎng)頁(yè)內(nèi)容。

針對(duì)用戶,使用CSR(客戶端渲染)的方式則更有利于用戶體驗(yàn)。例如,LCP、CLS等性能指標(biāo)的優(yōu)化都能通過(guò)CSR實(shí)現(xiàn)。這種方式可以為用戶提供更加流暢、個(gè)性化的瀏覽體驗(yàn)。

參考網(wǎng)頁(yè)

《減慢 Googlebot 的抓取速度》:[developers./search/docs/guides/reduce-crawl-rate?hl=zh_cn]

《實(shí)現(xiàn)動(dòng)態(tài)呈現(xiàn)》:[developers./search/docs/guides/dynamic-rendering]

《JavaScript SEO 完全指南》:[www./post/javascript-seo-2021]

Google爬蟲(chóng)SEO優(yōu)化實(shí)踐:穩(wěn)定性、體驗(yàn)優(yōu)化與差異化承接

以上內(nèi)容屬作者個(gè)人觀點(diǎn),不代表任何組織立場(chǎng)。本文經(jīng)原作者授權(quán)轉(zhuǎn)載,轉(zhuǎn)載需征得原作者同意。

版權(quán)聲明

風(fēng)口星內(nèi)容全部來(lái)自網(wǎng)絡(luò),版權(quán)爭(zhēng)議與本站無(wú)關(guān),如果您認(rèn)為侵犯了您的合法權(quán)益,請(qǐng)聯(lián)系我們刪除,并向所有持版權(quán)者致最深歉意!本站所發(fā)布的一切學(xué)習(xí)教程、軟件等資料僅限用于學(xué)習(xí)體驗(yàn)和研究目的;不得將上述內(nèi)容用于商業(yè)或者非法用途,否則,一切后果請(qǐng)用戶自負(fù)。請(qǐng)自覺(jué)下載后24小時(shí)內(nèi)刪除,如果您喜歡該資料,請(qǐng)支持正版!

tiktok達(dá)人邀約