乐清谧种大药房有限公司

Menu

淺析搜索引擎的工作原理

網(wǎng)站建設(shè) 錄入時(shí)間 2023-06-15 閱讀次數(shù) 無(wú)雙建站 多語(yǔ)種獨(dú)立站
你對(duì)于搜素引擎到底了解了多少。對(duì)于本身搜索引擎排名的基本原理應(yīng)該清楚。地瓜也覺(jué)得現(xiàn)在做SEO的大蝦們?cè)絹?lái)越多,什么感想,什么方討論都是近乎雷同,很多時(shí)候我們自認(rèn)為自己是SEO,其實(shí)我們只是知道些簡(jiǎn)單的方法與技巧,真正的原理,真正的是什么并沒(méi)有搞明白。因此,地瓜覺(jué)得自己也有必要多多學(xué)習(xí)與感悟SEO中基本其實(shí)也是核心的東西。

搜索引擎工作過(guò)程非常復(fù)雜,地瓜簡(jiǎn)單分享搜索引擎是怎樣實(shí)現(xiàn)網(wǎng)頁(yè)排名的。正如ZAC書(shū)中所說(shuō)的“這里介紹的內(nèi)容相對(duì)于真正的搜索引擎技術(shù)來(lái)說(shuō)只是皮毛,不過(guò)對(duì)SEO人員已經(jīng)足夠用了?!彼阉饕娴墓ぷ鬟^(guò)程大體上可以分成三個(gè)階段。(1)爬行和抓取:搜索引擎蜘蛛通過(guò)跟蹤鏈接訪問(wèn)網(wǎng)頁(yè),獲得頁(yè)面HTML代碼存入數(shù)據(jù)庫(kù)。(2)預(yù)處理:索引程序?qū)ψト?lái)的頁(yè)面數(shù)據(jù)進(jìn)行文字提取、中文分詞、索引等處理,以備排名程序調(diào)用。(3)排名:用戶(hù)輸入關(guān)鍵詞后,排名程序調(diào)用索引庫(kù)數(shù)據(jù),計(jì)算相關(guān)性,然后按一定格式生成搜索結(jié)果頁(yè)面。

而本文,地瓜分享的是搜索引擎工作原理的第三個(gè)步驟:步驟,方法,排名:經(jīng)過(guò)搜索引擎蜘蛛抓取頁(yè)面,索引程序計(jì)算得到倒排索引后,搜索引擎就準(zhǔn)備好可以隨時(shí)處理用戶(hù)搜索了。用戶(hù)在搜索框填入關(guān)鍵詞后,排名程序調(diào)用索引庫(kù)數(shù)據(jù),計(jì)算排名顯示給用戶(hù),排名過(guò)程是與用戶(hù)直接互動(dòng)的。

1.搜索詞處理

搜索引擎接收到用戶(hù)輸入的搜索詞后,需要對(duì)搜索詞做一些處理,才能進(jìn)入排名過(guò)程。搜索詞處理包括如下幾方面。

(1)中文分詞。與頁(yè)面索引時(shí)一樣,搜索詞也必須進(jìn)行中文分詞,將查詢(xún)字符串轉(zhuǎn)換為以詞為基礎(chǔ)的關(guān)鍵詞組合。分詞原理與頁(yè)面分詞相.
(2)去停止詞。和索引時(shí)一樣,搜索引擎也需要把搜索詞中的停止詞去掉,大限度地提高排名相關(guān)性及效率。
(3)指令處理。查詢(xún)?cè)~完成分詞后,搜索引擎的默認(rèn)處理方式是在關(guān)鍵詞雙頭螺柱聯(lián)合之間使用“與”邏輯。也就是說(shuō)用戶(hù)搜索“*方法”時(shí),程序分詞為“*”和“方法”兩個(gè)詞,搜索引擎排序時(shí)默認(rèn)認(rèn)為,用戶(hù)尋找的是既包含“*”,也包含“方法”的頁(yè)面。只包含“*”不包含“方法”,或者只包含“方法”不包含“*”的頁(yè)面,被認(rèn)為是不符合搜索條件的。當(dāng)然,這只是極為簡(jiǎn)化的為了說(shuō)明原理的說(shuō)法,實(shí)際上我們還是會(huì)看到只包含一部分關(guān)鍵詞的搜索結(jié)果。另外用戶(hù)輸入的查詢(xún)?cè)~還可能包含一些搜索指令,如加號(hào)、減號(hào)等,搜索引擎都需要做出識(shí)別和相應(yīng)處理。有關(guān)搜索指令,后面還有詳細(xì)說(shuō)明。
(4)拼寫(xiě)錯(cuò)誤矯正。用戶(hù)如果輸入了明顯錯(cuò)誤的字或英文單詞拼錯(cuò),搜索引擎會(huì)提示用戶(hù)正確的用字或拼法。
(5)整合搜索觸發(fā)。某些搜索詞會(huì)觸發(fā)整合搜索,比如明星姓名就經(jīng)常觸發(fā)圖片和視頻內(nèi)容,當(dāng)前的熱門(mén)話題又容易觸發(fā)資訊內(nèi)容。哪些詞觸發(fā)哪些整合搜索,也需要在搜索詞處理階段計(jì)算。

2.文件匹配

搜索詞經(jīng)過(guò)處理后,搜索引擎得到的是以詞為基礎(chǔ)的關(guān)鍵詞*。文件匹配階段就是找出含有所有關(guān)鍵詞的文件。在索引部分提到的倒排索引使得文件匹配能夠快速完成。

假設(shè)用戶(hù)搜索“關(guān)鍵詞2
關(guān)鍵詞7”,排名程序只要在倒排索引中找到“關(guān)鍵詞2”和“關(guān)鍵詞7”這兩個(gè)詞,就能找到分別含有這兩個(gè)詞的所有頁(yè)面。經(jīng)過(guò)簡(jiǎn)單計(jì)算就能找出既包含“關(guān)鍵詞2”,也包含“關(guān)鍵詞7”的所有頁(yè)面:文件1和文件6。

3.初始子集的選擇

找到包含所有關(guān)鍵詞的匹配文件后,還不能進(jìn)行相關(guān)性計(jì)算,因?yàn)檎业降奈募?jīng)常會(huì)有幾十萬(wàn)幾百萬(wàn),甚至上千萬(wàn)個(gè)。要對(duì)這么多文件實(shí)時(shí)進(jìn)行相關(guān)性計(jì)算,需要的時(shí)間還是比較長(zhǎng)的。
實(shí)際上用戶(hù)并不需要知道所有匹配的幾十萬(wàn)、幾百萬(wàn)個(gè)頁(yè)面,絕大部分用戶(hù)只會(huì)查看前兩頁(yè),也就是前20個(gè)結(jié)果。搜索引擎也并不需要計(jì)算這么多頁(yè)面的相關(guān)性,而只要計(jì)算重要的一部分頁(yè)面就可以了。常用搜索引擎的人都會(huì)注意到,搜索結(jié)果頁(yè)面通常多顯示100個(gè)。用戶(hù)點(diǎn)擊搜索結(jié)果頁(yè)面底部的“下一頁(yè)”鏈接,多也只能看到第100頁(yè),也就是1000個(gè)搜索結(jié)果。搜索引擎只需要計(jì)算前1000個(gè)結(jié)果的相關(guān)性,就能滿(mǎn)足要求。

但問(wèn)題在于,還沒(méi)有計(jì)算相關(guān)性時(shí),搜索引擎又怎么知道哪一千個(gè)文件是相關(guān)的?所以用于后相關(guān)性計(jì)算的初始頁(yè)面子集的選擇,必須依靠其他特征而不是相關(guān)性,其中主要的就是頁(yè)面權(quán)重。由于所有匹配文件都已經(jīng)具備了基本的相關(guān)性(這些文件都包含所有查詢(xún)關(guān)鍵詞),搜索引擎通常會(huì)用非相關(guān)性的頁(yè)面特征選出一個(gè)初始子集。初始子集的數(shù)目是多少?幾萬(wàn)個(gè)?或許更多,外人并不知道。不過(guò)可以肯定的是,當(dāng)匹配頁(yè)面數(shù)目巨大時(shí),搜索引擎不會(huì)對(duì)這么多頁(yè)面進(jìn)行計(jì)算,而必須選出頁(yè)面權(quán)重較高的一個(gè)子集,再對(duì)子集中的頁(yè)面進(jìn)行相關(guān)性計(jì)算。

4.相關(guān)性計(jì)算

選出初始子集后,對(duì)子集中的頁(yè)面計(jì)算關(guān)鍵詞相關(guān)性。計(jì)算相關(guān)性是排名過(guò)程中重要的一步。相關(guān)性計(jì)算是搜索引擎算法中令SEO感興趣的部分。
影響相關(guān)性的主要因素包括如下幾方面。
(1)關(guān)鍵詞常用程度。經(jīng)過(guò)分詞后的多個(gè)關(guān)鍵詞,對(duì)整個(gè)搜索字符串的意義貢獻(xiàn)并不相同。越常用的詞對(duì)搜索詞的意義貢獻(xiàn)越小,越不常用的詞對(duì)搜索詞的意義貢獻(xiàn)越大。舉個(gè)例子,假設(shè)用戶(hù)輸入的搜索詞是“我們冥王星”?!拔覀儭边@個(gè)詞常用程度非常高,在很多頁(yè)面上會(huì)出現(xiàn),它對(duì)“我們冥王星”這個(gè)搜索詞的辨識(shí)程度和意義相關(guān)度貢獻(xiàn)就很小。找出那些包含“我們”這個(gè)詞的頁(yè)面,對(duì)搜索排名相關(guān)性幾乎沒(méi)有什么影響,有太多頁(yè)面包含“我們”這個(gè)詞。未來(lái)幾年,都不會(huì)有實(shí)質(zhì)性的改變。好了,以上是我的一些觀點(diǎn),歡迎大家指正。

【版權(quán)聲明】:本站內(nèi)容來(lái)自于與互聯(lián)網(wǎng)(注明原創(chuàng)稿件除外),供訪客免費(fèi)學(xué)習(xí)需要。如文章或圖像侵犯到您的權(quán)益,請(qǐng)及時(shí)告知,我們第一時(shí)間刪除處理!謝謝!

無(wú)雙科技
如何獲取外貿(mào)詢(xún)盤(pán)和訂單?
網(wǎng)站建設(shè)咨詢(xún):13534259410

經(jīng)典客戶(hù)案例展示

熱門(mén)服務(wù)
眾多企業(yè)的選擇

深圳無(wú)雙科技 - 專(zhuān)注于高端網(wǎng)站建設(shè)、網(wǎng)站設(shè)計(jì)開(kāi)發(fā)、品牌網(wǎng)站制作

咨詢(xún)電話:13534259410

售后服務(wù):13534259410  (7×24小時(shí))
在線 Q Q:253849310 (售前咨詢(xún))

深圳網(wǎng)站建設(shè)咨詢(xún)
【掃一掃咨詢(xún)】
  • 掃一掃 在線咨詢(xún)
    無(wú)雙科技官方公眾號(hào)
  • 響應(yīng)式客戶(hù)端
    掃一掃 關(guān)注好友
體驗(yàn)創(chuàng)新服務(wù)

深圳無(wú)雙科技,專(zhuān)注于深圳網(wǎng)站建設(shè)、深圳網(wǎng)站設(shè)計(jì)、深圳網(wǎng)站制作。
服務(wù)客戶(hù)超3000家,一站式網(wǎng)站建設(shè)及推廣營(yíng)銷(xiāo)解決方案提供商。
我們的價(jià)值觀:誠(chéng)信、坦誠(chéng)、盡責(zé)、創(chuàng)新。期待與您合作!

您好,很高興為您服務(wù) ^_^