欧美日本精品一区二区三区,抽搐一进一出GIF免费动态,国产精品久久久久久久久鸭无码,国产一区二区三区不卡AV

13861678970

如何讓各大搜索引擎收錄的四個步驟

日期:2013-04-24 13:16:10 訪問: 作者:淮安互聯(lián)

 1.大站優(yōu)先策略

 
  大站優(yōu)先的思路很直接,以網(wǎng)站為單位來衡量網(wǎng)頁的重要性,對于待抓取的URL隊列中的網(wǎng)頁,根據(jù)所述網(wǎng)站歸類,如果哪個網(wǎng)站等待下載的頁面最多,則 優(yōu)先下載這些鏈接。其本質(zhì)思想是「傾向于優(yōu)先下載大型網(wǎng)站URL」。因為大型網(wǎng)站往往包含更多的頁面。鑒于大型網(wǎng)站往往是名站,其網(wǎng)頁質(zhì)量一般較高,所以 這個思路雖然簡單,但有一定依據(jù)。
 
2.網(wǎng)頁評級
 
  而第二階段則是對網(wǎng)頁的重要性進行評級,PageRank是一種著名的鏈接分析算法,可以用來衡量網(wǎng)頁的重要性,很自然的,站長可以用 PageRank的思路來對URL進行排序,這就是各位熱衷的「發(fā)外鏈」,據(jù)一位朋友了解,在中國「發(fā)外鏈」這個市場每年有上億元的規(guī)模。
 
  爬蟲的目的就是去下載網(wǎng)頁,但PageRank是個全局性算法,也就是當所有網(wǎng)頁有下載完成后,其計算結(jié)果才是可靠的。對于中小網(wǎng)站來講,服務(wù)器如果質(zhì)量不好,如果在抓取過程中,只看到部分內(nèi)容,在抓取階段是無法獲得可靠的PageRank得分。
 
3.大小通吃
 
  搜索引擎的網(wǎng)頁抓取都是采取「大小通吃」的策略,也就是把網(wǎng)頁中能發(fā)現(xiàn)的鏈接逐一加入到待抓取URL中,機械性的將新抓取的網(wǎng)頁中的URL提取出來,這種方式雖然比較古老,但效果很好,這就是為什么很多站長反應(yīng)蜘蛛來訪問了,但沒有收錄的原因,這僅僅是一階段。
 
4.OCIP策略
 
  OCIP策略更像是PageRank算法的改進。在算法開始之前,每個網(wǎng)頁都給予相同的「現(xiàn)金」,每當下載某個頁面A后,A將自己的「現(xiàn)金」平均分給頁面中包含的鏈接頁面,把自己的「現(xiàn)金」清空。這就是為什么導(dǎo)出的鏈接越少,權(quán)重會越高的原因之一。
 
  而對于待抓取的網(wǎng)頁,會根據(jù)手頭擁有的現(xiàn)金多少排序,優(yōu)先下載現(xiàn)金最充裕的網(wǎng)頁,OCIP大致與PageRank思路一致,區(qū)別在于:PageRank每次要迭代計算,而OCIP則不需要,所以計算速度遠遠快于PageRank,適合實時計算使用。這可能就是為什么很多網(wǎng)頁會出現(xiàn)「秒收」的情況了。
 

上一篇:3月28日百度k掉權(quán)重之后天天快照體會

下一篇:避免網(wǎng)站重復(fù)性收錄的四個問題

最新推薦

Sharing site

讓建站 零風(fēng)險

“高端網(wǎng)站建設(shè)”網(wǎng)建科技專業(yè)高端定制化建站,

為企業(yè)量身定制提升50%營銷轉(zhuǎn)化率與品牌形象美譽度。

網(wǎng)建科技高端建站零風(fēng)險,設(shè)計到滿意為止!

馬上咨詢