性色av网站,久久少妇区一区二区三区精品十八禁,性少妇videsexfree片,午夜精品二区久久

資訊動態(tài)

Latest News

網(wǎng)站設(shè)計者應(yīng)該學(xué)習(xí)的爬蟲工作原理

·爬蟲爬行范圍和鏈接結(jié)構(gòu):

如果希望網(wǎng)站能夠吸引新的訪問者,在網(wǎng)站設(shè)計過程中,網(wǎng)站設(shè)計者們應(yīng)考慮商業(yè)引擎網(wǎng)絡(luò)爬蟲的工作原理。關(guān)于商業(yè)引擎網(wǎng)絡(luò)爬蟲工作原理的具體細(xì)節(jié),外人知道得很少,但可以從其一般工作原理中獲得幾點啟示。

許多網(wǎng)站從未被任何搜索引擎發(fā)現(xiàn)過,網(wǎng)站設(shè)計者們應(yīng)該確保他們的網(wǎng)站能夠讓搜索引擎的“爬蟲”發(fā)現(xiàn)。某些搜索引擎有 URL提交功能,即允許設(shè)計者們將其網(wǎng)站的URL提交到爬行列表中,所有的主流搜索引擎都有這一功能;有些搜索引擎雖沒有此功能,但如果已經(jīng)被索引過的網(wǎng)站中有指向未被索引到的網(wǎng)站的鏈接,那么順著鏈接,爬蟲也能爬取該網(wǎng)站。因此,對于新網(wǎng)站而言,應(yīng)該確保至少有一個已經(jīng)被主流搜索引擎索引到的網(wǎng)站鏈接到該網(wǎng)站。
 

網(wǎng)絡(luò)爬蟲是沿著從網(wǎng)頁文本中提取出來的鏈接爬行的,任何一個網(wǎng)站都應(yīng)含有足夠的鏈接,以便爬蟲能夠發(fā)現(xiàn)該站點所有的網(wǎng)頁。更具體的講,爬蟲很可能從網(wǎng)站的首頁開始爬行,因此,網(wǎng)站首頁上的鏈接應(yīng)能夠指向該網(wǎng)站所有的網(wǎng)頁。另外,這些鏈接必須包含在網(wǎng)頁的HTML中,且是標(biāo)準(zhǔn)的HTML(如,使用錨點標(biāo)簽),因為爬蟲可能識別不了其他格式的鏈接,包括JAVA或JavaScript格式。


 

·搜索引擎程序是這樣解析網(wǎng)頁文本的:

知道搜索引擎處理網(wǎng)頁的過程,有益于了解它們是如何尋找相關(guān)網(wǎng)頁的。似乎所有的商業(yè)搜索引擎都采用了向量空間模型,或是它的變體,向量空間模型一般是與其他技術(shù)結(jié)合在一起使用的。向量空間模型將所有的網(wǎng)頁都轉(zhuǎn)換到一個無序的詞庫中,每個網(wǎng)頁都用一個列表表示,列表中是網(wǎng)頁里各個詞出現(xiàn)的頻率。稍后,會用數(shù)學(xué)公式將詞頻轉(zhuǎn)換為權(quán)重,該數(shù)學(xué)公式能夠賦予文檔中詞頻較高的詞語較高的權(quán)重。同時,也會給稀有詞語賦予較高的權(quán)重。

一個網(wǎng)頁中的文本對搜索引擎來說,比對用戶更為重要。網(wǎng)頁中的文本與鏈接主題無關(guān),但可以給出一些網(wǎng)站的總體印象,這些網(wǎng)站里有些內(nèi)容不愿被搜索引擎索引到,所以,在設(shè)計時專門提防著搜索引擎。此時,需要區(qū)分“爬行”和“索引”這兩個概念。爬行一個網(wǎng)站是指沿著鏈接訪問該站點上所有的頁面,且一般會為這些網(wǎng)頁保存一個復(fù)本。索引則是爬行的下一個階段,即將網(wǎng)頁文本存人到一個特殊的“倒排文檔”數(shù)據(jù)庫中,利用“倒排文檔”數(shù)據(jù)庫,可以快速搜索到與用戶查詢相匹配的頁面。標(biāo)準(zhǔn)搜索引擎一般只索引網(wǎng)頁文本,而忽略圖片和其他多媒體信息。因此,討論搜索時就應(yīng)該區(qū)分文本和圖片。

用戶在訪問網(wǎng)站的時候,從圖片中獲得的信息比從文本中獲得的信息更直觀。舉一個極端的例子,一個來自知名公司的圖標(biāo)放在頁面中顯眼的位置,就足以說明該網(wǎng)頁是該公司的。相反,搜索引擎則是忽略所有圖片的,至少在從網(wǎng)頁中提取信息時是這樣的。如果一個網(wǎng)頁上都是電視機(jī)的圖片,但其文本中卻沒有一個“電視機(jī)”詞,那么,搜索引擎不知道這個頁面是關(guān)于電視機(jī)的。這就說明,網(wǎng)站的設(shè)計者們需要確保頁面中含有描述該站點主題內(nèi)容的詞語。

一些更聰明的方法可以用來幫助搜索引擎來判定該頁面是關(guān)于電視機(jī)的。Google首先提出了這樣的方法:如果有其他頁面鏈接到含有鞋子圖片的頁面,且錨文本中也提到鞋子,這便證明該圖片頁面是和鞋子相關(guān)的。另外,有一些精細(xì)的方法,如潛在語義分析,可以根據(jù)主題同義詞,或其他與主題相關(guān)的詞來猜測一個網(wǎng)頁的主題。例如,如果一個頁面中含有“顯示器”,或其他與電視機(jī)相關(guān)的詞(如“液晶顯示”和“等離子”);那么,這便足以說明該頁面是和電視機(jī)相關(guān)的。然而,網(wǎng)站設(shè)計者們不能依賴使用這些先進(jìn)技術(shù)的搜索引擎,因此,應(yīng)該保證他們站點的關(guān)鍵頁面中含有大量與主題相關(guān)的文本信息,可以吸引訪問者。當(dāng)然,這些文本應(yīng)該在站點頁面的HTML中,而不是在圖片,或Java程序或多媒體形式的媒介中。

聯(lián)系我們

高端創(chuàng)意建站品牌專家

地址:廣州市白云區(qū)白云大道北628號211創(chuàng)意園3層310房

電話:020-81717192

QQ:98707583

手機(jī):18138752285

郵箱:[email protected]