| 網(wǎng)站建設(shè)是指使用標(biāo)識(shí)語(yǔ)言(markup language),通過(guò)一系列設(shè)計(jì)、建模、和執(zhí)行的過(guò)程將電子格式的信息通過(guò)互聯(lián)網(wǎng)傳輸,最終以圖形用戶界面(GUI)的形式被用戶所瀏覽。簡(jiǎn)單來(lái)說(shuō),網(wǎng)頁(yè)設(shè)計(jì)的目的就是產(chǎn)生網(wǎng)站。簡(jiǎn)單的信息如文字,圖片(GIF,JPEG,PNG)和表格,都可以通過(guò)使超文件標(biāo)示語(yǔ)言、可擴(kuò)展超文本標(biāo)記語(yǔ)言等標(biāo)示語(yǔ)言放置到網(wǎng)站頁(yè)面上。 Internet越來(lái)越酷,WWW的知名度如日中天。在Internet上發(fā)布公司信息、進(jìn)行電子商 務(wù)已經(jīng)從時(shí)髦演化成時(shí)尚。作為一個(gè)Web Master,你可能對(duì)HTML、Javascript、Java、 ActiveX了如指掌,但你是否知道什么是Web Robot?你是否知道Web Robot和你所設(shè) 計(jì)的主頁(yè)有什么關(guān)系? Internet上的流浪漢--- Web Robot 有時(shí)你會(huì)莫名其妙地發(fā)現(xiàn)你的主頁(yè)的內(nèi)容在一個(gè)搜索引擎中被索引,即使你從未與他 們有過(guò)任何聯(lián)系。其實(shí)這正是Web Robot的功勞。Web Robot其實(shí)是一些程序,它可以 穿越大量Internet網(wǎng)址的超文本結(jié)構(gòu),遞歸地檢索網(wǎng)絡(luò)站點(diǎn)所有的內(nèi)容。這些程序有時(shí) 被叫 “蜘蛛(Spider)” , “網(wǎng)上流浪漢(Web Wanderer)”,“網(wǎng)絡(luò)蠕蟲(chóng)(web worms)”或Web crawler。一些Internet網(wǎng)上知名的搜索引擎站點(diǎn)(Search Engines)都 有專門(mén)的Web Robot程序來(lái)完成信息的采集,例如Lycos,Webcrawler,Altavista等,以 及中文搜索引擎站點(diǎn)例如北極星,網(wǎng)易,GOYOYO等。 Web Robot就象一個(gè)不速之客,不管你是否在意,它都會(huì)忠于自己主人的職責(zé),任勞 任怨、不知疲倦地奔波于萬(wàn)維網(wǎng)的空間,當(dāng)然也會(huì)光臨你的主頁(yè),檢索主頁(yè)內(nèi)容并生 成它所需要的記錄格式;蛟S有的主頁(yè)內(nèi)容你樂(lè)于世人皆知,但有的內(nèi)容你卻不愿被 洞察、索引。難道你就只能任其“橫行”于自己主頁(yè)空間,能否指揮和控制Web Robot的行蹤呢?答案當(dāng)然是肯定的。只要你閱讀了本篇的下文,就可以象一個(gè)交通 警察一樣,布置下一個(gè)個(gè)路標(biāo),告訴Web Robot應(yīng)該怎么去檢索你的主頁(yè),哪些可以 檢索,哪些不可以訪問(wèn)。 其實(shí)Web Robot能聽(tīng)懂你的話 不要以為Web Robot是毫無(wú)組織,毫無(wú)管束地亂跑。很多Web Robot軟件給網(wǎng)絡(luò)站點(diǎn)的 管理員或網(wǎng)頁(yè)內(nèi)容制作者提供了兩種方法來(lái)限制Web Robot的行蹤: 1、Robots Exclusion Protocol 協(xié)議 網(wǎng)絡(luò)站點(diǎn)的管理員可以在站點(diǎn)上建立一個(gè)專門(mén)格式的文件,來(lái)指出站點(diǎn)上的哪一部分 可以被robot訪問(wèn), 這個(gè)文件放在站點(diǎn)的根目錄下,即http://.../robots.txt. 2、Robots META tag 一個(gè)網(wǎng)頁(yè)作者可以使用專門(mén)的HTML META tag ,來(lái)指出某一個(gè)網(wǎng)頁(yè)是否可以被索 引、分析或鏈接。 這些方法適合于大多數(shù)的Web Robot,至于是否在軟件中實(shí)施了這些方法,還依賴于 Robot的開(kāi)發(fā)者,并非可以保證對(duì)任何Robot都靈驗(yàn)。如果你迫切需要保護(hù)自己內(nèi)容, 則應(yīng)考慮采用諸如增加密碼等其他保護(hù)方法。 使用Robots Exclusion Protocol協(xié)議 當(dāng)Robot訪問(wèn)一個(gè) Web 站點(diǎn)時(shí),比如http://www.sti.net.cn/,它先去檢查文件http: //www.sti.net.cn/robots.txt。如果這個(gè)文件存在,它便會(huì)按照這樣的記錄格式去分析: User-agent: *
在一個(gè)站點(diǎn)上只能有一個(gè) "/robots.txt" 文件,而且文件名的每個(gè)字母要求全部是小 寫(xiě)。在Robot的記錄格式中每一個(gè)單獨(dú)的"Disallow" 行表示你不希望Robot訪問(wèn)的URL, 每個(gè)URL必須單獨(dú)占一行,不能出現(xiàn) "Disallow: /cgi-bin/ /tmp/"這樣的病句。同時(shí)在一個(gè) 記錄中不能出現(xiàn)空行,這是因?yàn)榭招惺嵌鄠(gè)記錄分割的標(biāo)志。 User-agent行指出的是Robot或其他代理的名稱。在User-agent行,'*' 表示一個(gè)特殊的含 義---所有的robot。 下面是幾個(gè)robot.txt的例子: 在整個(gè)服務(wù)器上拒絕所有的robots: 允許所有的robots訪問(wèn)整個(gè)站點(diǎn): 服務(wù)器的部分內(nèi)容允許所有的robot訪問(wèn) 拒絕某一個(gè)專門(mén)的robot:
Robots META tag 允許HTML網(wǎng)頁(yè)作者指出某一頁(yè)是否可以被索引,或是否可以用來(lái)查 找更多的鏈接文件。目前只有部分robot實(shí)施了這一功能。 Robots META tag的格式為: Robots META tag指令使用逗號(hào)隔開(kāi),可以使用的指令包括 [NO]INDEX 和[NO] FOLLOW。INDEX 指令指出一個(gè)索引性robot是否可以對(duì)本頁(yè)進(jìn)行索引;FOLLOW 指 令指出robot是否可以跟蹤本頁(yè)的鏈接。缺省的情況是INDEX和FOLLOW。例如: 一個(gè)好的Web 站點(diǎn)管理員應(yīng)該將robot的管理考慮在內(nèi),使robot為自己的主頁(yè)服務(wù), 同時(shí)又不損害自己網(wǎng)頁(yè)的安全。 大多數(shù)人在上網(wǎng)的時(shí)候,都會(huì)瀏覽網(wǎng)頁(yè)提供給我們的信息。 |
溫馨提示:喜歡本站的話,請(qǐng)收藏一下本站!