2004/12/29

关于Google搜索引擎作弊的解释

Google排名的意义:
根据Jupiter MediaMetrix 2002年公布的统计数据,79%的互联网用户依靠搜索引擎获取信息,信息搜索成为仅次于电子邮件的互联网第二大应用。而在众多搜索引擎当中,Google以其庞大的搜索量,快速而精准的搜索结果和极高的知名度成为搜索引擎的代名词,因此自然成为企业网站推广的首选。
Google排名优化:
优化的方式形形色色,一般无外乎按照一定的关键词,通过对网站结构,页面因素和外部链接的优化,使网站得到最佳的搜索引擎排名。但事实上我们发现,有一些网站由于采取了不正确的优化策略,不但未能有效提升网站的排名,反而使网站排名惨跌甚至遭到搜索引擎删除。在此我们列出被Google明令禁止的属SPAM性质的优化技术供大家借鉴。

一:隐藏文本/隐藏链接
一般指网页专为搜索引擎所设计,但普通访问者无法看到的文本内容或链接。在形形色色的隐藏技术中,最常见的就是把文本或链接文字的字体颜色设置为与背景色相同或十分接近。

隐藏文本内容(Invisable/hidden text)
意欲在不影响网站美观的前提下通过包含大量关键词的网页提高关键词相关性得分,从而达到改善搜索引擎排名的目的。

隐藏链接(Invisable/hidden links)
意欲在不影响网站美观的前提下通过在其它页面添加指向目标优化页的隐形链接,通过提升链接得分而改善搜索引擎排名。
现在大多数搜索引擎都能检测隐藏技术,并视为作弊。因而包含隐含文本的网页面临被搜索引擎降低排名甚至删除列表的惩罚。虽然在Google上不乏使用隐形技术而侥幸逃脱的网站,但多数人还是认为不值得冒这个险。其实通过添加可视文本内容并保证一定的关键词密度可达到相同的优化效果。

二:网页与Google描述不符
一般发生于先向搜索引擎提交一个网站,等该网站被收录后再以其它页面替换该网站。"诱饵行为(Bait-&-Switch)"就属于此类偷梁换柱之举--创建一个优化页和一个普通页,然后把优化页提交给搜索引擎,当优化页被搜索引擎收录后再以普通页取而代之。

三:误导性或重复性关键词

误导性关键词(Misleading Words)
在页面中使用与该网页毫不相干的误导性关键词来吸引查询该主题的访问者访问网站。这种做法严重影响了搜索引擎所提供结果的相关性和客观性,为搜索引擎所深恶痛绝。

重复性关键词(Repeated Words)
这种作弊技术也被称为"关键词堆砌欺骗(Keyword Stuffing)",它利用搜索引擎对网页正文和标题中出现的关键词的高度关注来对关键词进行不合理的(过度)重复。类似的其它做法还包括在HTML元标识中大量堆砌关键字或使用多个关键字元标识来提高关键词的相关性。这种技术很容易被搜索引擎察觉并受到相应惩罚。

四:隐形页面(Cloaked Page)
对实际访问者或搜索引擎任一方隐藏真实网站内容,以向搜索引擎提供非真实的搜索引擎友好的内容提升排名。

五:欺骗性重定向(Deceptive redirects)
指把用户访问的第一个页面(着陆页)迅速重定向至一个内容完全不同的页面。

"鬼域(Shadow Domain)"
这是最常见的欺骗性重定向技术,通过欺骗性重定向使用户访问另外一个网站或页面。一般利用HTML刷新标识(Meta Refresh)来实现。大多搜索引擎都不会索引使用该标识的页面。如果你使用刷新标识来检测浏览器或分辨率,那么就请使用Javascript,且尽可能延长重定向时间。如果一定要使用重定向功能,那么请务必确保刷新周期不少于10秒钟。

还有一种情况就是当用户打开一个网站,该网站声称其网站已移至新域名下,并请用户点击新域名链接进入网站。但当用户进去后才发现,这个链接是一个"会员"链接。这也属欺骗性重定向行为。

六:门页(Doorway Page)
也叫"Bridge/Portal/Jump/Entry Page"。是为某些关键字特别制作的页面,专为搜索引擎设计,目的是提高特定关键词在搜索引擎中的排名所设计的富含目标关键词的域名,且重定向至另一域名的真实网站。搜索引擎的Spiders往往忽略对那些自动重定向到其它页的页面的检索。

七:复制的站点或网页
最常见的当属镜象站点(Mirror Sites)。通过复制网站或卬页的内容并分配以不同域名和服务器,以此欺骗搜索引擎对同一站点或同一页面进行多次索引。现在大多数搜索引擎都提供有能够检测镜象站点的适当的过滤系统,一旦发觉镜象站点,则源站点和镜象站点都会被从索引数据库中删除。

八:作弊链接技术/恶意链接(Link Spamming)
典型的作弊链接技术包括:

链接工厂(link farms)

大宗链接交换程序(bulk link exchange programs)

交叉链接(Cross Link)

"链接工厂"(亦称"大量链接机制")指由大量网页交叉链接而构成的一个网络系统。这些网页可能来自同一个域或多个不同的域,甚至可能来自不同的服务器。一个站点加入这样一个"链接工厂"后,一方面它可得到来自该系统中所有网页的链接,同时作为交换它需要"奉献"自己的链接,籍此方法来提升链接得分,从而达到干预链接得分的目的。如今搜索引擎发现它们已然不费吹灰之力。只要发现,不管属有意还是无意,"链接工厂"中的所有站点都难逃干系。

九:其它

日志欺骗行为
通过对一些页面等级较高的站点进行大量的虚假点击以求名列这些站点的最高引用者日志中,从而获得它们的导入链接。Google已然意识到这种行为并将对利用这种途径获得导入链接的站点采取相应措施。

门域(Doorway Domain)
专为提高特定关键词在搜索引擎中的排名所设计的富含目标关键词的域名,然后重定向至其它域名的主页。由于搜索引擎一般忽略自动重定向至其它页的页面的检索,所以不提倡使用这种技术。

Technorati :

2004/12/01

对Google更新过程的最终解释

  Google是如何更新全部索引的?这是一个范围相当宽的问题,大家都知道,Google为确保向用户提供最具相关性和质量最高的搜索结果而对其数据库按月进行更新。为了回答上述问题,在本文中我将向大家详细说明Google更新过程的每个步骤。
  有相当多的用户和公司都已经发现,为了在早期的搜索引擎优化中,能在Google里有个很好的排名,在认真做计划之前就要采取一切必要的措施。就免费提交的搜索引擎来说,Google是为数极少之中的一个,也是最早将网站收录到数据库的搜索引擎之一。到2003年7月10日为止,Google已经成为收录34亿个网页之多的最广泛的数据库。其中只有一小部分不能够被Google访问,因为这些站点是不能够被搜索引擎爬虫或蜘蛛所访问的。
  就象在现实生活中一样,无论是对网站所有者、网站管理员还是搜索引擎优化专家来说,当开始一个新产品的市场时,有很大的风险和潜在的复杂性。然而大多数专家都一致同意在使用Google搜索时,要正确输入关键字,这样才可以有效地搜索到你所要查找的信息。因为Google每个月都会更新它的数据库。在这篇文章中,我们要解释关于"Google Dance"的信息,还有如何在恰当的时间理解"Googlebot"。另外,我们也会告诉你如何进行搜索引擎的优化。

  著名的"Google Dance"
  如果你想写封信去参加在Google总部的年度更新过程,那么你可能希望继续读到GooglePlex这篇文章,从中了解Google数据库和搜索引擎机器人是何如工作的。关于Google每月周期性的更新过程有很多的文档记录。而在过去整整一年,Google的这种每个月的周期性更新(如今人们亲切称之为"Google Dance")对那些焦虑等待的网站所有者和网站管理员来说,都变得愈加复杂和不可琢磨。
  每次的更新都是从Google的一个主要的深层次的爬虫开始的。我们先把它叫做爬虫A。它是如何索引到整个网站中至少三四十亿的网页的呢?Google使用了15000多台位于不同数据中心的计算机,来索引全世界范围内的站点。当Googlebot来搜索数据库中现有站点时,同时也会搜索到最新的网站。一旦Google完成了爬虫A这个过程,就会为下一步的更新有效地搜索到所有的网页,然后便是两个星期后的第二次更新过程。
  最后,Google会更新整个数据库,在www2.google.com和www3.google.com这两个站点上可以看到最新的更新结果。在更新的同时,其结果会很快的连接在主要数据库和第二、第三个数据库之间。由于Google使用的服务器有15000台之多,因此在整个更新结束之前,不同地方的人们所得到的搜索结果是不同的。"Google Dance"会持续好几天,但是不会超过一个星期。除非Google要改变一些主要的规则,比如2003年4月份的更新。
  无论是在Google的每个数据库更新的时候还是在更新之后 只要其中一个数据库进行更新,Google又会开始新一轮的"全面"检索。我们把它称做爬虫B。这次检索仍然包括数据库中所有已被收录站点和一些新发布的网站。GoogleBot的这次检索完成之后,就是Google下一轮更新的起点,意味着下个月的更新又全面开始了。

  在完美时间"捕捉"Googlebot
  为了得到包括Google数据库在内的任何网站,或是数据库中有效反映更新的网站,一个有经验的网站管理员需要事先作认真的计划,并准备好一切。这样他才能在能每月特定的更新过程中"抓住"Googlebot,以取得一个好的排名。多数好的搜索引擎优化专家都知道Googlebot一开始的索引都是在月初进行的,而深层次的索引是在更新之后开始的。
  如果一个网站管理员希望在Google的数据库中收录一个新站点,那么问题是,会不会有一个爬虫来保证收录呢?根据我们对其每月更新的经验来判断,并不总是这样的。毫无疑问,如果一个网站在月初就被索引的话,那么在这个月的更新过程中,就不会被收录。如果是在这个月的第二次索引中提交的话,就有可能被重新访问,并且在下次的更新时被收录。
  在其他情况下,Google只是简单浏览一下新提交的站点,记下主页和Robots.txt文档。像这种行为通常是一个好的指示,Googlebot会在下次主要索引期间再次回来。所以站点通常会在第二次索引更新时被收录。对一个新的网站来说,被收录到Google的数据库中,要被在Googlebot那里访问两次。虽然有些例外的情况,但多数情况下是这样的。
  为了确保快速被收录的可能,一个有经验的网站管理员需要做一些工作。如果网站被Googlebot第一次更新后索引的话,这其实是一个很好的迹象,很有可能会在Google下个月的更新中被收录。如果这次没有被索引的话,网站管理员就要为再次的索引等待更长的时间。
  根据这一点,一个网站管理员如果要想让他的网站在Google更新时的这个非常时期得到索引,那么他一般应该怎么做呢?他完全可以做些必要的准备工作。如果有被Google已经收录的网站,那么可以通过这些网站的变化来观察整个检索过程和所有更新日期 然后据此仔细规划新网站的发布。此外,如果没有已经为Google收录的网站,也不要紧,可以常访www.google.com来观察它的更新过程。
  然而,实际生活中几乎不可能100%的确定任何网站都可以部分的或是全部的被索引,为了能使您的网站被Googlebot索引到,网站管理员需要做一些工作。第一,要和那些页面等级高的站点交换连接。因为这些网站会经常被Google索引和更新。也就是说,如果和他们做连接的话,你的站点也会被经常地索引和更新。但要注意的是一定要有相关性:如果一个网站是做家具零售的,那就要和其相似的公司,比如家具制作或销售的站点做连接。这样做Google会给你一个较高的等级;反之,和那些无关的网站做连接则不会得到一个高的等级。第二,你也可以直接向Google做提交。虽然这不是最好的方法,但也是值得去做的。第三,网站管理员可以安装一个Google工具栏,通过这个工具栏可以访问到其它站点。自2002年中期起,就有很多关于网站被Google数据库收录和通过Google工具栏访问二者直接关系的报告。
  你也可以选择Yahoo的有偿收录服务,这样可以保证在七天内被Yahoo收录。一旦为Yahoo收录,你的网站就会很快被Google收录了。当然你不用每年都花299美元。还有一个不用花钱的方法,就是把你的网站提交到DMOZ。虽然它的服务器有时会出现问题,而且被DMOZ收录可能要花很长的时间。但这确是一个能让您的网站被Google收录的好方法。
结论:
  所有可以提供给网站管理员和搜索引擎优化专家的技术信息,都是从Google爬虫和更新模式那里得到的。它们会对搜索引擎优化的计划和实施有很大帮助。其中最主要的是有助于我们安排计划,因为新的提高和更新需要一个被收录到搜索引擎数据库的特定时间和日期。由于Google决定了大部分的目标搜索引擎访问量,所以让你的网站为Google收录是十分有必要的。

联系方式

本站域名可出售,具体咨询:
admin@xianlu.ren

最新留言

其它博客列表