格式化网络是一个不可避免的趋势, Google 利用现有的品牌来进行推广他的sitemap (网站更新地图), 是一个google从主动角色到网站为主动角色的变换.     搜索引擎的主动性将由此转嫁到网站主并且”要求,希望”网站主来积极的配合, Don’t be Evil 的口号的风险越来越高.

原著:David Callan 编译:Karen 参考:Google的原罪–网页序列等级 内容摘要: 无论是对普通网络冲浪者还是网站管理员来说,Google都是目前世界范围内最受欢迎的搜索引擎。它每天处理的搜索请求高达1.5亿次,几乎占全球所有搜索量的1/3。网络冲浪者对Google情有独钟,是由于Google所提供的快速搜索速度及高命中率搜索结果。这些都是基于Google的复杂文本匹配运算法则及其搜索程序所使用的Pagerank?系统(网页级别技术)。下面我们将向大家介绍Google的Pagerank?系统。Google之所以受网站管理员和Internet媒体服务公司的欢迎,是由于它并非只使用关键词或代理搜索技术,而是将自身建立在高级的网页级别技术基础之上。别的搜索引擎提供给搜索者的是多种渠道得来的一个粗略的搜索结果,而Google提供给它的搜索者的则是它自己产生的高度精确的搜索结果。这就是为什么网站管理员会千方百计去提高自己网站在Google的排名。

其实 Google Pagerank 光辉的历史任务差不多已经完成,因此记得去年有人询问Google 说他们的网站的 PageRank 低的问题的时候,Google的答复是 Pagerank 是娱乐性质的,千万别当真。
其实说是娱乐,可是不当娱乐的人却大有人在,这不,昨天google pagerank更新了,就有人发email问我“你的单片日志如何做到 PageRank 6 的?”并附上了一个联接。
我记得我以前这个blog的PageRank是4,主站都才4,难道单篇日志能到6。打开一看(Firefox 的PageRank plugin),果然是6,不单这一篇,翻了几篇,竟然全部是6。
Google PageRank 真的有用么?说句老实话,我觉得真得就是一骗人的玩艺,还真得好多网站信誓旦旦打出这样的标语“本站只和PageRank >= 5 的网站做联接”,听起来就跟跟PageRank 低的网站做联接掉了身份似的。其实还不是被google 的Pagerank 给骗了?
可是话说回来,其实大家都很重视身份,有一个PageRank 5 ,6的网站特别是个人blog就跟被Google 授予了荣誉证书似的,有种特别的感觉。
PageRank 即便历史使命已经完成,可是造成的灾害却是后患无穷,例如现在的Link Spam,Comment Spam,refer Spam有哪一个不是Google PageRank 的影响造成的呢?想在互联网上挑战人们在道德和利益之间的选择,你会发现人们最终选择的是利益而不是道德。
垃圾留言泛滥的年代,是google PageRank 带来的唯一好处就是让这个互联网在道和魔的斗争中更上了一层。

PR值算法这里就不说了,我仅从自身经验谈谈怎样提高PR值
1,登陆dmoz,yahoo,looksmart,zeal等目录,这里目录的连接价格一个顶10个其他连接
2,多跟内容好,主题相近和高质量(PR高,页面内出连少——连接到其他站点的连接数量少)的网站做友情连接
3,可以主动到留言本,blog,wiki和其他地方制造连接
(注意不要连接到作弊的站点,不然可能殃及池鱼被搜索引擎惩罚)
其中第3条是制造连接的普遍方法,可是本人不推荐,垃圾站可以用这条,要是想好好做一个站,还是谨慎使用
上面只是pr提高的通俗说法,不过大概都是这种做法,想提高pr不和高质量的网站做链接,那就只有作弊了。

把google广告放在一个页面中,
此页面的名字起成有意义的英文单词。比如word.htm
这个英文单词要比较热门,这样才会有人做广告
然后在要放广告的页面中用框架调用
F:广告开始投放后,您就可以通过自己帐户中的在线报告随时查看收入情况。请注意,如果您的网站中
包含以下任一内容,都有可能无法从 AdSense 中获得最大收入:
* robots.txt
* 框架
* 表单与动态内容
* 过多的图像
* 要求登录和输入密码
Q:这段话的意思是,如果使用robots.txt,可能使google无法分析投放广告的网页的内容,有可能放置公益广告或者无广告。
同样的道理,使用框架,则框架内的内容可能无法分析,这样也可能放置公益广告或者无广告。
其他的* 表单与动态内容和过多的图像同理。
“有可能无法从 AdSense 中获得最大收入”不是针对这些内容的惩罚,
而是无法分析这些内容。
这些在帮助中提到过,这些也是出现公益广告的原因之一。
但是google只有靠分析页面内容才能分析该投放什么广告吗?
google搜索都做不到很快地分析页面内容,难道adsense能做到?
不是的,google的adsense分析走了一个捷径,
分析过程的第一步是看广告投放页面的url,如果这里边有单词,
则第一时间对这个单词做出反应。
如果没有单词,会扫描这个页面,然后google离线分析,
当下一次你的广告页面被刷新的时候,再和离线分析的数据对比,
如果一直没有分析出来(要分析的页面多,可能要等段时间)
一直出公益广告。
其实adsense也是部分运用了搜索引擎的原理,所以我是这样猜的,
而且事实也基本验证了这点。

虽然现在googlePR对很多站长来说已经失去了原有的价值,但是他始终还是google对于一个网站的综合评分,虽然已经与排名没有多大关系,但是PR高总比低好!
2008年1月12日google开始了第一次的更新,或许又是几家欢喜几家愁了!
没有安装google工具条的可以在这个页面进行更新后的PR查询!

Google是我最喜欢的搜索引擎,我被Google的精神而折服,被Google的文化而感染,我可以说是Google的超级粉丝之一了,今天看了一些东西,与Google的爱好者,以及想了解Google的人分享一下。Google,真不愧为世界最强的搜索引擎。下文为Google在为搜索引擎提供搜索过程中的服务过程.
  1、搜索框
  一切以任何人在网络上展开搜索为起点。任何关键词,比如:微码互联
  2、域名服务器
  Google域名服务器上的软件,运行于公司在全世界租用的或自有的数据中心上,其中包括在曼哈顿老港务局的一台电脑。它们唯一的目的,是计算出哪些集群此刻最不繁忙,以便尽可能高效的“指引”这些搜索进入Google的集群。
  3、集群
  这些搜索请求一刻不停地留入Google分布在全球的各地数据中心的至少200个集群中。
集群控制器,Google天赋表现在它的网络软件上,它能帮助一个集群中的成千上万台廉价的电脑像一个巨型硬盘一样工作。那些便宜的电脑允许Google在不停止整个“表演”的情况下替换局部组件:如果一台电脑死机了,至少有两台其他的电脑做好了替代它的准备,此间,工程师会把那台坏了的电脑换下。
  4、网络服务器
  这个程序把一个查询分摊给成千上万台机器,以便它们能在同一时刻为此次搜索服务。这种差异好比以前是你自己一个人去杂货店买东西,现在有100个人同时帮你找东西,然后把它扔到你的手推车里。
  5、索引服务器
  Google所以知道的一切都存储于一个巨大的数据库中。Google有上百台电脑同时扫描它的“卡片目录”以找到每一个相关的条目,而不是仅用一台电脑筛选这些十几亿的字节。热门的搜索词语会被缓此存储在内存中几个小时,而不是重新再搜索一遍。
  6、档案服务器
  在索引服务器把所有的结果汇编后,档案服务器抽出所有相关的文件—巨大的数据库里的链接和文章摘录。Google如何做到快速地搜索页面?其实它没有。Google在它已建立了索引的档案服务器中保存了三份互联网上的所有资料,这些资料都已经分门别类,做好了被使用的准备。
容量:基于一些Google发布的极有限的数据,专家猜测,Google服务器至少存储了20个 perabytes的数据(1pb等于100万G)。不那么保守的《连线》杂志则说,Google可能有200个pb的容量。如果你的IPOD只有 1perabytes,你就能存储大约2亿首歌。如果你要在高速互联网上下载1perabyte大小的东西,你的曾曾曾曾孙可能在2514年后一个字节传完时仍守在电脑左右。
  7、拼写服务器
  GOOGL并不阅读词汇。它寻找这些文字的模式,或者是英文或者是梵语。如果它根据你的搜索请求的模式得到1000个结果,但却找到一百万个由一个类似模式得到的结果,它会把这些点连接起来,并礼貌地询问你是否愿本想要查询这些词语,尽管你的肥手指可能把“对冲基金”错拼成“对葱基金”。
  8、广告服务器
  每一个查询都同时通过一个广告数据库,与之相匹配的数据会被送至页面服务器,以便它们能出现在搜索结果显示页。广告团队在跟搜索团队赛跑。Google立志尽可能提高搜索速度。如果广告匹配的结果所花费的时间比搜索结果用时更长,它就不会呈现在页面上,Google也就不能再此项搜索上赚到钱。
  9、页面生成器
  Google的页面服务器它对某一项查询的成千上万次搜索结果收集起来,组织所有的数据,然后把这些机灵而又简单的搜索结果呈现在你浏览器的窗口中,整个过程比你读这个局在所花的时间还要短。
  10、显示结果
  一般为0.25秒,或者更短。
  Google机器人:
  Google部署了一项称为蜘蛛(spiders)的项目,为的是建立它自己的互联网副本。在一些热门的网站,googlebot可能一小时内要跟踪若干次该网站的链接。每一次搜索,“蜘蛛们”就会把每一篇文章获带脉的每一个字都保存下来。原始数据将会被搜索集群中,穿过整个工厂,并且有计划地加速替换掉那些在索引服务器和档案服务器中的数据,从而保证搜索结果是新鲜的,而非静止的。
  页面排序:
  当GOOGLE形成了一个搜索结果清单时,通过对内容200多个因素分析, Google会决定一个网站有多可靠。这个网站的内容有多重要。Google方式的秘密是,它会通过每一个网站被其他不同网站链接的情况,对该网站的重要性做出评估,换言之,一个网站能否视为可靠,很大程度上取决于链接它的那些网站的质量。
  电力:
  只有一件事会限制Google的表现,那就是公司能买多少电。他最新的数据中心之一(编号:项目02)位于俄勒冈州的哥伦比亚河附近,这个数据中心使用着18亿瓦特低价的水力发电站的电。这并非偶然,这正是亚洲与美国网络的连接处。这个“字节工厂”有两个电脑中心,每一个都有一个足球场那么大。

Google排名算法算是考虑比较全面的,但一样会有这样那样的漏洞,比如Google对新网页的处理。
  按正常算法,通常新的网页比较难取得好的排名,因为没有历史,没有反向链接。很多人观察到Google会给新的网页一些特殊权重,使得这些新创建的页面有机会排到前面。
  另外,Google检测到某个关键词突然被大量搜索时,能够意识到这个关键词大概是当前的热门新闻。当检测到这种突发性的新闻关键词时,相关的新网页就给予更多权重,以使用户能够看到最新的相关内容。
  在正常情况下,这两个特点当然给用户带来更好的体验,可有的时候也会成为被利用的漏洞。这一点在2008年1月1号显露无遗。
  1月1号Google为了纪念TCP/IP协议诞生25周年,做了一个特殊的doodle。当用户点击Google首页logo时,会被直接带到搜索“January 1 tcp/ip”的搜索结果页。幻灭有抓图和报道。
  一位叫Ryan Durk的能人立刻抓住这个机会,在24小时内从Google狂扫30万IP。
  Ryan Durk就是利用Google给予新网页的特殊权重。他观察到在搜索January 1 tcp/ip时,当时排在前面的有维基百科的一个网页,和一些其他显然权重不高的网页。Ryan Durk选择Google自己的博客服务blogspot.com,专门为January 1 tcp/ip做了一个博客,博客URL是http://january-1-tcp-ip.blogspot.com
  选择blogspot的原因是blogspot本身域名权重极高,博客可以通过ping得到一些链接,blogspot能扛得住巨大流量,而且允许放Adsense。
  Ryan Durk注册了这个博客后,去一些社会性网摘书签网站提交,然后最聪明的是通过digg网站做了特殊推广。Ryan Durk的目标不是把自己的blogspot网页排到第一,而是把他提交的digg页排到最前面。Digg页排到前5名,就能够吸引大量digg用户继续投票,而且能在digg社区引起关注,带来内部链接。
  结果正如Ryan Durk所预料的,在3小时之内这个digg页进入digg首页,Google排名进第三。后续效应就由digg用户们自己继续扩展了,不必Ryan Durk进行推动。很快他的这个digg页被挖了2000多次,Google排名升到第一。
  通过Google logo来到这个digg页的人也都会想看看,为什么Google会以某种形式背书了Ryan Durk的blogspot博客,所以也就很自然的点击到他的博客。他新建的博客页很快也排在了第二。

在过去的一年GOOGLE彻底得改变了它的排名算法,现在对网站的排名已经采用了新规则。 2-3年前,友情链接的数量对搜索引擎排名起了决定性的作用,炸弹链接就是一个典型的例子。随着大量优秀网站及专业网站的出现,这些网站几乎超过了10年前网站数量的总和。GOOGLE已经意识到这些网站在搜索引擎上很难取得竞争优势,即使这些网站内容很优秀,即使那些旧网站内容做得很糟糕,但已经存在了大量友情链接和反向链接。
  今天GOOGLE并不注重你的网站有多少反向链接,有多少高PR值的网站与你的网站链接。GOOGLE关心的是你的反向链链接质量。它展示给人们一个全新的理念。
  你应该同意,同500个网站做链接交换是一件复杂的事情。但是令人遗憾的事,有钱的人他们可以通过购买友情链接就可以在一天之内获得许多友情链接。不过GOOGLE也很快明白了这点,这是过去对排名的一个重大改进。
这里有些新规则:
  1 )提交你的网站到合适的目录中。这意味着你应该避免使用免费和付费的目录。有选择性的添加网站到一些优秀的网站目录中。GOOGLE就会将你的网站在正确目录中体现给用户。GOOGLE现在更喜欢这样的新网站,全新的网站采用一些群发软件带来大量不相关的链接现在对GOOGEL已经起不到大的作用!
  2 )在dmoz和雅虎目录中提交你的网站。现在GOOGLE能信任的收费目录只有YAHOO目录一个,在YAHOO提交目录一年的费用是299美金,GOOGLE也认为你是在认真的对待你的生意。
在这里举个例子,我的新网站”http://www.safedinnerware.com”,建好后马上到DMOZ目录中提交,被审核通过后,GOOGLE搜索引擎更新后就很快获得不错的排名了。DMOZ目录是要经过人工审核的,所以不要重复提交,内容也必须是原创的。
  3 )将你的网站提交到一些门户网站相对应的目录下。搜索引擎会认为你是在认真的对待你的网站,对你的网站花了时间和精力。
  4 )用推广你的市场的同样方法来推广你的网站。设想一下,你正设法开拓市场,但是你没有一个网站,在这种情况下你就必须要到处参加新闻发布会,展览会,讲座,论坛,新闻会议等传统方法来与客户建立关系,让潜在客户知道你企业的存在。在网络平台中也是同样的模式。GOOGLE也同样认为这点是很重要,如把你的网站刊登在媒体的网站,有网络新闻报道你的业务市场,在一些重大的网络会议讨论会上发表你的文章,在一些网络周刊上发布你的专版专题。
  5 )在一些最受欢迎的商业网站目录和地图中注册。尽量避免在廉价目录和免费链接页中注册。
  6 )如果你的商业合作伙伴想与你做友情链接,你可以要求他们在他的网站或博客上放一篇相关的文章。
  如果你遵循这个步骤,你的网站就会很快的在搜索引擎中体现,即使你的网站只有50个友情链接。GOOGLE对网站排名有独特的爱好,他们喜欢把真实的企业,公司,媒体网站,零售店,法律业务,以及专业博客放在排名的顶部。GOOGEL如果觉得你的网站是诚实的,积极的,丰富的,就很容易排在上面。

文件 robots.txt 的新增特性及 REP meta 标签

时间:2007-12-12 15:43:01  作者:佚名  来源:google 浏览次数: 144 繁體中文

我们已经改进了站长中心的分析工具,使之能理解网站地图(sitemap)的声明和相关的 URL。较早的版本并不认识网站地图,且仅仅理解绝对的 URL;其他的任何东西都被报错成“不理解你的语法”。现在改进后的版本会告诉你网站地图的 URL 和范围是否正确。您还可以对相关的 URL 测试并少了许多输入工作。
现在生成的报告也好多了。你可以在一行中知道多个问题的答案(如果有的话)。不像早期版本,一行仅第一个遇到的问题给出答案。同时,我们也在其他用以分析和验证的功能上取得了改进。
假设你负责域名 www.example.com,你希望搜索引擎索引你网站的除/ images 文件夹之外的一切内容。您还想确保你的网站地图被搜索引擎知道,那么你可以使用以下内容作为你的 robots.txt 文件:
disallow images
user-agent: *
Disallow:
sitemap: http://www.example.com/sitemap.xml
你可以访问站长中心,使用 robots.txt 分析工具对你的网站进行测试,用这两个 URL 作测试:
http://www.example.com
/archives
站长工具的较早版本将会报错:
    

改进版会告诉你关于robots.txt文件的更多信息:
    

你可以在 http://www.google.com/webmasters/tools 看到以上信息。
我们还希望确保你听说过新的 unavailable_after 元标签,该标签由 Dan Crow 数周前在谷歌官方博客中宣布。该标签可增加你的站点和谷歌的 googlebot 间的互动。试想,对 www.example.com,有时你有一个临时性的新闻故事,限时公司促销,或一个宣传页,你可以对特定页面指定确切的日期和时间,来阻止被抓取和索引。
让我们假设你的一个促销活动有效期截至 2007 年年底。在 www.example.com/2007promotion.html 的源码开始,你可以使用以下行:
<META NAME=”GOOGLEBOT”
CONTENT=”unavailable_after: 31-Dec-2007 23:59:59 EST”>
另一个令人振奋的消息是新的 X-Robots-Tag 指令。它增加了机器人排除协议(REP) META 标签,该标签为非 HTML 网页提供支持!你终于可以控制对你的录像,电子表格,及其他索引文件类型的索引,就像控制对 HTML 页面的索引一样。还是上面的例子,比方说你的宣传页面是 PDF 格式。在文件 www.example.com/2007 promotion.pdf […]

keep looking »