准确的说,叫它baidu sitemap不太准确,而且会有朋友问,百度有类似于google的xml格式sitemap吗?答案是有,但是它又不完全等同于sitemap。根据百度官方的描述,我们应该管它叫做《互联网新闻开放协议》。但是我还是喜欢叫它baidu sitemap,我觉得这个名称对站长来说更亲切一些:)
其实这个开放协议在06年4月初(或者更早几天)的时候,百度就已经公布了,我们看一下百度官方对这个开放协议所作的描述:
《互联网新闻开放协议》是百度新闻搜索制定的搜索引擎新闻源收录标准,网站可将发布的新闻内容制作成遵循此开放协议的XML格式的网页(独立于原有的新闻发布形式)供搜索引擎索引,将网站发布的新闻信息主动、及时地告知百度搜索引擎。
从官方的描述来看,这个开放协议针对的是新闻,似乎对我们没有什么价值,那么我们再假设一下,假如我们的网站通过互联网开放协议的审查,这样百度就会来抓取这个xml文档里的信息,那么即使我们的网站除了新闻之外还有很多别的内容,百度也会连这些内容一并抓取了。这样对百度及时更新索引网站最新内容是有很大的帮助的。
但是我发现众多的SEO们对百度的这个xml开放协议关注的人不多,甚至可以说几乎没有。可能还有不少SEO并不知道这个东西的存在,我就经常看见有朋友谈google sitemap,或者咨询相关问题。就是没有人讨论或者问这个“baidu sitemap”,可能的原因我猜是知者甚少。
其实这个开放协议在06年4月初(或者更早几天)的时候,百度就已经公布了,我们看一下百度官方对这个开放协议所作的描述:
《互联网新闻开放协议》是百度新闻搜索制定的搜索引擎新闻源收录标准,网站可将发布的新闻内容制作成遵循此开放协议的XML格式的网页(独立于原有的新闻发布形式)供搜索引擎索引,将网站发布的新闻信息主动、及时地告知百度搜索引擎。
从官方的描述来看,这个开放协议针对的是新闻,似乎对我们没有什么价值,那么我们再假设一下,假如我们的网站通过互联网开放协议的审查,这样百度就会来抓取这个xml文档里的信息,那么即使我们的网站除了新闻之外还有很多别的内容,百度也会连这些内容一并抓取了。这样对百度及时更新索引网站最新内容是有很大的帮助的。
但是我发现众多的SEO们对百度的这个xml开放协议关注的人不多,甚至可以说几乎没有。可能还有不少SEO并不知道这个东西的存在,我就经常看见有朋友谈google sitemap,或者咨询相关问题。就是没有人讨论或者问这个“baidu sitemap”,可能的原因我猜是知者甚少。
Sitemaps 协议使您能够告知搜索引擎您网站中可供抓取的网址。最简便的方式就是,使用 Sitemaps 协议的 Sitemaps 就是列有某个网站所有网址的 XML 文件。此协议可高度扩展,因此可适用于各种大小的网站。它还能够使网站管理员提供有关每个网址的其他信息(上次更新的时间、更改的频率、与网站中其他网址相比它的重要性)以便搜索引擎可以更智能地抓取该网站。
Sitemaps 在用户无法通过可浏览界面访问网站的所有区域时作用尤其明显。(通常,指用户无法通过追踪链接访问网站的特定页面或区域。)例如,那些只能通过搜索表单才能访问其中某些页面的网站都会从创建 Sitemaps 并将其提交到搜索引擎中获益。
此文件说明 Sitemaps 文件的格式,并解释您张贴 Sitemaps 文件的位置以便搜索引擎能够检索到。
请注意 Sitemaps 协议补充而不是取代搜索引擎已用来发现网址的基于抓取的机制。通过向搜索引擎提交一个 Sitemaps(或多个 Sitemaps),可帮助搜索引擎更好地抓取您的网站。
使用此协议并不能保证搜索索引中将包含您的网页。(请注意,使用此协议不会影响 Google 对您网页进行排名的方式。)
Sitemaps 在用户无法通过可浏览界面访问网站的所有区域时作用尤其明显。(通常,指用户无法通过追踪链接访问网站的特定页面或区域。)例如,那些只能通过搜索表单才能访问其中某些页面的网站都会从创建 Sitemaps 并将其提交到搜索引擎中获益。
此文件说明 Sitemaps 文件的格式,并解释您张贴 Sitemaps 文件的位置以便搜索引擎能够检索到。
请注意 Sitemaps 协议补充而不是取代搜索引擎已用来发现网址的基于抓取的机制。通过向搜索引擎提交一个 Sitemaps(或多个 Sitemaps),可帮助搜索引擎更好地抓取您的网站。
使用此协议并不能保证搜索索引中将包含您的网页。(请注意,使用此协议不会影响 Google 对您网页进行排名的方式。)
注:优先级和更新频率这两个标记在SiteMap中都是可选的,可要可不要。
最近经常有人问起Google网站管理员工具中SiteMap优先级警告问题,有的朋友看都不看是什么引起的就发帖到处问,看来很多有网站的朋友并不了解SiteMap,而只是使用工具来生成SiteMap,这样生成的弊端在于优先级都是一样的,再者就是更新频率也是一样的。这样并不好,因为如果优先级一样,那么Google蜘蛛就无法判断哪些页面对网站来说比较重要,哪些不重要。
所以最近几天Google给SiteMap中优先级一样的管理员发出了警告。
先说优先级问题: ,中间的数值可以从0.0到1.0,这个值只是告诉GoogleBot你的网站哪些页面比较重要,可以按照你设置的优先级排序来抓取你网站页面。默认优先级为0.5。
最近经常有人问起Google网站管理员工具中SiteMap优先级警告问题,有的朋友看都不看是什么引起的就发帖到处问,看来很多有网站的朋友并不了解SiteMap,而只是使用工具来生成SiteMap,这样生成的弊端在于优先级都是一样的,再者就是更新频率也是一样的。这样并不好,因为如果优先级一样,那么Google蜘蛛就无法判断哪些页面对网站来说比较重要,哪些不重要。
所以最近几天Google给SiteMap中优先级一样的管理员发出了警告。
先说优先级问题: ,中间的数值可以从0.0到1.0,这个值只是告诉GoogleBot你的网站哪些页面比较重要,可以按照你设置的优先级排序来抓取你网站页面。默认优先级为0.5。
各门户网站的个人博客服务经常采用类似 http://seamankwok.javaeye.com 的域名,今天我在自己本地测试了一下apache的域名转向
一、网络试验环境准备:
将seamankwok.javaeye.com 路由到本地,禁止访问外网,修改window的路由表hosts,增加一行127.0.0.1 seamankwok.javaeye.com
PS:若有DNS服务器环境的话可以配置*.javaeye.com -> 127.0.0.1,因为我是WIN XP,这里只试验apache的域名转向
二、配置apache + tomcat
1、下载安装apache_2.0.59-win32-x86-no_ssl.msi
2、下载安装jakarta-tomcat-5.0.28.zip
3、下载mod_jk-apache-2.0.29.so,并拷贝到apache安装目录的modules下
4、d:\Apache\Apache2\bin\Apache.exe -t 测试
一、网络试验环境准备:
将seamankwok.javaeye.com 路由到本地,禁止访问外网,修改window的路由表hosts,增加一行127.0.0.1 seamankwok.javaeye.com
PS:若有DNS服务器环境的话可以配置*.javaeye.com -> 127.0.0.1,因为我是WIN XP,这里只试验apache的域名转向
二、配置apache + tomcat
1、下载安装apache_2.0.59-win32-x86-no_ssl.msi
2、下载安装jakarta-tomcat-5.0.28.zip
3、下载mod_jk-apache-2.0.29.so,并拷贝到apache安装目录的modules下
4、d:\Apache\Apache2\bin\Apache.exe -t 测试