快速生成sitemap大法(修正)

sitemap是好东西啊。以前用过老虎sitemap生成器。可惜不支持超过500个地址。

经过多方打探研究。终于找到终极大法,无论你的网站有多少万条地址。用这个办法都可以搞定!

我们要用到的是两个软件 非常简单!!!速度飞快!一个是XENU 还有个就是超级批量文本替换

Xenu本身是网站链接检查工具,其速度比很多软件都要快;而且包含的文件列表很全。Xenu检查完毕后,会生成一个详细的报告,我们利用这个报告,适当的查找替换一下,就是一个Sitemap文件了。

第一步 使用Xenu检查网站链接

使用方法相信大家都比较熟悉,只有简单的选项。如果没有Xenu的点这里下载:Xenu 1.2d 下载

不会用的我简单说下,看图

接下来就等生成报告吧!

第二步 截取生成报告的需要内容

查看源文件,找到“List of valid URLs you can submit to a search engine”这一部分,将<pre>到</pre>之间的内容复制到文本编辑器,删除<pre>和之前的内容,及尾部无用的代码,保存为txt文件,备用。

第三步 XML文件格式

目前GOOGLE的sitemap 已经升级到0.9。

0.9标准的XML格式Sitemap文件标准格式:

<?xml version=”1.0″ encoding=”UTF-8″?>
<urlset xmlns=”http://www.sitemaps.org/schemas/sitemap/0.9″>

<url>
 <loc>http://www.example.com/abc.html</loc>
</url>

</urlset>

蓝色部分为文件的头和尾,红色部分为网址的列表语法,绿色部分为URL地址。

第四步 分析刚才保存的html文件

刚才保存的txt文件中,每一个URL的格式都是这样的:

 <a href=http://www.hanlinweb.com/ TARGET=”Xenu”>http://www.hanlinweb.com/</a>

我们来看一下与XML格式的对应关系:

<url>
<loc>
http://www.example.com/1.html</loc>
</url>

如上所示,只要将HTML文件中的红色部分替换为XML的红色部分蓝色部分替换为XML的蓝色部分,即是XML格式了。但HTML格式中加粗部分,为变化内容。

第五步 批量替换

我们可以借助专业的文本替换工具(下载:点击下载此文件),或使用专业编辑器(如Editplus等)的正则替换,将上面所述进行批量替换。

这个批量替换工具很强大。看图怎么替换加粗部分的变化内容

第六步 加上XML的头和尾

将替换后的HTML文件,头部加上XML的头:

<?xml version=”1.0″ encoding=”UTF-8″?>
<urlset xmlns=”http://www.sitemaps.org/schemas/sitemap/0.9″>

尾部加上XML的尾:

</urlset>

第六步 保存

另存为XML文件即可。

接下来就提交吧!

Google:http://www.google.com/webmasters/sitemaps/ping?sitemap=XML文件完整地址

Yahoo:http://api.search.yahoo.com/SiteExplorerService/V1/updateNotification?appid=YahooDemo&url=XML文件完整地址

Live:http://webmaster.live.com/ping.aspx?siteMap=XML文件完整地址

Ask:http://submissions.ask.com/ping?sitemap=XML文件完整地址

Moreover:http://api.moreover.com/ping?u=XML文件完整地址

可惜,主流中文搜索引擎对Sitemap不感冒,支持Sitemap的搜索引擎市场份额又上不去。

详解sitemap.xml的写法及参数说明

什么是sitemap?

sitemap是google创造出来的东西,也就是网站地图,但是这个地图和我们所说的网站的地图不一样,这个网站地图是用xml写的,并且严格按google的标准来写。

提交sitemap的好处?

提交sitemap有利于搜索引擎的收录,比如动态网页。google登陆一个网站,首先看是否有sitemap这个东西,如果有就先读,没有的话就逐个按站点页面抓取。sitemap就是你网站上页面的信息列表,googlebot就按照这个去一个个的抓取页面。
 

XML Sitemaps 格式

Sitemaps 协议格式由 XML 标记组成。Sitemaps 的所有数据数值应为实体转义过的。文件本身应为 UTF-8 编码的。

以下是只包含一个网址并使用所有可选标记的 Sitemaps 示例。可选标记为斜体。

<?xml version=”1.0″ encoding=”UTF-8″?>
  < urlset xmlns=http://www.google.com/schemas/sitemap/0.9>

  <url>
    <loc>http://www.hanlinweb.com/archives/71.html</loc>
    <lastmod>2009-03-07</lastmod>
    <changefreq>yearly</changefreq>
    <priority>0.2</priority>
  </url>
  <url>
    <loc>http://www.hanlinweb.com/archives/71.html</loc>
    <lastmod>2009-03-06</lastmod>
    <changefreq>yearly</changefreq>
    <priority>0.2</priority>
  </url>

  </urlset>

注意:兰色部分为通用格式 是不变的. 中间的黑色部分为一个模块,就是说每一条要提交给搜索引擎

收录的网址就是一个独立的模块。然后有多少条网址就有多少个这样的模块。
Sitemaps 应:以 <urlset> 开始标记开始,以 </urlset> 结束标记结束。
每个网址包含一个作为父标记的 <url> 条目。
每一个 <url> 父标记包括一个 <loc> 子标记条目。

下面我分开解释一下里面的标签的意思

<loc></loc>
这两个标签中间的地址必填。格式为:http://www.hanlinweb.com/archives/71.html,此网址应以协议开始(例如:http)并以斜线结尾。此值应少于 2048 个字符。

<lastmod>
 可选标签  标签含义:该文件上次修改的日期。此日期应采用 W3C Datetime 格式。如果需要的话,此格式允许省略时间部分,而仅使用 YYYY-MM-DD。 列子:2009-03-06。

<changefreq>
 可选标签 标签含义:页面可能发生更改的频率。此值为搜索引擎提供一般性信息,可能与搜索引擎抓取页面的频率不完全相关。有效值为:

always
hourly
daily
weekly
monthly
yearly
never
值“always”应当用于描述每次访问时都会改变的文档。而值“never”应当用于描述已存档网址。
 

<priority>
 可选标签 此网址的优先级与您网站上其他网址的优先级相关。有效值范围从 0.0 到 1.0。此值不会影响您的网页与其他网站上网页的比较结果,只是告诉搜索引擎您认为您的那个网页最重要,从而它们对您页面的抓取可以按照您最喜欢的方式进行排序。

一个网页的默认优先级为 0.5。

了解这些标签的作用我们就可以根据自己网站的情况做出适合自己站点sitemap.xml。

注意
xml文件必须是utf-8的编码格式,可以用记事本打开xml然后另存为时选择编码(或转换器)为UTF-8。

考虑到sitemap.xml的制作的工作量的问题大家可以使用第三方软件,这里给大家推荐老虎sitemap生成器。google的管理员工具里也提供了sitemap生成器。但是需要有服务器管理权限 通过IIS来生成的,需要在服务器上安装。不是很方便。

手动生成sitemap的方法,请参见此文:http://www.hanlinweb.com/archives/74.html

Hello world. This my website!

Hello world. This my website!