网站地图,又叫站点地图,它就是一个列出了你网站上所有页面地址的清单文件,一般来说分为2种,一种是给搜索引擎看的,一种是给用户看的,前者帮助搜索引擎更好地收录你的网站,后者帮助用户更好的了解你的网站整体结构、更快的找到他们想要找的内容。本文讲的主要是前者。
sitemap一般有3种格式,txt、xml、html,绝大部分情况下都是用xml格式,百度、谷歌都是支持xml格式。下面主要介绍xml格式。
目录
sitemap.xml示例:
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>http://118.25.126.80/</loc>
<lastmod>2016-09-06T00:00:16+08:00</lastmod>
<changefreq>daily</changefreq>
<priority>1.0</priority>
</url>
<url>
<loc>http://118.25.126.80/link.html</loc>
<lastmod>2016-09-06T00:00:16+08:00</lastmod>
<changefreq>daily</changefreq>
<priority>0.8</priority>
</url>
</urlset>
其中:
loc
表示完整网址,必填项,长度不得超过256字节lastmod
表示本网页最后修改时间,必须是ISO-8601
时间格式(yyyy-MM-ddTHH:mm:ss+08:00
),最后面的+08:00
表示的是东八区;changefreq
表示更新频率,可选值:always、hourly、daily、weekly、monthly、yearly、neverpriority
用来指定此链接相对于其他链接的优先权比值,可选值 0.0-1.0,一般来说网站首页1.0,然后二级三级页面依次降低。
以上4项中,除了loc是必填项之外,其它3个都不是必须的,但最好都写上。
一个sitemap
文件包含的网址不得超过 5 万个,且文件大小不得超过 10 MB
。如果您的sitemap
超过了这些限值,请将其拆分为几个小的sitemap
。这些限制条件有助于确保您的网络服务器不会因提供大文件而超载。一个站点支持提交的sitemap
文件个数必须小于5万个 。
下面从 百度站长平台 复制的几项QA:
Q:我提交时填写的周期是什么含义?
A:百度Spider会参考设置周期抓取Sitemap文件,因此请根据Sitemap文件内容的更新(比如增加新url)来设置。请注意若url不变而仅是url对应的页面内容更新(比如论坛帖子页有新回复内容),不在此更新范围内。Sitemap工具不能解决页面更新问题。
Q:Sitemap提交后,多久能被百度处理?
A:Sitemap数据提交后,一般在1小时内百度会开始处理。在以后的调度抓取中,如果您的sitemap支持etag,我们会更频繁抓取sitemap文件,从而及时发现内容更新;否则抓取的周期会比较长。
Q:提交的Sitemap都会被百度抓取并收录吗?
A:百度对已提交的数据,不保证一定会抓取及收录所有网址。是否收录与页面质量相关。
Q:我可以压缩我的 Sitemap 吗?它们是否需要用 gzip 压缩?
A:可以。请使用 gzip 压缩 Sitemap。无论压缩与否,Sitemap 应该小于 10MB(10,485,759字节)。
Q:XML格式的 Sitemap 中,“priority”提示会影响我的网页在搜索结果中的排名吗?
A:不会。sitemap
中的priority
提示只是说明该网址相对于您自己网站上其他网址的重要性,并不会影响网页在搜索结果中的排名。
Q:网址在 Sitemap 中的位置是否会影响它的使用?
A:不会。网址在 Sitemap 中的位置并不会影响百度对它的识别或使用方式。
Q:Sitemap中提交的url能否包含中文?
A:因为转码问题建议最好不要包含中文。
如需提交大量sitemap文件,则可将其列在sitemap索引文件中,然后将该索引文件提交。
因为这个几乎不会用到,所以没有研究,有兴趣的可以参考这里。
sitemap一般采用第三方工具来制作,也可以自己写个简单的爬虫去爬自己的网站,如果网站内容链接比较单一,也可以自己直接查数据库拼接。
提交到搜索引擎
生成好sitemap后最好还要主动提交给搜索引擎,增加被收录的概率和速度。
1. 百度提交站点地图
百度提交sitemap地址:http://zhanzhang.baidu.com/linksubmit/index
2. 谷歌提交站点地图
谷歌提交sitemap地址:https://www.google.com/webmasters