• 记录生活,发现同好!--个人生活点滴记录博客

影响网站收录的因素

个人博客吧 次浏览

爬虫抓取网页过程中是可以看到网页URL、HTML代码和HEAD信息。

1)URL规范化

1、静态化 唯一化

http://www.lmlblog.com/?p=765

http://www.lmlblog.com/765.html

网站中同一网页,只对应一个URL.如果网站上多种URL都能访问同样的内容,会有如下危险:

影响网站收录的因素

a.搜索引擎会选一种URL为标准,可能会和正版不同

b.用户可能为同一网页的不同URL做推荐,多种URL形式分散了该网页的权重,如果你的网站上已经存在多种URL形式,建议采取以下方式处理:

在系统中只使用正常形式URL,不让用户接触到非常形式的URL。不把session id、统计代码等不必要的内容放在URL中。不同形式的URL,301永久跳转到正常形式。防止用户输错而启用的备用域名,301永久跳转到主域名。使用robots.txt禁止Baiduspider抓取你不想向用户展现的形式。

2、URL中带关键词:英文/拼音

在排名上有一定的优势

http://www.lmlblog.com/

HTML代码要符合W3C标准。结构层、表现层、行为层标签完整性。用开源程序就可以了。

HEAD信息正确性( 服务器)可以通过抓包工具httpwatch 来获取。

内容对收录的影响

内容原创性:原创性是影响网站权重的很重要一个因素,其他因素没他重要。原创影响权重,权重影响收录,收录影响排名,排名影响流量。

内容重复性:转载或采集的页面内容和之前页面都一样、URL不统一也是重复,网页相似度很高就算重复页面。页面重复是SEO负面因素。重复页面与总页面比例要低于30%,网站大量重复会被惩罚。

避免重复的方法:在网站的正文部分多调用些随机调用增加文章内容。URL唯一化等,解决重复性最高境界是原创。


本文由MAOLAI博客编辑整理发布,欢迎分享,转载请注明出处!