URL重复收录有效解决办法(首发)

时间:2017-11-30 11:51:03 点击: 0 评论:0 作者:匿名 来源:1299R

URL重复收录有效解决办法

URL重复收录病症表现:索引量工具显示索引量数值高,流量低,站内无低质内容。

    首先声明,我们只谈论有检索意义的URL,也就是用户会从搜索引擎查找的页面,其他页面按照常用的方法做屏蔽就好了,鉴于很多站长都爱讨论整体的收录量,但很有可能有效收录不足10%。

0、各搜索引擎站长平台

做任何事情,抓住本质、找到根源才会事半功倍。目前SEO所针对的搜索引擎:百度、360、搜狗、Google、神马等,都有其对应的站长平台,而且站长平台也是我们日长监控和维护站点所用到的重要工具,如提交新数据、网站地图等。大部分的站长平台中也都有对应的过滤url参数的功能,利用这些站长平台的功能是最高效、最稳定的方法,而且不会影响的站点的任何功能。当然并不是所有站长平台都有这个功能,特殊情况接着往下看...

1、URL参数

    URL参数也叫URL query,是一个最复杂,最容易被忽视,最容易被妥协的问题,是网站维护中必不可少的元素,如果简单的去除,可能导致其他功能无法正常实现,静态化是解决问题的主要方法,URL参数经常被用于以下几种状况:

    同一个实体的不同状态展示,举个栗子,同一个酒店,不同时间点有不同的房间空闲 ,http://www.1299r.com/hotel/123/?checkindate=2015-06-09&checkoutdate=2015-06-10

    统计不同渠道的流量,例如:http://www.1299r.com/?tracking=website_a

    统计不同渠道,具体模块的点击量,例如:http://www.1299r.com/?tracking=website_a&click_spot=zone_abc

    调试,例如:http://www.1299r.com/product/item123/?debug=true

    把统计参数放到路径中http://www.1299r.com/abc/dp/B005TZHJEQ/ref=lp_2130608051_1_1

    出现这种问题的坏处有几点:

    (1)浪费搜索引擎对你网站的配额,从而影响其他页面。

    (2)丢失很多链接加分,站外渠道的链接往往是最优质的,同一个URL的分值可能分散成几十份。

    (3)SEO的流量被统计到别的渠道(因为tracking字段写的是别的渠道,而且被收录被点击)。

    (4)形成一种局面:产品用一套URL,SEO用另一套URL,甚至不同渠道用不同的URL,后期开发和维护的成本高。

    为了解决这个问题,首先要弄清URL的定义,以济南SEO小编的理解,每一个URL是一个静态的、独立不重复的、有意义的个体,一般也有检索意义(就是有人会搜),比如一个人、一辆车,而不能混入各种“状态”。

    理论上canonical标签就可以解决这个问题了,但是从实际测试结果看,百度对这个标签的支持优先级非常低,几乎可以忽略不计。因此,济南SEO小编建议的解决方案:

    (1)提前做好网站的思维导图和元信息。

    (2)所有和SEO元信息相关的参数都放到路径中去。

    (3)所有和SEO元信息不相干的参数都放到#后边,因为#后边不影响web服务器返回的内容,简单的说就是用"#"替代"?"。

    (4)每个页面中都利用js获取#后边的参数对,通过二次请求发回给统计服务器。

    (5)如果#后边的参数影响页面内容,比如酒店的入住日期,那么这部分内容用ajax加载就行,他是不稳定的,不属于页面内容的一部分。

    (6)原始的#锚点定义肯定会冲突,定义一个#后边的变量,并用js控制屏幕滚动,来保证原始锚点的作用。

    有人可能会想到,根据ua判断,如果是搜索引擎爬虫,就用跳转的方式去掉URL参数,但效率最高的方法必然是从一开始就不展示错误URL,那么前面的例子优化后就变成了:

    同一个实体的不同状态展示,比如同一个酒店,在不同时间点会有不同的房间空闲,例如:http://www.1299r.com/hotel/123/#checkindate=2015-06-09&checkoutdate=2015-06-10

    为了统计不同渠道的流量,例如:http://www.1299r.com/#tracking=website_a

    为了统计不同渠道,具体模块的点击量,例如:http://www.1299r.com/#tracking=website_a&click_spot=zone_abc

    调试,例如:http://www.1299r.com/product/item123/#debug=true

    其实很多网站早就使用这种方式了,但是还有很多网站由于开发效率无法及时实现,所以,对于一般的小网站建设,一定要考虑开发成本,不要轻易冒进,只要能避免问题的发生,变通的方法是很多的。

SEO十大工具

    2、路径中使用非必要元素

    很多网站仿照亚马逊的做法,把商品名体现在URL中,然后再通过id来决定页面展示的内容,例如:http://http://www.1299r.com/莎士比亚与网站建设043?哈姆雷特/dp/B005TZHJEQ/

    这样虽然可以提高一些相关性,但是很危险,在长期甚至短期的时间内,大量商品的名称是非常可能有变化的,那么URL也就跟着变化,成本也是非常高的,因为加大了技术实现难度,不管从站内还是站外,每次增加链接都是一个很麻烦的事情。

    通过日志分析发现基本所有的百度蜘蛛发起的请求都被301跳转了一次,细致调查后发现,从SEO拼接规则到后台的汉字和翻译数据被一直修改,也就是说,这个URL相关的元素有:

    (1)中文(非必要元素)

    (2)由中文翻译的英文(非必要元素)

    (3)id(必要元素)

    而当时负责SEO的同事把英文和id拼接在了URL中,那么这样一个URL先后变成过:

    http://www.1299r.com/Shangrila_International_Hotel-12345678-hotel/

    http://www.1299r.com/Xianggelila_International_Hotel-12345678-hotel/

    http://www.1299r.com/XiangGeLiLa_International_Hotel-12345678-hotel/

    http://www.1299r.com/Shangrila_guoji_Hotel-12345678-hotel/

    跟“相关性”比,URL的唯一性和稳定性更重要,所以针对这个问题,URL的最佳策略应该是:http://www.1299r.com/hotel/12345678/

    如果这个id是隶属于一个分类下的,比如城市,那么就可以是:http://www.1299r.com/hotel/beijing/123/

    从技术角度说,id一般是数据库的主键,是数字或者字符串,那么这个时候URL是一维的;id也可以是联合的唯一索引,那么URL就是二维的,就像上面的(bejing,123)缺一不可,电商类网站列表页经常用到三维以上。

    3、URL中的字母建议全部小写

    如果网站的技术架构用的是开源系统,一般是不会有这个问题的,如果使用了微软的技术架构,这个问题非常常见:

    http://www.1299r.com/newyork/

    http://www.1299r.com/Newyork/

    http://www.1299r.com/NewYork/

    我的建议是统一使用小写,大写自动跳转为小写(注意301死循环)。

    URL中字母全部小写主要有两个好处:

    (1)全部使用小写方便用户输入,不会因为大小写混搭导致用户输写错误。

    (2)当我们写robots文件代码时,其也是区分大小写的,往往一个字母之差可能就导致整个目录不能被搜索引擎收录。

    4、目录的规范

    很多网站同时存在这样的URL,无形中把收录量扩大了一倍:

    http://www.1299r.com/product/123

    http://www.1299r.com/product/123/

    上边第一个路径的意思是在product目录下有一个123文件,第二个路径的意思是在product目录下有一个123目录,这个目录下可能有很多文件,但是他代表众多文件中的index.html或index.php或default.aspx等优先级最高的那个文件,为了避免歧义,我定义文件都是用".html"结尾的。

    为了减少重复收录,那么按我的习惯是:

    http://www.1299r.com/product/123  => http://www.1299r.com/product/123/

    http://www.1299r.com/product/123  => http://www.1299r.com/product/123.html

    简单的来说,就是以下几点:

    (1)所有部门统一使用SEO定义的URL,屏蔽非SEO优化URL的入口。

    (2)用“#”替代“?”。

    (3)统一使用小写。

    (4)保证目录的规范,把不规范的URL跳转到规范的URL。

    5、URL尽量使用静态化处理

    现在的网站绝大多数是使用数据库进行驱动的,页面是由程序实时生成,而不是真的在服务器上有一个静态HTML文件存在,当用户访问一个网址时,程序根据URL中的参数调用数据库数据,实时生成页面内容,因此,动态页面相对应的URL原始状态也是动态的,其中包含了问号、等号及参数,这就造成了搜索引擎收录困难,所以,在网站优化之前,一定要做全站静态化处理,这样才能事半功倍。

    6、URL层级不要超过三层

    这里说的URL层级不超过三层说的是那些中小型网站,如果你的网站是大型网站那就不在这个控制范围内了,因为搜索引擎把一些大型网站的频道页也当成一个单独的种子站点来处理了,搜索引擎就会在这个频道页再深度爬取三层,也就是说,一些大型网站的频道页就相当于我们一个个人网站了。

    7、URL尽量越短越好

    这个主要是站在用户的角度考虑了,因为URL越短,代表用户就越方便记忆,用户看起来也没有那么费事,相对于搜索引擎来说,只要我们控制好URL长度不超过1000字母,那搜索引擎收录起来是完全没有问题的。

    总结:当我们在设计URL时,将关键词放入URL中也是优化的一个点,其作用就是:提高页面相关性,在排名时贡献一点分数,关键词出现得越靠前越好,也就是说在域名中最好,其次是出现在目录中,效果最小的是出现在文件名中,不过切记不可为了出现关键词而用作弊的手法进行关键词堆砌


评论

"URL重复收录有效解决办法(首发)"的0条评论

点击刷新