多一份参考,总有益处。
联系前端开发网,免费获得专属《策划方案》及报价。
咨询相关问题或预约面谈,可以通过以下方式与我们联系。
(+86) 134 6653 3356微信号:4574670
2020-02-26
新版移动 ua: Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
PC ua: Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html) 之前通过 “+http://www.baidu.com/search/spider.html” 进行识别的网站请注意!您需要修改识别方式,新的正确的识别 Baiduspider 移动 ua 的方法如下:
通过关键词 “Android” 或者 “Mobile” 来进行识别,判断为移动访问或者抓取。
通过关键词 “Baiduspider/2.0”, 判断为百度爬虫。
另外需要强调的是,对于 robots 封禁,如果封禁的 agent 是 Baiduspider,会对 PC 和移动同时生效。即,无论是 PC 还是移动 Baiduspider,都不会对封禁对象进行抓取。之所以要强调这一点,是发现有些代码适配站点(同一个 url,PC ua 打开的时候是 PC 页,移动 ua 打开的时候是移动页),想通过设置 robots 的 agent 封禁达到只让移动 Baiduspider 抓取的目的,但由于 PC 和移动 Baiduspider 的 agent 都是 Baiduspider, 这种方法是非常不可取的。
百度蜘蛛对于站长来说可谓上宾,可是我们曾经遇到站长这样提问:我们如何判断疯狂抓我们网站内容的蜘蛛是不是百度的?其实站长可以通过 DNS 反查 IP 的方式判断某只 spider 是否来自百度搜索引擎。根据平台不同验证方法不同,如 linux/windows/os 三种平台下的验证方法分别如下:
在 linux 平台下,您可以使用 host ip 命令反解 ip 来判断是否来自 Baiduspider 的抓取。Baiduspider 的 hostname 以 .baidu.com 或 .baidu.jp 的格式命名,非 .baidu.com 或 .baidu.jp 即为冒充。
在 windows 平台或者 IBM OS/2 平台下,您可以使用 nslookup ip 命令反解 ip 来 判断是否来自 Baiduspider 的抓取。打开命令处理器 输入 nslookup xxx.xxx.xxx.xxx(IP 地 址)就能解析 ip, 来判断是否来自 Baiduspider 的抓取,Baiduspider 的 hostname 以 .baidu.com 或 .baidu.jp 的格式命名,非 .baidu.com 或 .baidu.jp 即为冒充。
在 mac os 平台下,您可以使用 dig 命令反解 ip 来 判断是否来自 Baiduspider 的抓取。打开命令处理器 输入 dig xxx.xxx.xxx.xxx(IP 地 址)就能解析 ip, 来判断是否来自 Baiduspider 的抓取,Baiduspider 的 hostname 以 .baidu.com 或 .baidu.jp 的格式命名,非 .baidu.com 或 .baidu.jp 即为冒充。
即便很多站长知道了如何判断百度蜘蛛,仍然会不断地问 “百度蜘蛛 IP 是多少”。我们理解站长的意思,是想将百度蜘蛛所在 IP 加入白名单,只准白名单下 IP 对网站进行抓取,避免被采集等行为。
但我们不建议站长这样做。虽然百度蜘蛛的确有一个 IP 池,真实 IP 在这个 IP 池内切换,但是我们无法保证这个 IP 池整体不会发生变化。所以,我们建议站长勤看日志,发现恶意蜘蛛后放入黑名单,以保证百度的正常抓取。
同时,我们再次强调,通过 IP 来分辨百度蜘蛛的属性是非常可笑的事情,所谓的 “沙盒蜘蛛”“降权蜘蛛” 等等是从来都不存在的。
robots 是站点与 spider 沟通的重要渠道,站点通过 robots 文件声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用 robots.txt 文件。如果您希望搜索引擎收录网站上所有内容,请勿建立 robots.txt 文件。
robots 文件往往放置于根目录下,包含一条或更多的记录,这些记录通过空行分开(以 CR,CR/NL, or NL 作为结束符),每一条记录的格式如下所示: <field>:<optional space><value><optionalspace>
在该文件中可以使用#进行注解,具体使用方法和 UNIX 中的惯例一样。该文件中的记录通常以一行或多行 User-agent 开始,后面加上若干 Disallow 和 Allow 行 , 详细情况如下:
User-agent:该项的值用于描述搜索引擎 robot 的名字。在 "robots.txt" 文件中,如果有多条- User-agent 记录说明有多个 robot 会受到 "robots.txt" 的限制,对该文件来说,至少要有一条 User-agent 记录。如果该项的值设为 ,则对任何 robot 均有效,在 "robots.txt" 文件中,"User-agent:" 这样的记录只能有一条。如果在 "robots.txt" 文件中,加入 "User-agent:SomeBot" 和若干 Disallow、Allow 行,那么名为 "SomeBot" 只受到 "User-agent:SomeBot" 后面的 Disallow 和 Allow 行的限制。
Disallow:该项的值用于描述不希望被访问的一组 URL,这个值可以是一条完整的路径,也可以是路径的非空前缀,以 Disallow 项的值开头的 URL 不会被 robot 访问。例如 "Disallow:/help" 禁止 robot 访问 /help.html、/helpabc.html、/help/index.html,而 "Disallow:/help/" 则允许 robot 访问 /help.html、/helpabc.html,不能访问 /help/index.html。"Disallow:" 说明允许 robot 访问该网站的所有 url,在 "/robots.txt" 文件中,至少要有一条 Disallow 记录。如果 "/robots.txt" 不存在或者为空文件,则对于所有的搜索引擎 robot,该网站都是开放的。
Allow:该项的值用于描述希望被访问的一组 URL,与 Disallow 项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以 Allow 项的值开头的 URL 是允许 robot 访问的。例如 "Allow:/hibaidu" 允许 robot 访问 /hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一个网站的所有 URL 默认是 Allow 的,所以 Allow 通常与 Disallow 搭配使用,实现允许访问一部分网页同时禁止访问其它所有 URL 的功能。
使用 "*"and"$":Baiduspider 支持使用通配符 "" 和 "$" 来模糊匹配 url。 "" 匹配 0 或多个任意字符 "$" 匹配行结束符。
最后需要说明的是:百度会严格遵守 robots 的相关协议,请注意区分您不想被抓取或收录的目录的大小写,百度会对 robots 中所写的文件和您不想被抓取和收录的目录做精确匹配,否则 robots 协议无法生效。
上面说了那么多理论,有没有简单对照表格告诉我,怎样的需求场景下应该怎样撰写 robots 文件?有的:
Meta robots 标签是页面 head 部分标签的一种,也是一种用于禁止搜索引擎索引页面内容的指令。目前百度仅支持 nofollow 和 noarchive
nofollow:禁止搜索引擎跟踪本页面上的链接
如果您不想搜索引擎追踪此网页上的链接,且不传递链接的权重,请将此元标记置入网页的
noarchive:禁止搜索引擎在搜索结果中显示网页快照
要防止所有搜索引擎显示您网站的快照,请将此元标记置入网页的
对于百度搜索引擎来说,蜘蛛黑洞特指网站通过极低的成本制造出大量参数过多、内容类同但 url 不同的动态 URL ,就像一个无限循环的 “黑洞 “,将 spider 困住。spider 浪费了大量资源抓取的却是无效网页。
如很多网站都有筛选功能,通过筛选功能产生的网页经常会被搜索引擎大量抓取,而这其中很大一部分是检索价值低质的页面。如 “500-1000 之间价格的租房”,首先网站(包括现实中)上基本没有相关资源,其次站内用户和搜索引擎用户都没有这种检索习惯。这种网页被搜索引擎大量抓取,只能是占用网站宝贵的抓取配额,那么该如何避免这种情况呢?
我们以北京美团网为例,看看美团网是如何利用 robots 巧妙避免这种蜘蛛黑洞的:
对于普通的筛选结果页,使用了静态链接,如:
http://bj.meituan.com/category/zizhucan/weigongcun
同样是条件筛选结果页,当用户选择不同排序条件后,会生成带有不同参数的动态链接,而且即使是同一种排序条件(如:都是按销量降序排列),生成的参数也都是不同的。如:
http://bj.meituan.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhekhttp://bj.meituan.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c
对于美团网来说,只让搜索引擎抓取筛选结果页就可以了,而各种带参数的结果排序页面则通过 robots 规则拒绝提供给搜索引擎。在 robots.txt 的文件用法中有这样一条规则:Disallow: /? ,即禁止搜索引擎访问网站中所有的动态页面。美团网恰是通过这种方式,对 spider 优先展示高质量页面、屏蔽了低质量页面,为 spider 提供了更友好的网站结构,避免了黑洞的形成。
目前百度图片搜索也使用了与百度网页搜索相同的 spider,如果想禁止 Baiduspider 抓取网站上所有图片、禁止或允许 Baiduspider 抓取网站上的某种特定格式的图片文件可以通过设置 robots 实现:
| | | --- | --- 禁止 Baiduspider 抓取网站上所有图片 , 仅允许抓取网页,禁止抓取任何图片。| User-agent: Baiduspider Disallow: /.jpg$; Disallow: /.jpeg$; Disallow: /.gif$; Disallow: /.jpg$; Disallow: /*.bmp$;
仅允许 Baiduspider 抓取网页和 .gif 格式图片 , 允许抓取网页和 gif 格式图片,不允许抓取其他格式图片| User-agent: Baiduspider; Allow: /.gif$; Disallow: /.jpg$; Disallow: /.jpeg$; Disallow: /.jpg$; Disallow: /*.bmp$;
仅禁止 Baiduspider 抓取 .jpg 格式图片|User-agent: Baiduspider;Disallow: /*.jpg$
Html 状态码也是网站与 spider 进行交流的渠道之一,会告诉 spider 网页目前的状态,spider 再来决定下一步该怎么做——抓 or 不抓 or 下次再来看看。对于 200 状态码大家已经很熟了,那么我们来介绍几种常见的失效网页使用的状态码:
【404】404 返回码的含义是 “NOT FOUND”,百度会认为网页已经失效,那么通常会从搜索结果中删除,并且短期内 spider 再次发现这条 url 也不会抓取。
【503】503 返回码的含义是 “Service Unavailable”,百度会认为该网页临时不可访问,通常网站临时关闭,带宽有限等会产生这种情况。对于网页返回 503,百度 spider 不会把这条 url 直接删除,短期内会再访问。届时如果网页已恢复,则正常抓取;如果继续返回 503,短期内还会反复访问几次。但是如果网页长期返回 503,那么这个 url 仍会被百度认为是失效链接,从搜索结果中删除。
【301】301 返回码的含义是 “Moved Permanently”,百度会认为网页当前跳转至新 url。当遇到站点迁移,域名更换、站点改版的情况时,推荐使用 301 返回码,尽量减少改版带来的流量损失。虽然百度 spider 现在对 301 跳转的响应周期较长,但我们还是推荐大家这么做。
一些网站把未建好的页面放到线上,并且这些页面在被百度抓取的时候返回码是 404,于是页面被百度抓取后会被当成死链直接删除。但是这个页面在第二天或者过几天就会建好,并上线到网站内展现出来,但是由于之前已经被百度当做死链删除,所以要再次等这些链接被发现,然后抓取才能展现,这样的操作最终会导致一些页面在一段时间内不会在百度出现。比如某个大型门户网站爆出大量新闻时效性很强的专题未被百度及时收录的问题,经检查验证后发现就是因为页面未建成就放置在线上,并返回 404 状态码,被百度当成死链删除,造成收录和流量损失。
对于这样的问题,建议网站使用 503 返回码,这样百度的抓取器接到 503 返回码后,会在隔一段时间再去访问这个地址,在您的页面建好上线后,就又能被重新抓取,保证页面及时被抓取和索引,避免未建好的内容设为 404 后带来不必要的收录和流量损失。
其它建议和总结:
如果百度 spider 对您的站点抓取压力过大,请尽量不要使用 404,同样建议返回 503。这样百度 spider 会过段时间再来尝试抓取这个链接,如果那个时间站点空闲,那它就会被成功抓取了
如果站点临时关闭或者页面暂未建好上线,当网页不能打开时以及没有建好时,不要立即返回 404,建议使用 503 状态。503 可以告知百度 spider 该页面临时不可访问,请过段时间再重试。
在百度 site 站点时,遇到 “连通率为 0” 说明 Baiduspider 在访问站点时发现了问题,该问题非常严重,如果 Baiduspider 持续一天时间无法访问有可能给站点带来灾难性的损失。
既然为率,那么就是一个统计相关概念。我们不妨可以这样理解一个网站的连通率:百度蜘蛛在抓取网站页面的时候计算的一个概率,比如它抓取某网站中的 N 个页面,这 N 个页面都能打开并被蜘蛛成功抓取,这样的连通率就是 N/N=100%,反之蜘蛛抓取 N 个页面有 M 个页面能成功抓取,连通率就是 M/N
这里先说明几个常识:
不是网站被某算法惩罚而导致连通率为 0,也不是网站流量下降而导致连通率数值很低;
连通率代表着百度蜘蛛获取网站数据的情况,如果连通率数值很低或为 0,那么可能连维持网站的正常收录等都成问题;
假如网站被判定连通不了,那么如果让一个连通不了的站点在百度中获取排名,就会大大影响搜索用户的体验,于是百度就会采取对该站点有效引流的索引清除操作,一些站长就会发现自己的网站索引量突然大幅度下降,甚至索引被短暂清 0 了,接着就是网站百度搜索流量大幅度下降,这种突发性的事件又会造成站长们的揣测,以为自己的网站被百度惩罚了,其实站长们先应该注意的是站点的连通情况。
上述概念中,我们需要注意的几个词有:” 百度蜘蛛”; ” 在抓取”; ”N 个页面”; ”M 个页面”; ” 都能打开并被成功抓取”。
我们抓住上述 5 个提取出的核心词进行分析。
谨防百度蜘蛛访问被操控或禁止
由于百度蜘蛛的抓取量等原因对一些服务器造成压力,而这些网络商或网站运营方从某利益角度考虑,无意或有意的屏蔽百度蜘蛛,导致部分或全部百度蜘蛛 ip 获取不到网站数据;
一些网站运营方或网络商对蜘蛛进行区别对待,比如国外蜘蛛 ip、山东蜘蛛 ip、北京蜘蛛 ip 等返回不同的数据,移花接木的手段层出不穷,而这个过程很可能造成百度蜘蛛的异常行为或异常状态返回;
所以我们首先要确保百度蜘蛛的访问有没有被操控或禁止。
预防措施
完善联系方式获得百度站长工具消息提醒
利用抓取异常和抓取频次工具观察抓取情况
↓抓取异常工具的网址异常情况
↓抓取频次工具的抓取统计情况
↓每个工具页面的右侧下方都有使用说明,如下
(3)抓取诊断工具是重中之重
为了保证网站对百度蜘蛛的稳定访问性能,日常我们需要养成定期抓取诊断的习惯,另外抓取诊断不是说光看看状态是否 “抓取成功” 就行了。有下面几步进行:
第一步:下拉选择分”pc”、 ” 移动” 进行抓取,”pc” 意味着一般意义上的电脑端访问诊断,” 移动” 则是如手机、平板等移动设备端访问诊断;
第二步:网站主要的引流页,如首页、详情页、内容页、专题页等都要进行抓取,另外可以重点几个时间段(比如网站高峰时间段)每天定期进行测试;
第三步:抓取失败了,点击” 抓取失败” 查看提示信息,如果自己没有技术能力解决问题,可以跟空间商进行沟通,然后向工具提交报错;
第四步:抓取成功后,也不能说就万事大吉了,还要点击” 抓取成功” 进去注意:提交网址、抓取网址、抓取 UA、网站 ip、下载时长、头部信息(服务器返回状态码、gzip 等相关信息)、网页源码是否都正常。
特别说明:有很多站长就光注意抓取成功,却不知网站 ip 可能并非自己的实际 ip,被网络商搞到哪里去了都不知道,还可能每隔一段时间都变。当发现 ip 有问题,及时跟网络商沟通,并在网站 ip 旁点击 “报错” 按钮,百度会更新网站 ip,但是切记不要 ip 变化频繁。此外当然还可能出现实际抓取网址、头部信息、网页源码等都不是自己本来设置的。
这是反映百度蜘蛛在抓取时的状态,百度的工具显示的数值肯定都是抓取后计算出来的数据,因此任何工具的连通率数据必定存在延迟性,另外这个计算过程也存在一定可能的错误,所以我们看到任何工具中关于连通率的数据,不要说 “我网站用抓取诊断等工具检查访问情况都好好的,为什么连通率还是 0”,因此除了上述建议的多抓取诊断测试外,自己可以加些监控网站连接状态的措施,笔者本人就曾经接收了不少关于网站连接不通的提醒。这时我会及时跟网络商沟通,然后及时用抓取诊断检查蜘蛛的情况。
这 N、M 个页面,可能百度蜘蛛很凑巧就赶上高峰的时候或者一些假死页面(执行时间较长,超过蜘蛛的耐心),那么 M 这个数值就会很低,统计概率的东西大家都懂的,那么这时网站的连通率依旧很低或为 0。因此若连通率为 0,我们还可以知道自己应该注意查看访问日志,及时清理死链,或者并发连接数增大,或者增加内存等等。
这里主要注意 DNS 和空间的稳定性。
DNS 的问题 参考当心 dns 服务器不稳导致站点被屏
提醒大家注意的是现在不少云类 ns 服务器,这个过程中由于处理机制问题,包括回源障碍等等,较容易造成这个问题。另外国内大型服务商提供,比如你使用了 dnspod,并不代表你的 dns 就应该是 ok 的。有的站长存在着对大型服务商的错误认识,如 “新网的 dns 就是不可靠的,我都用百度云加速”。我们要明白廉价的东西质量都有一定局限性,所以需要自己检查 dns 解析情况,具体上网找找相关资料或平台,看看 dns 解析出的 ip 以及解析延迟情况等等。
空间的稳定性 很多人都会用超级 ping 了,这个不多说了。但是我还要告诉大家有下面两点需要注意:
A、不良的网络商会对不同用户 ip 进行不同处理,自己可以用 vpn 等工具观察下不同地区 ip 段的网站访问情况与返回内容;
B、空间的资源不足,内存、并发连接等等,当访问量很少的时候,自己察觉不出,需要提高访问量,增加连接时间。因此使用一些监控工具时,发现监控工具访问测试量巨大,或者被人刷流量时,你应该庆幸,而不是着急拒绝,因为你可以了解到自己的空间承压能力。
如果你的网站索引由于连通率而非惩罚原因被清理了,处理完毕问题,可以在抓取频次工具中提交增加抓取频次的请求,将抓取频次增加到一定额度(建议自己查看工具中对抓取频次的说明后再根据网站实际情况调整),然后增加自己的网站数据更新频率与质量,加强与百度的数据沟通(如 url 提交、sitemap 等等),很快就能恢复。相关工具展示如下(每个工具页面的右侧下方都有相关说明链接,可以点击去了解使用注意事项):
抓取频次中的频次调整工具:
链接提交工具:
链接提交工具中的主动推送、sitemap、手动提交方式:
2015 年 5 月 25 日,百度站长平台发布公告,宣布全面放开对 https 站点的收录,https 站点不再需要做任何额外工作即可被百度抓收。采用了本文之前建议的 https 站点可以关闭 http 版,或者将 http 页面跳转到对应的 https 页面。
百度搜索引擎目前不主动抓取 https 网页,导致大部分 https 网页无法收录。但是如果网站一定要使用 https 加密协议的话该如何做到对百度搜索引擎友好呢。其实很简单:
为需要被百度搜索引擎收录的 https 页面制作 http 可访问版。
通过 user-agent 判断来访者,将 Baiduspider 定向到 http 页面,普通用户通过百度搜索引擎访问该页面时,通过 301 重定向至相应的 https 页面。如图所示,上图为百度收录的 http 版本,下图为用户点击后会自动跳入 https 版本。
http 版本不是只为首页制作,其它重要页面也需要制作 http 版本,且互相链接,切不要出现这种情况:首页 http 页面上的链接依然链向 https 页面,导致 Baiduspider 无法继续抓取——我们曾经遇到这种情况,导致整个网点我们只能收录一个首页。如下面这个做法就是错误的:http://www.abc.com/ 链向 https://www.adc.com/bbs/
可以将部分不需要加密的内容,如资讯等使用二级域名承载。比如支付宝站点,核心加密内容放在 https 上,可以让 Baiduspider 直接抓取的内容都放置在二级域名上。
问:对于 http 和 https,Baiduspider 会不会区别对待? 答:不会区别对待。说得再全整专业一些:Baiduspider 在对于 http 和 https 站点的调度和解析方面没有任何区别。至于建索引库,年初的时候百度进行过升级,目前对 https 站点也是全力支持的。
问:Baiduspider 可以抓取 https 网站吗?站点 https 以后应该做些什么? 答:在抓取方面,Baiduspider 完全支持 https 链接的抓取。站长需要注意的一点是要保证 http 链接到 https 链接良好的重定向(使用 301 或 302),这样百度可以做到无缝切换。另外可以使用链接提交工具提交 https 链接,尽快通知百度。
问:站点切换 https 以后,新产生的 https 页面,百度会将其视为新页面重新收录?重新计算排名? 答:不是的,不涉及重新收录的问题。
问:https 以后可以使用改版工具向百度提交 http 与 https 的对应关系吗? 答:http 站和 https 站会被百度视为同一个站点,不属于改版,不适用改版工具。
问:https 以后,排序有可能发生什么变化?
答:在 rank 方面,现在对两种链接无区别对待,从安全性考虑,以后可能会优待 https 的链接。
很多站点出于隐私的考虑不希望百度保留快照,网上也在讨论如何禁止百度保留快照的方法。其实百度早已对此有过说明,但藏在一篇不起眼的文章中不引人注目,导致依然非常多的人不清楚该如何操作。上周恰好又有人问到这个问题,特意进行说明。
要防止所有搜索引擎显示您网站的快照,请将此元标记置入网页的
要允许其他搜索引擎显示快照,但仅防止百度显示,请使用以下标记:<meta name="Baiduspider" content="noarchive">
注:此标记只是禁止百度显示该网页的快照,并不会影响网页建入索引,同时垃圾网页也不可能依靠此手段逃避百度的判罚。
众所周知,搜索引擎会对站点获得链接的数量和质量进行分析,从而做出对网站的评价,最终影响站点在搜索结果中的表现。在搜索引擎看来,站点的链接质量比数量更为重要,然而愈演愈烈的链接买卖风潮,已经开始威胁到搜索引擎的公正性。为此百度质量团队推出了绿萝算法对买卖链接行为进行打击。
搜索引擎认为站点每发出一个链接指向另一个站点,都是一次投票行为,请您珍惜每一次投票的权力,而不是将这个权力出售,更不应该打包卖给链接中介公司。如果搜索引索发现站点有出售链接的行为,则会影响到站点在搜索引擎系统中的整体表现。对于广告类的链接,请您使用nofollow属性进行设置。除不出售链接外,您还应该关注建站程序的安全更新,及时安装补丁程序;经常对网站发出的链接进行检查,看是否有多余的、非主观意愿存在的链接,以免站点在不知情的情况下被黑帽SEO添加链接。
建议您不要企图求助于黑帽SEO和链接中介公司,他们很有可能使用极不正当的手段令站点在短时间内获得一定效果,但是搜索引擎有专门的程序去识别各种手段和行为,一旦被发现,站点会无法得到预期的效果,甚至被搜索引擎惩罚处理。最后,希望各位站长放眼于长远的未来,不要为眼前的蝇头小利所迷惑。将精力放在在自身内容和品牌建设上,拓展更多良性发展的盈利模式。
在《百度搜索引擎工作原理》课程中我们提到过,Baiduspider需要知道站点里哪个页面更重要,其中一个渠道就是内链。那么内链建设有哪些大忌呢:
死循环链接:死循环链接是搜索引擎蜘蛛最郁闷的事情了,往往会把搜索引擎蜘蛛卡在一个角落中,无限的循环而走不出来,不仅白白浪费蜘蛛体力,也会占用网站大量爬取频率,造成有价值的网页抓取不全。比如万年历等非常实用的工具网站,很多时候这些工具你都可以无限的点击,每次点击都产生一个新的url,如果你没有屏蔽蜘蛛爬取这些内容,那么蜘蛛有可能会被带入到一个无限循环的境地,这样的做法对任何一个搜索引擎都是不友好的。
还有一种就是动态、带“?”号的url。这是由于动态网站的一个动态文件(如.php)可以产生上万个或者无数个链接,如果部分php文件内部又再次链向自己。蜘蛛进去就很难再爬出来。
链接404后不消除内链入口:页面404后,除了需要向百度站长平台提交外,应该尽量关闭其在网站内部的入口,一来死链对用户的伤害是极大的,二来避免令蜘蛛产生错觉,认为你网站死链严重。
只有入链没有出链:有些人认为网页上的出链太多会分散页面本身的得分,所以在重要页面上不设计出链,实际这与百度的认知是相悖的,百度认为一个优质的网站结构应该像一张网,所有页面都会与其他页面产生链接,蜘蛛会顺着一个页面遍历所以页面。只有入链而没有出链的结构对蜘蛛来说是不友好的。当然,整个网站仅一两个网页只有入链没有出链是无所谓的,但数量千万不要多。
无返回上级目录的链接:我们提倡尽量在每个页面上使用面包屑导航,以告诉搜索引擎页面内容与首页的关系及距离;同时对于用户来说,面包屑导航也是延长用户平均访问时长的重要工具。只有内容而没有返回上级目录的页面就像一本永远无法访问目录的书,听起来是不是怪怪的?
错误的锚文本:内链的作用并不仅仅是页面权值传递和内部投票,百度还会通过锚文本辅助判断网页的内容,错误的锚文本很可能会误导百度对于相关性的计算,对搜索排序产生负面影响。同时对于只能通过锚文本来判断是否要点击打开新网页的用户来说,无疑也是一种伤害。
百度搜索引擎虽然降低了对超链的依赖,但依然没有放弃对不同质量链接的识别,制定了一套针对优质外链、普通外链、垃圾外链、作弊外链的识别原则和方法。在继续信任优质外链的同时,加大对作弊外链的打击,同时对部分作弊外链的受益站点进行打击。为了避免被百度搜索引擎怀疑为超链作弊,建议站长定期检查站点的外链情况,发现异常及时通过百度站长平台的拒绝外链工具进行自我保护。同时如果你之前有过购买链接、群发外链的行为,可以通过拒绝外链工具进行修正。
那么除了要拒绝被黑网页发出的链接、买来的链接外,还有哪些链接应该被拒绝呢。
来自垃圾站群的链接:有些黑帽会通过非法手段在你的站点产生大量页面,再组织站群发送外链至这批页面上。这样的链接必须及时处理。
来自不相关低质站点群的链接:百度认为相同主题网站之间的链接更友好,所以,如果你的网站被一批其它主题网站链接了,一定要及时查看这批网站的质量,如果质量不高,尽量拒绝。
使用拒绝外链工具还有一些注意事项:
您通过工具拒绝外链的需求将无法撤销或删除,所以需要谨慎使用
我们不能保证短时间内就能去掉垃圾作弊外链对网站的负面影响,清理过程可能长达数周,请站长耐心等待
为了改变站点运营效果,部分站长会选择对网站进行改版。百度站长平台站在搜索引擎的角度给站长朋友一些建议:首先站长们应该明确,网站只要发生大大的变化(如换域名、子目录改版为二级域名等),流量就会受到损失;其次,百度站长平台会帮助站长尽量将损失降到最低。请站长依次走完以下步骤以减少损失。
第一步:设置301跳转
使用301跳转进行重定向,跳转最好有规律可循,百度搜索引擎会自动进行处理
提醒:301跳转要保持一段时间,直至新网页的抓取、收录、排序达到预期。
第二步:使用改版工具
使用百度站长平台工具,可加速百度搜索引擎对301跳转的处理,尽快完成新旧内容的衔接。目前改版工具除了支持换域名外,还可以支持站点级改版和目录级改版,都是通过工具的“目录改版”功能实现的。
工具地址:http://zhanzhang.baidu.com/rewrite/index
当站点级改版时,需要在“目录改版 改版范围”处提交站点级首页URL
如www.example.com/,百度将会对该站点下的所有页面进行改版处理。
当站点要进行目录级改版时,依然在“目录改版 改版范围”处进行提交,但提交的应该是需要改版的目录,而非站点级首页URL。
如提交www.example.com/a/,百度会对www.example.com/a/,包括www.example.com/a/b/进行改版处理。 具体使用方法可参考百度站长平台已有的文章《网站改版工具帮助》
第三步:使用抓取异常工具
已在改版工具中提交改版规则后,随时关注新内容的抓取情况。如果不符合预期,可使用抓取异常工具查找部分原因,排除由服务器、运营商、DNS、IP、UA等导致的抓取不及时。
工具地址: http://zhanzhang.baidu.com/crawl/index 具体可参考百度站长平台已有文章《抓取异常工具帮助》,里面对每项因素都有详细说明和解决办法。
第四步:使用抓取频次工具
抓取频次工具提供站点在百度近一个月的天级抓取量曲线图,如果新内容抓取量不符合预期可在工具中进行反馈,spider会根据站长的申请和实际情况对抓取频次进行调整。
工具地址:http://zhanzhang.baidu.com/pressure/index
具体使用方法可参考百度站长平台已有文章《抓取频次工具帮助》
第五步:使用百度索引量工具
一个站点的被抓取量多与少并不是重点,重点是索引量,只有被建为索引的页面才有可能展现在用户面前。站长可以通过百度索引量工具来对比新旧内容被建索引的数量,来确认改版后站点在百度搜索引擎的收录是否已恢复正常。
工具地址:http://zhanzhang.baidu.com/indexs/index 该工具使用起来非常简单,可参考百度站长平台之前的文章《百度索引量工具帮助》
在与站长朋友私下交流中,站长表示:最怕改版,最怕换空间换IP,每次都是万不得已身不由己。改版还好些,有改版工具可以使用。换了空间和IP都不知道怎么通知百度。其实,登录百度站长平台,使用抓取诊断工具,换空间和IP真的不是愁事。
抓取诊断工具会检查站点与百度的连接是否畅通,若站长发现IP信息还是老旧的,可以通过“报错”通知百度搜索引擎更新IP,如下图所示:
重要提示:由于spider精力有限,如遇报错后网站IP依旧没有变化,站长可进行多次尝试,直至达到预期。
由于大多数UGC建站系统存在漏洞,攻克技术成本较低,且群发软件价格低廉,容易被作弊者利用,近期我们发现大量UGC站点被群发的垃圾信息困扰。这些垃圾群发内容无孔不入,除论坛、博客等传统的UGC站点受到困扰外,现已蔓延到微博、SNS、B2B商情页、公司黄页、分类信息、视频站、网盘等更多领域内,甚至连新兴的分享社区也受到了影响。从以前的论坛帖子、博客日志,扩展到供求信息页、视频页、用户资料页,这些任何由用户填写和生成内容的地方,都会被作弊者发掘利用,形成大量的UGC性质的垃圾页面。
搜索引擎在发现UGC性质的垃圾页面后必将做出相应应对,但对真正操作群发的作弊者很难有效的打击,所以作弊者容易利用UGC站点极低成本且自身安全这些特点,做出更多危害网站、危害用户、危害搜索引擎的行为。若网站自身管理不严控制不力,很容易成为垃圾内容的温床;有些网站为了短期流量而对垃圾内容置之不理,这无异于饮鸩止渴。网站不应仅仅是平台的提供者,更应该是内容的管理者,积极维护网站自身质量非常重要。若网站任由垃圾内容滋长,不仅会影响网站的用户体验,同时也会破坏网站口碑和自身品牌建设,造成正常用户流失,严重时,还会使搜索引擎降低对网站的评价。
对于作弊者来说,在UGC站点上发布垃圾内容的目的就是被搜索引擎收录,如果不能让垃圾页面在网站和搜索引擎上消失,他们依然会持续不断地产生更多垃圾内容。百度站长平台希望和站长一起打击垃圾页面,帮助网站良性发展,共同维护互联网生态环境。
与网站或论坛版块主题不符的内容
欺骗搜索引擎用户的内容
使用夸大诱人的标题,或在内容中穿插堆积热门关键词
有些文章看标题以为在说A事,而主要内容却在讲B,且与A毫无关系
视频或音频文件标题所述不符
欺骗网站诈取分帐式广告收益的内容
专门利用UGC网站为自己做推广、谋福利
诈骗中奖、虚假联系电话、不良信息
删除垃圾内容,并将这些页面设置为404页面后,及时通过百度站长平台的死链工具提交死链列表
提高注册用户门槛,限制机器注册
群发软件通常使用自动的程序探测论坛默认的注册文件名、发帖文件名。管理员可以不定期的修改注册用户文件名、发帖文件名;注册、发帖按钮使用图片;与程序默认的不同,可以防止被自动程序搜索到。
发帖机通常是机器注册,行为模式单一。管理员可添加一些需要人工操作的步骤,有助于限制机器注册。如使用验证码;限制同一邮箱注册ID的数量,同时启用邮箱验证;使用更为复杂的验证机制;经常更换注册问答。
除了在注册处设置门槛外,还可以控制新用户权限。如要求完成上传头像、完善用户信息等人工操作步骤后才开放发帖功能;在一定时间内限制新用户发帖;限制新用户发布带链接的帖子,待达到一定级别后再放开。
严控机器发帖行为,如使用验证码、限制短时间内连续发帖等
建立黑名单机制,将群发常用词、广告电话和网址等加入黑名单,对含有黑名单内容的帖子进行限制或清除。黑名单应该不断维护
对站内异常内容进行监控,发现爆增数据后及时查找原因
对站点内用户的行为进行监控
部分异常用户的ID结构有别于普通用户,如使用无意义的字母数字、或几个单个汉字的无序组合
如:gtu4gn6dy1、蝶淑琴;使用商业词作为ID,如:轴承天地7、hangkongfuwu123
发布内容间隔过短
发布的内容绝大部分非常类似
发布的大部分内容里含有类似的特征,如某个网址、电话、QQ号码等联系方式
不允许发布带有可执行代码的内容,避免弹窗、跳转等严重影响用户体验的情况发生。
对部分UGC位置提及的链接,使用“nofollow”进行标记,如:bbs签名内的链接、BLOG回复ID自置的链接
论坛中的广告、灌水版块,建议加上权限限制,或者禁止搜索引擎收录。
关注建站程序的安全更新,及时安装补丁程序。保障用户账号安全,避免发生盗用正常用户账号或历史沉寂用户账号发布垃圾内容的情况发生。
这里所说的被黑,指黑客通过网站漏洞篡改网页内容、为网站恶意添加许多垃圾页面,内容往往与博彩、游戏等热门关键词有关,然后利于网站在搜索引擎中的天然优势骗取更多流量。互联网上所有网站其实都存在被黑的可能,尤其是已在搜索引擎中获得较好表现的站点更要注意,千万不要让被黑令自己的心血付之东流。
先通过外界对网站进行观察,如果有如下现象,那您的网站可能被黑了
通过百度站长平台的索引量工具,发现站点收录量大增;再通过搜索关键词工具发现,站点获得流量的关键词中有很多与本站点无关。
通过Site语法查询站点,显示搜索引擎收录了大量非本站应有的页面。
**注:site查询结合一些常见的色情、游戏、境外博彩类关键字,可帮助站长更快的找到异常页面,例如“site:www.abcxyz.com 博彩”**
从百度搜索结果中点击站点页面,跳转到了其他站点。
站点内容在搜索结果中被提示存在风险。
从搜索引擎带来的流量短时间内异常暴增。
通过上述方法站长怀疑自己的网站被黑了,那么该如何对黑出来的内容进行排查呢?
分析系统和服务器日志,检查自己站点的页面数量、用户访问流量等是否有异常波动,是否存在异常访问或操作日志;
检查网站文件是否有不正常的修改,尤其是首页等重点页面;
网站页面是否引用了未知站点的资源(图片、JS等),是否被放置了异常链接;
检查网站是否有不正常增加的文件或目录;
检查网站目录中是否有非管理员打包的网站源码、未知txt文件等;
使用百度站长平台抓取诊断工具,诊断网页是否被加了黒链、隐藏文本
每个站点每月可使用300次,抓取结果只展现百度蜘蛛可见的前200KB内容
【重要提示】若直接访问网站时一切正常,但在百度的搜索结果展现了异常的快照内容,这可能是黑客做了特殊处理,只让百度蜘蛛抓取到异常的页面,以此来增加隐蔽性,让站长难以发现;同理,若直接访问网站正常,但从百度搜索结果页进行访问时,出现了异常页面,这是黑客针对百度来源(refer)做了特殊处理
立即停止网站服务,避免用户继续受影响,防止继续影响其他站点(建议使用503返回码)。
如果同一主机提供商同期内有多个站点被黑,您可以联系主机提供商,敦促对方做出应对。
清理已发现的被黑内容,将被黑页面设置为404死链,并通过百度站长平台死链提交工具进行提交。
排查出可能的被黑时间,和服务器上的文件修改时间相比对,处理掉黑客上传、修改过的文件;检查服务器中的用户管理设置,确认是否存在异常的变化;更改服务器的用户访问密码。
**注:可以从访问日志中,确定可能的被黑时间。不过黑客可能也修改服务器的访问日志。**
做好安全工作,排查网站存在的漏洞,防止再次被黑。
2014年5月14日,前瞻网官方微博发布公告,宣布域名被盗损失过亿。在黑客遍行的今天,域名被盗被劫持几乎每天都在发生。百度搜索引擎希望站长在关注收录、流量、变现的同时,多多关注域名安全,毕竟域名安全是生存之本。在之前与站长接触中,发现站长都有如下心理:域名控制权完全在服务商,我们处于被动的一方。那么站长就真的什么都不用做、什么都无法做了么?
1,域名被解析到其它地址,用户无法正常访问,网站流量受损 2,通过泛解析生成大量子域名,共同指向其它地址(往往是恶意垃圾网站) 3,域名被解析到恶意钓鱼网站,导致用户财产损失 4,当域名被劫持后的内容干扰搜索结果时,为保障用户的使用体验和安全,百度搜索引擎会暂时关闭对域名的收录和展示,待严格审核确认后才会再度放开
为域名注册商和注册用邮箱设置复杂密码,且经常更换。使用单独的DNS服务,也需要对密码进行上述设置。同时注意不要在多个重要注册地使用相同的用户名和密码。
将域名更新设置为锁定状态,不允许通过DNS服务商网站修改记录
**使用此方法后,需要做域名解析都要通过服务商来完成,时效性较差**
定期检查域名帐户信息、域名whois信息,每天site网站检查是否有预期外网页,或使用百度云观测进行监控——当域名被解析到恶意站点时可以第一时间收到报警(百度云观测关于域名安全的介绍)
网站运营和优化人员经常详细检查网站索引和外链信息,有异常一定要检查清楚
立即修改域名服务商和邮箱密码,使用复杂度高的密码且经常更换
删除不属于你的DNS解析,恢复DNS设置
如果使用的是第三方DNS服务,应立即修改第三方DNS服务端帐户密码,锁定帐户信息,开启帐户短信邮箱类提醒
收集全部被非法添加的页面并设置404,使用百度站长平台工具提交死链
如果该服务商下域名经常出现被劫持事件,可考虑更换更安全稳定的服务商。有能力的网站可自建DNS服务,自主运维自负风险
关于网站建设,其实还有很多零碎的问题要注意,所以在这里单启一篇,日后再根据反馈不断补充完善。
搜索引擎往往将二级域名当作一个独立的网站看待,同时会视情况将主域名的评价传递一部分给二级域名。使用二级域名会使同domain下站点变多,但是每个站点的体量变小。二级域名的SEO特点是:
二级域名对用户来说也是一个完整的域名,显得更有权威性
二级域名网页之间相关性更强,对于搜索引擎来说主题更集中
相较子目录更易形成品牌
将不同内容通过子目录的情况放在同一个网站下,会使网站体量变得越来越大,可以使网站积累更多的投票:
相较二级域名,可以更好地继承主域名的评价数据
与站点关系更密切,同时不失灵活,搜索引擎对站点内容的识别早以细化到目录级别
选择使用二级域名还是子目录来分配网站内容,对网站在搜索引擎中的表现会有较大的影响,为此百度站长平台建议:
在某个频道的内容没有丰富到可以当作一个独立站点存在之前,使用目录形式;等频道下积累了足够的内容,再通过改版成二级域名的形式。
一个网页能否排到搜索引擎结果的前面,“出身”很重要,如果出自一个站点评价较高的网站,那排到前面的可能性就较大,反之则越小。通常情况下,二级域名会从主站点继承一部分权重,继承多少视二级域名质量而定。
在内容没有丰富到可以作为一个独立站点之前,使用子目录更能在搜索引擎中获得较好表现。
内容差异较大、关联度不高的内容,建立使用二级域名的形式。
搜索引擎会识别网站的主题,如果网站中各子目录的内容关联度不高,可能导致搜索引擎错误地判断网站的主题。所以,关联度不高的内容放在不同的二级域名中,可以帮助搜索引擎更好的理解网站的主题。
二级域名间的服务器权限应该严格控制,a.domain.com下的内容,最好不能域名替换通过b.domain.com访问。如:a.domain.com/abc.html 不应该通过b.domain.com/abc.html访问到。
二级域名的内容能够互相访问,可能会被搜索引擎当作重复内容进行去重处理,保留的URL不一定能符合站长预期。
不要滥用二级域名
没有丰富的内容就大量启用二级域名,极容易被搜索引擎当作作弊行为惩罚。
网站在生存发展中会遇到很多问题,会因为各种原因产生不同的域名,而这些域名的内容却都是相同的。百度一直在说拒绝重复内容,那么,多域名同内容是否会对SEO产生负影响呢?我们收集了众多站长对多域名同内容的问题后,请百度spider专家做了统一解答,现公布出来供各站长参考。
问:多个域名指向同一个域名算是作弊么?
答:如果某公司从品牌保护或长远发展角度出发,注册了多个域名,且多域名301重定向指向一个常用域名,那此行为本身不属于作弊。但是如果进行301重定向的多域名本身有作弊行为,那么被指向的域名有可能受到牵连。
问:多个域名同内容是否有利于提高排名?
答:此举非常不利于提高排名,因为多个域名会分散原本应该属于单独域名的外链进而影响权重,不利于单独域名获得更好的排名。
问:我们先推个测试域名,走上正轨后再启用正式域名,会有什么影响吗?
答:如果两个域名的内容完全一样,对正式域名的收录可能会有影响。搜索引擎会认为这两个网站重复,在已经收录了前者的前提下,会对后者限制收录。的确曾经有某理财网站先搞一个临时域名在搜索引擎试水,结果等正牌域名上线后却迟迟得不到收录的事情发生。
问:如果公司已经有多个域名是相同内容该怎么处理?
答:先确认一个好记易懂的域名作为“唯一域名”,进行重点宣传推介,其余的域名也千万不能放任自流,尤其是当测试域名已经有了较好的收录和排位时,可以设置301重定向,指向唯一域名。同时登录百度站长平台对新旧网站进行验证,然后在网站改版工具中进行相应的操作,可以让“唯一域名”继承原域名已获得的权重。
网站改版工具地址&帮助说明