行业资讯重庆易企网络公司
行业快讯
当前位置:重庆易企网络公司 >> 行业快讯 >> 行业资讯 >> 浏览文章
行业资讯

怎么建设一个吻合优化的网站

标签:怎么,建设,一个,吻合,优化,网站 发布时间:2019年12月06日 阅读:21次

如何精确识别 Baiduspider 移动 ua

  • 新版移动 ua: Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.esmo.cn/baidu3564/search/spider.html)
  • PC ua: Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.esmo.cn/baidu3564/search/spider.html) 之前通过 “+http://www.esmo.cn/baidu3564/search/spider.html” 进行识别的网站请细致!您必要修改识别体例,新的精确的识别 Baiduspider 移动 ua 的方法如下:
  • 通过关键词 “Android” 或者 “Mobile” 来进行识别,判断为移动访问或者抓取。
  • 通过关键词 “Baiduspider/2.0”, 判断为百度爬虫。

另外必要强调的是,对于 robots 封禁,假如封禁的 agent 是 Baiduspider,会对 PC 和移动同时生效。即,无论是 PC 照旧移动 Baiduspider,都不会对封禁对象进行抓取。之所以要强调这一点,是发现有些代码适配站点(统一个 url,PC ua 打开的时候是 PC 页,移动 ua 打开的时候是移动页),想通过设置 robots 的 agent 封禁达到只让移动 Baiduspider 抓取的目的,但因为 PC 和移动 Baiduspider 的 agent 都是 Baiduspider, 这种方法是特别很是不可取的。

如何识别百度蜘蛛

百度蜘蛛对于站长来说可谓上宾,可是我们曾经碰到站长如许提问:我们如何判断疯狂抓我们网站内容的蜘蛛是不是百度的?其实站长可以通过 DNS 反查 IP 的体例判断某只 spider 是否来自百度搜索引擎。根据平台不同验证方法不同,如 linux/windows/os 三种平台下的验证方法分别如下:

  1. 在 linux 平台下,您可以使用 host ip 饬令反解 ip 来判断是否来自 Baiduspider 的抓取。Baiduspider 的 hostname 以 .baidu3564 或 .baidu.jp 的格式命名,非 .baidu3564 或 .baidu.jp 即为冒充。 怎么建设一个吻合优化的网站

  2. 在 windows 平台或者 IBM OS/2 平台下,您可以使用 nslookup ip 饬令反解 ip 来 判断是否来自 Baiduspider 的抓取。打开饬令处理器 输入 nslookup xxx.xxx.xxx.xxx(IP 地 址)就能解析 ip, 来判断是否来自 Baiduspider 的抓取,Baiduspider 的 hostname 以 .baidu3564 或 .baidu.jp 的格式命名,非 .baidu3564 或 .baidu.jp 即为冒充。

  3. 在 mac os 平台下,您可以使用 dig 饬令反解 ip 来 判断是否来自 Baiduspider 的抓取。打开饬令处理器 输入 dig xxx.xxx.xxx.xxx(IP 地 址)就能解析 ip, 来判断是否来自 Baiduspider 的抓取,Baiduspider 的 hostname 以 .baidu3564 或 .baidu.jp 的格式命名,非 .baidu3564 或 .baidu.jp 即为冒充。

Baiduspider IP 是多少

即便许多站长知道了如何判断百度蜘蛛,仍然会赓续地问 “百度蜘蛛 IP 是多少”。我们理解站长的意思,是想将百度蜘蛛所在 IP 加入白名单,只准白名单下 IP 对网站进行抓取北京人事考试中心,避免被采集等举动。

但我们不建议站长如许做。虽然百度蜘蛛的确有一个 IP 池,真实 IP 在这个 IP 池内切换,但是我们无法保证这个 IP 池团体不会发生转变。所以,我们建议站长勤看日志,发现恶意蜘蛛后放入黑名单,以保证百度的正常抓取。

同时,我们再次强调,通过 IP 来分辨百度蜘蛛的属性是特别很是可笑的事情,所谓的 “沙盒蜘蛛”“降权蜘蛛” 等等是从来都不存在的。

robots 写法

robots 是站点与 spider 沟通的紧张渠道,站点通过 robots 文件声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。请细致,仅当您的网站包含不盼望被搜索引擎收录的内容时,才必要使用 robots.txt 文件。假如您盼望搜索引擎收录网站上所有内容,请勿建立 robots.txt 文件。

robots 文件每每放置于根目录下,包含一条或更多的记录,这些记录通过空行分开(以 CR,CR/NL, or NL 作为结束符),每一条记录的格式如下所示: <field>:<optional space><value><optionalspace>

在该文件中可以使用#进行表明,详细使用方法和 UNIX 中的惯例一样。该文件中的记录通常以一行或多行 User-agent 开始,后面加上若干 Disallow 和 Allow 行 , 细致情况如下:

  • User-agent:该项的值用于描述搜索引擎 robot 的名字。在 "robots.txt" 文件中,假如有多条- User-agent 记录说明有多个 robot 会受到 "robots.txt" 的限定,对该文件来说,至少要有一条 User-agent 记录。假如该项的值设为 ,则对任何 robot 均有用,在 "robots.txt" 文件中,"User-agent:" 如许的记录只能有一条。假如在 "robots.txt" 文件中,加入 "User-agent:SomeBot" 和若干 Disallow、Allow 行,那么名为 "SomeBot" 只受到 "User-agent:SomeBot" 后面的 Disallow 和 Allow 行的限定。

  • Disallow:该项的值用于描述不盼望被访问的一组 URL,这个值可以是一条完备的路径,也可以是路径的非空前缀,以 Disallow 项的值开头的 URL 不会被 robot 访问。例如 "Disallow:/help" 禁止 robot 访问 /help.html、/helpabc.html、/help/index.html,而 "Disallow:/help/" 则许可 robot 访问 /help.html、/helpabc.html,不能访问 /help/index.html。"Disallow:" 说明许可 robot 访问该网站的所有 url,在 "/robots.txt" 文件中,至少要有一条 Disallow 记录。假如 "/robots.txt" 不存在或者为空文件,则对于所有的搜索引擎 robot,该网站都是开放的。

  • Allow:该项的值用于描述盼望被访问的一组 URL,与 Disallow 项相似,这个值可以是一条完备的路径,也可以是路径的前缀,以 Allow 项的值开头的 URL 是许可 robot 访问的。例如 "Allow:/hibaidu" 许可 robot 访问 /hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一个网站的所有 URL 默认是 Allow 的,所以 Allow 通常与 Disallow 搭配使用,实现许可访问一部分网页同时禁止访问其它所有 URL 的功能。

  • 使用 "*"and"$":Baiduspider 支撑使用通配符 "" 和 "$" 来模糊匹配 url。 "" 匹配 0 或多个任意字符 "$" 匹配行结束符。

最后必要说明的是:百度会严酷遵守 robots 的相干协议,请细致区分您不想被抓取或收录的目录的大小写,百度会对 robots 中所写的文件和您不想被抓取和收录的目录做正确匹配,否则 robots 协议无法生效。

robots 需求用法对应表

上面说了那么多理论,有没有简单对照表格告诉我,怎样的需求场景下应该怎样撰写 robots 文件?有的:

怎么建设一个吻合优化的网站

除 robots 外其它禁止百度收录的方法

Meta robots 标签是页面 head 部分标签的一种,也是一种用于禁止搜索引擎索引页面内容的指令。目前百度仅支撑 nofollow 和 noarchive

  • nofollow:禁止搜索引擎跟踪本页面上的链接
    假如您不想搜索引擎追踪此网页上的链接,且不传递链接的权重,请将此元标记置入网页的

    部分:<meta name="robots" content="nofollow">
    假如您不想百度追踪某一条特定链接,百度还支撑更正确的控制,请将此标记直接写在某条链接上:<a href="signin.php" rel="nofollow">signin</a>
    要许可其他搜索引擎跟踪,但仅防止百度跟踪您网页的链接,请将此元标记置入网页的 部分:<meta name="Baiduspider" content="nofollow">
  • noarchive:禁止搜索引擎在搜索效果中表现网页快照
    要防止所有搜索引擎表现您网站的快照,请将此元标记置入网页的

    部分:<meta name="robots" content="noarchive">
    要许可其他搜索引擎表现快照,但仅防止百度表现,请使用以下标记:<meta name="Baiduspider" content="noarchive">
    注:此标记只是禁止百度表现该网页的快照,百度会继承为网页建索引,并在搜索效果中表现网页择要。

使用 robots 巧妙避免蜘蛛黑洞

对于百度搜索引擎来说,蜘蛛黑洞特指网站通过极低的成本制造出大量参数过多、内容类同但 url 不同的动态 URL ,就像一个无穷循环的 “黑洞 “,将 spider 困住。spider 虚耗了大量资源抓取的却是无效网页。

如许多网站都有筛选功能,通过筛选功能产生的网页经常会被搜索引擎大量抓取,而这其中很大一部分是检索价值低质的页面。如 “500-1000 之间价格的租房”,首先网站(包括实际中)上基本没有相干资源,其次站内用户和搜索引擎用户都没有这种检索风俗。这种网页被搜索引擎大量抓取,只能是占用网站珍贵的抓取配额,那么该如何避免这种情况呢?

  1. 我们以北京美团网为例,看看美团网是如何行使 robots 巧妙避免这种蜘蛛黑洞的:
  2. 对于通俗的筛选效果页,使用了静态链接,如:
    http://bj.meituan3564/category/zizhucan/weigongcun
  3. 同样是条件筛选效果页,当用户选择不同排序条件后,会生成带有不同参数的动态链接,而且即使是统一种排序条件(如:都是按销量降序排列),生成的参数也都是不同的。如:
    http://bj.meituan3564/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhekhttp://bj.meituan3564/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c
    对于美团网来说,只让搜索引擎抓取筛选效果页就可以了,而各种带参数的效果排序页面则通过 robots 规则拒绝提供应搜索引擎。在 robots.txt 的文件用法中有如许一条规则:Disallow: /? ,即禁止搜索引擎访问网站中所有的动态页面。美团网恰是通过这种体例,对 spider 优先展示高质量页面、屏蔽了低质量页面,为 spider 提供了更友爱的网站结构,避免了黑洞的形成。

禁止百度图片搜索收录某些图片的方法

目前百度图片搜索也使用了与百度网页搜索雷同的 spider,假如想禁止 Baiduspider 抓取网站上所有图片、禁止或许可 Baiduspider 抓取网站上的某种特定格式的图片文件可以通过设置 robots 实现:
| | | --- | --- 禁止 Baiduspider 抓取网站上所有图片 , 仅许可抓取网页,禁止抓取任何图片。| User-agent: Baiduspider Disallow: /.jpg$; Disallow: /.jpeg$; Disallow: /.gif$; Disallow: /.jpg$; Disallow: /*.bmp$;

仅许可 Baiduspider 抓取网页和 .gif 格式图片 , 许可抓取网页和 gif 格式图片,不许可抓取其他格式图片| User-agent: Baiduspider; Allow: /.gif$; Disallow: /.jpg$; Disallow: /.jpeg$; Disallow: /.jpg$; Disallow: /*.bmp$;

仅禁止 Baiduspider 抓取 .jpg 格式图片|User-agent: Baiduspider;Disallow: /*.jpg$

503 状况码的使用场景及与 404 的区别

Html 状况码也是网站与 spider 进行交流的渠道之一,会告诉 spider 网页目前的状况,spider 再来决定下一步该怎么做——抓 or 不抓 or 下次再来看看。对于 200 状况码大家已经很熟了,那么我们来介绍几种常见的失效网页使用的状况码:

  • 【404】404 返回码的含义是 “NOT FOUND”,百度会认为网页已经失效,那么通常会从搜索效果中删除,并且短期内 spider 再次发现这条 url 也不会抓取。
  • 【503】503 返回码的含义是 “Service Unavailable”,百度会认为该网页一时不可访问,通常网站一时关闭,带宽有限等会产生这种情况。对于网页返回 503,百度 spider 不会把这条 url 直接删除,短期内会再访问。届时假如网页已恢复,则正常抓取;假如继承返回 503,短期内还会反复访问几次。但是假如网页长期返回 503,那么这个 url 仍会被百度认为是失效链接,从搜索效果中删除。
  • 【301】301 返回码的含义是 “Moved Permanently”,百度会认为网页当前跳转至新 url。当碰到站点迁移,域名替换、站点改版的情况时,保举使用 301 返回码,尽量削减改版带来的流量损失。虽然百度 spider 如今对 301 跳转的相应周期较长,但我们照旧保举大家这么做。

一些网站把未建好的页面放到线上,并且这些页面在被百度抓取的时候返回码是 404,于是页面被百度抓取后会被当成死链直接删除。但是这个页面在第二天或者过几天就会建好,并上线到网站内显现出来,但是因为之前已经被百度当做死链删除,所以要再次等这些链接被发现,然后抓取才能显现,如许的操作最终会导致一些页面在一段时间内不会在百度出现。比如某个大型门户网站爆出大量消息时效性很强的专题未被百度及时收录的题目,经检查验证后发现就是由于页面未建成就放置在线上,并返回 404 状况码,被百度当成死链删除,造成收录和流量损失。

对于如许的题目,建议网站使用 503 返回码,如许百度的抓取器接到 503 返回码后,会在隔一段时间再去访问这个地址,在您的页面建好上线后,就又能被重新抓取,保证页面及时被抓取和索引,避免未建好的内容设为 404 后带来不需要的收录和流量损失。

其它建媾和总结:

  1. 假如百度 spider 对您的站点抓取压力过大,请尽量不要使用 404,同样建议返回 503。如许百度 spider 会过段时间再来尝试抓取这个链接,假如那个时间站点余暇,那它就会被成功抓取了
  2. 假如站点一时关闭或者页面暂未建好上线,当网页不能打开时以及没有建好时,不要立即返回 404,建议使用 503 状况。503 可以告知百度 spider 该页面一时不可访问,请过段时间再重试。

连通率为 0 的前因后果及预防补救措施

在百度 site 站点时,碰到 “连通率为 0” 说明 Baiduspider 在访问站点时发现了题目,该题目特别很是紧张,假如 Baiduspider 持续一天时间无法访问有可能给站点带来灾祸性的损失。

一、何谓连通率

既然为率,那么就是一个统计相干概念。我们不妨可以如许理解一个网站的连通率:百度蜘蛛在抓取网站页面的时候计算的一个概率,比如它抓取某网站中的 N 个页面,这 N 个页面都能打开并被蜘蛛成功抓取,如许的连通率就是 N/N=100%,反之蜘蛛抓取 N 个页面有 M 个页面能成功抓取,连通率就是 M/N

这里先说明几个常识:

  1. 不是网站被某算法责罚而导致连通率为 0,也不是网站流量降落而导致连通率数值很低;
  2. 连通率代表着百度蜘蛛获取网站数据的情况,假如连通率数值很低或为 0,那么可能连维持网站的正常收录等都成题目;
  3. 如果网站被判定连通不了,那么假如让一个连通不了的站点在百度中获取排名,就会大大影响搜索用户的体验,于是百度就会采取对该站点有用引流的索引消灭操作,一些站长就会发现本身的网站索引量忽然大幅度降落,甚至索引被短暂清 0 了,接着就是网站百度搜索流量大幅度降落,这种突发性的事件又会造成站长们的臆测,以为本身的网站被百度责罚了,其实站长们先应该细致的是站点的连通情况。

二、提取核心词

上述概念中,我们必要细致的几个词有:” 百度蜘蛛”; ” 在抓取”; ”N 个页面”; ”M 个页面”; ” 都能打开并被成功抓取”。
怎么建设一个吻合优化的网站

三、连通率很低或为 0 时

我们捉住上述 5 个提掏出的核心词进行分析。

(一)百度蜘蛛

  1. 谨防百度蜘蛛访问被操控或禁止
  2. 因为百度蜘蛛的抓取量等缘故原由对一些服务器造成压力,而这些网络商或网站运营方从某利益角度考虑,偶然或故意的屏蔽百度蜘蛛,导致部分或悉数百度蜘蛛 ip 获取不到网站数据;
  3. 一些网站运营方或网络商对蜘蛛进行区别对待,比如国外蜘蛛 ip、山东蜘蛛 ip、北京蜘蛛 ip 等返回不同的数据,移花接木的手段层出不穷,而这个过程很可能造成百度蜘蛛的非常举动或非常状况返回;

所以我们首先要确保百度蜘蛛的访问有没有被操控或禁止。

  1. 预防措施
  2. 完美联系体例获得百度站长工具新闻提示
    怎么建设一个吻合优化的网站 虽然一些网站非常情况会收到百度站长工具新闻提示,然而我想告诉大家不是所有本身站点非常都可以寄盼望于新闻提示的,本身内心要知道连发邮件都可能出现收不到的情况,更何况各种复杂的非常情况,因此不要出题目了只会问 “为什么站长工具没有给我发新闻”。

  3. 行使抓取非常和抓取频次工具观察抓取情况
    ↓抓取非常工具的网址非常情况
    怎么建设一个吻合优化的网站

↓抓取频次工具的抓取统计情况

怎么建设一个吻合优化的网站
怎么建设一个吻合优化的网站
怎么建设一个吻合优化的网站

↓每个工具页面的右侧下方都有使用说明,如下

怎么建设一个吻合优化的网站
(3)抓取诊断工具是重中之重

怎么建设一个吻合优化的网站
为了保证网站对百度蜘蛛的稳固访问性能,日常我们必要养成定期抓取诊断的风俗,另外抓取诊断不是说光看看状况是否 “抓取成功” 就行了。有下面几步进行:

  • 第一步:下拉选择分”pc”、 ” 移动” 进行抓取,”pc” 意味着一样平常意义上的电脑端访问诊断,” 移动” 则是如手机、平板等移动设备端访问诊断;
  • 第二步:网站重要的引流页,如首页、详情页、内容页、专题页等都要进行抓取,另外可以重点几个时间段(比如网站岑岭时间段)天天定期进行测试;
  • 第三步:抓取失败了,点击” 抓取失败” 查看提醒信息,假如本身没有技术能力解决题目,可以跟空间商进行沟通,然后向工具提交报错;
    怎么建设一个吻合优化的网站
  • 第四步:抓取成功后,也不能说就万事大吉了,还要点击” 抓取成功” 进去细致:提交网址、抓取网址、抓取 UA、网站 ip、下载时长、头部信息(服务器返回状况码、gzip 等相干信息)、网页源码是否都正常。

怎么建设一个吻合优化的网站

怎么建设一个吻合优化的网站
分外说明:有许多站长就光细致抓取成功,却不知网站 ip 可能并非本身的现实 ip,被网络商搞到哪里去了都不知道,还可能每隔一段时间都变。当发现 ip 有题目,及时跟网络商沟通,并在网站 ip 旁点击 “报错” 按钮,百度会更新网站 ip,但是切记不要 ip 转变频繁。此外当然还可能出实际际抓取网址、头部信息、网页源码等都不是本身原本设置的。

(二)在抓取

这是反映百度蜘蛛在抓取时的状况,百度的工具表现的数值一定都是抓取后计算出来的数据,因此任何工具的连通率数据必定存在耽误性,另外这个计算过程也存在肯定可能的错误,所以我们看到任何工具中关于连通率的数据,不要说 “我网站用抓取诊断等工具检查访问情况都好好的,为什么连通率照旧 0”,因此除了上述建议的多抓取诊断测试外,本身可以加些监控网站连接状况的措施,笔者本人就曾经接收了不少关于网站连接不通的提示。这时我会及时跟网络商沟通,然后及时用抓取诊断检查蜘蛛的情况。

怎么建设一个吻合优化的网站

(三)N 个页面与 M 个页面

这 N、M 个页面,可能百度蜘蛛很凑巧就赶上岑岭的时候或者一些假死页面(实行时间较长,超过蜘蛛的耐心),那么 M 这个数值就会很低,统计概率的东西大家都懂的,那么这时网站的连通率仍旧很低或为 0。因此若连通率为 0,我们还可以知道本身应该细致查看访问日志,及时清理死链,或者并发连接数增大,或者增长内存等等。

(四)都能打开并被成功抓取

这里重要细致 DNS 和空间的稳固性。

  1. DNS 的题目 参考当心 dns 服务器不稳导致站点被屏

提示大家细致的是如今不少云类 ns 服务器,这个过程中因为处理机制题目,包括回源停滞等等,较容易造成这个题目。另外国内大型服务商提供,比如你使用了 dnspod,并不代表你的 dns 就应该是 ok 的。有的站长存在着对大型服务商的错误熟悉,如 “新网的 dns 就是不可靠的,我都用百度云加速”。我们要晓畅廉价的东西质量都有肯定局限性,所以必要本身检查 dns 解析情况,详细上网找找相干资料或平台,看看 dns 解析出的 ip 以及解析耽误情况等等。

  1. 空间的稳固性 许多人都会用超级 ping 了,这个不多说了。但是我还要告诉大家有下面两点必要细致:
  2. A、不良的网络商会对不同用户 ip 进行不同处理,本身可以用 vpn 等工具观察下不同地区 ip 段的网站访问情况与返回内容;
  3. B、空间的资源不足,内存、并发连接等等,当访问量很少的时候,本身察觉不出,必要进步访问量,增长连接时间。因此使用一些监控工具时,发现监控工具访问测试量伟大,或者被人刷流量时,你应该庆幸,而不是发急拒绝,由于你可以了解到本身的空间承压能力。

四、连通率题目处理完毕后

假如你的网站索引因为连通率而非责罚缘故原由被清理了,处理完毕题目,可以在抓取频次工具中提交增长抓取频次的请求,将抓取频次增长到肯定额度(建议本身查看工具中对抓取频次的说明后再根据网站现实情况调整),然后增长本身的网站数据更新频率与质量,增强与百度的数据沟通(如 url 提交、sitemap 等等),很快就能恢复。相干工具展示如下(每个工具页面的右侧下方都有相干说明链接,可以点击去了解使用细致事项):

  1. 抓取频次中的频次调整工具:
    怎么建设一个吻合优化的网站

  2. 链接提交工具:
    怎么建设一个吻合优化的网站

  3. 链接提交工具中的自动推送、sitemap、手动提交体例:

怎么建设一个吻合优化的网站

https 站点如何做才能对百度友爱

2015 年 5 月 25 日,百度站长平台发布通知布告,公布周全摊开对 https 站点的收录,https 站点不再必要做任何额外工作即可被百度抓收。采用了本文之前建议的 https 站点可以关闭 http 版,或者将 http 页面跳转到对应的 https 页面。

百度搜索引擎目前不自动抓取 https 网页,导致大部分 https 网页无法收录。但是假如网站肯定要使用 https 加密协议的话该如何做到对百度搜索引擎友爱呢。其实很简单:

  1. 为必要被百度搜索引擎收录的 https 页面制作 http 可访问版。

  2. 通过 user-agent 判断来访者,将 Baiduspider 定向到 http 页面,通俗用户通过百度搜索引擎访问该页面时,通过 301 重定向至响应的 https 页面。如图所示,上图为百度收录的 http 版本,下图为用户点击后会主动跳入 https 版本。

怎么建设一个吻合优化的网站

  1. http 版本不是只为首页制作,其它紧张页面也必要制作 http 版本,且互相链接,切不要出现这种情况:首页 http 页面上的链接依然链向 https 页面,导致 Baiduspider 无法继承抓取——我们曾经碰到这种情况,导致整个网点我们只能收录一个首页。如下面这个做法就是错误的:http://www.esmo.cn/abc3564/ 链向 https://www.esmo.cn/adc3564/bbs/

  2. 可以将部分不必要加密的内容,如资讯等使用二级域名承载。比如付出宝站点,核心加密内容放在 https 上,可以让 Baiduspider 直接抓取的内容都放置在二级域名上。

怎么建设一个吻合优化的网站

站点切换 https 不会对流量产生负面影响

  • 问:对于 http 和 https,Baiduspider 会不会区别对待? 答:不会区别对待。说得再全整专业一些:Baiduspider 在对于 http 和 https 站点的调度息争析方面没有任何区别。至于建索引库,年初的时候百度进行过升级,目前对 https 站点也是全力支撑的。

  • 问:Baiduspider 可以抓取 https 网站吗?站点 https 以后应该做些什么? 答:在抓取方面,Baiduspider 完全支撑 https 链接的抓取。站长必要细致的一点是要保证 http 链接到 https 链接优秀的重定向(使用 301 或 302),如许百度可以做到无缝切换。另外可以使用链接提交工具提交 https 链接,尽快关照百度。

  • 问:站点切换 https 以后,新产生的 https 页面,百度会将其视为新页面重新收录?重新计算排名? 答:不是的,不涉及重新收录的题目。

  • 问:https 以后可以使用改版工具向百度提交 http 与 https 的对应关系吗? 答:http 站和 https 站会被百度视为统一个站点,不属于改版,不适用改版工具。

  • 问:https 以后,排序有可能发生什么转变?
    答:在 rank 方面,如今对两种链接无区别对待,从安全性考虑,以后可能会厚待 https 的链接。

禁止百度保留快照的代码:noarchive

许多站点出于隐私的考虑不盼望百度保留快照,网上也在讨论如何禁止百度保留快照的方法。其实百度早已对此有过说明,但藏在一篇不起眼的文章中不引人注目,导致依然特别很是多的人不清楚该如何操作。上周正好又有人问到这个题目,特地进行说明。

要防止所有搜索引擎表现您网站的快照,请将此元标记置入网页的

部分:<meta name="robots" content="noarchive">

要许可其他搜索引擎表现快照,但仅防止百度表现,请使用以下标记:<meta name="Baiduspider" content="noarchive">

注:此标记只是禁止百度表现该网页的快照,并不会影响网页建入索引,同时垃圾网页也不可能寄托此手段躲避百度的判罚。

买卖链接对站点的危害

众所周知西安人事考试网报名,搜索引擎会对站点获得链接的数量和质量进行分析,从而做出对网站的评价,最终影响站点在搜索效果中的体现。在搜索引擎看来,站点的链接质量比数量更为紧张,然而愈演愈烈的链接买卖风潮,已经开始威胁到搜索引擎的公正性。为此百度质量团队推出了绿萝算法对买卖链接举动进行袭击。

搜索引擎认为站点每发出一个链接指向另一个站点,都是一次投票举动,请您爱惜每一次投票的权力,而不是将这个权力出售,更不应该打包卖给链接中介公司。假如搜索引索发现站点有出售链接的举动,则会影响到站点在搜索引擎体系中的团体体现。对于广告类的链接,请您使用nofollow属性进行设置。除不出售链接外,您还应该关注建站程序的安全更新,及时安装补丁程序;经常对网站发出的链接进行检查,看是否有多余的、非主观意愿存在的链接,以免站点在不知情的情况下被黑帽SEO添加链接。

建议您不要企图求助于黑帽SEO和链接中介公司,他们很有可能使用极不合法的手段令站点在短时间内获得肯定结果,但是搜索引擎有专门的程序去识别各种手段和举动,一旦被发现,站点会无法得到预期的结果,甚至被搜索引擎责罚处理。最后,盼望各位站长放眼于长远的将来,不要为面前目今的蝇头小利所疑惑。将精力放在在自身内容和品牌建设上,拓展更多良性发展的红利模式。

内链建设的大忌

在《百度搜索引擎工作原理》课程中我们提到过,Baiduspider必要知道站点里哪个页面更紧张,其中一个渠道就是内链。那么内链建设有哪些大忌呢:

死循环链接:死循环链接是搜索引擎蜘蛛最忧郁的事情了,每每会把搜索引擎蜘蛛卡在一个角落中,无穷的循环而走不出来,不仅白白虚耗蜘蛛体力,也会占用网站大量爬取频率,造成有价值的网页抓取不全。比如万年历等特别很是实用的工具网站,许多时候这些工具你都可以无穷的点击,每次点击都产生一个新的url,假如你没有屏蔽蜘蛛爬取这些内容,那么蜘蛛有可能会被带入到一个无穷循环的境地,如许的做法对任何一个搜索引擎都是不友爱的。
还有一种就是动态、带“?”号的url。这是因为动态网站的一个动态文件(如.php)可以产生上万个或者无数个链接,假如部分php文件内部又再次链向本身。蜘蛛进去就很难再爬出来。

链接404后不消弭内链入口:页面404后,除了必要向百度站长平台提交外,应该尽量关闭其在网站内部的入口,一来死链对用户的危险是极大的,二来避免令蜘蛛产生错觉,认为你网站死链紧张。

只有入链没有出链:有些人认为网页上的出链太多会分散页面自己的得分,所以在紧张页面上不设计出链,现实这与百度的认知是相悖的,百度认为一个优质的网站结构应该像一张网,所有页面都会与其他页面产生链接,蜘蛛会顺着一个页面遍历所以页面。只有入链而没有出链的结构对蜘蛛来说是不友爱的。当然,整个网站仅一两个网页只有入链没有出链是无所谓的,但数量万万不要多。

无返回上级目录的链接:我们提倡尽量在每个页面上使用面包屑导航,以告诉搜索引擎页面内容与首页的关系及距离;同时对于用户来说,面包屑导航也是延伸用户平均访问时长的紧张工具。只有内容而没有返回上级目录的页面就像一本永久无法访问目录的书,听起来是不是怪怪的?

错误的锚文本:内链的作用并不仅仅是页面权值传递和内部投票,百度还会通过锚文本辅助判断网页的内容,错误的锚文本很可能会误导百度对于相干性的计算,对搜索排序产生负面影响。同时对于只能通过锚文原本判断是否要点击打开新网页的用户来说,无疑也是一种危险。

网站应该拒绝哪些外链

百度搜索引擎虽然降低了对超链的依靠,但依然没有摒弃对不同质量链接的识别,制订了一套针对优质外链、通俗外链、垃圾外链、作弊外链的识别原则和方法。在继承信赖优质外链的同时,加大对作弊外链的袭击,同时对部分作弊外链的受益站点进行袭击。为了避免被百度搜索引擎嫌疑为超链作弊,建议站长定期检查站点的外链情况,发现非常及时通过百度站长平台的拒绝外链工具进行自我珍爱。同时假如你之前有过购买链接、群发外链的举动,可以通过拒绝外链工具进行修正。

那么除了要拒绝被黑网页发出的链接、买来的链接外,还有哪些链接应该被拒绝呢。

  • 来自垃圾站群的链接:有些黑帽会通过非法手段在你的站点产生大量页面,再组织站群发送外链至这批页面上。如许的链接必须及时处理。
  • 来自不相干低质站点群的链接:百度认为雷同主题网站之间的链接更友爱,所以,假如你的网站被一批其它主题网站链接了,肯定要及时查看这批网站的质量,假如质量不高,尽量拒绝。

使用拒绝外链工具还有一些细致事项:

  • 您通过工具拒绝外链的需求将无法撤销或删除,所以必要郑重使用
  • 我们不能保证短时间内就能去掉垃圾作弊外链对网站的负面影响,清理过程可能长达数周,请站长耐心等待

网站改版该如何关照百度

为了改变站点运营结果,部分站长会选择对网站进行改版。百度站长平台站在搜索引擎的角度给站长同伙一些建议:首先站长们应该明确,网站只要发生大大的转变(如换域名、子目录改版为二级域名等),流量就会受到损失;其次,百度站长平台会帮助站长尽量将损失降到最低。请站长依次走完以下步骤以削减损失。

  • 第一步:设置301跳转
    使用301跳转进行重定向,跳转最好有规律可循,百度搜索引擎会主动进行处理
    提示:301跳转要保持一段时间,直至新网页的抓取、收录、排序达到预期。

  • 第二步:使用改版工具
    使用百度站长平台工具,可加速百度搜索引擎对301跳转的处理,尽快完成新旧内容的衔接。目前改版工具除了支撑换域名外,还可以支撑站点级改版和目录级改版,都是通过工具的“目录改版”功能实现的。
    工具地址:http://zhanzhang.baidu3564/rewrite/index

    • 当站点级改版时,必要在“目录改版 改版范围”处提交站点级首页URL
      如www.esmo.cn/example3564/,百度将会对该站点下的所有页面进行改版处理。
    • 当站点要进行目录级改版时,依然在“目录改版 改版范围”处进行提交,但提交的应该是必要改版的目录,而非站点级首页URL。
      如提交www.esmo.cn/example3564/a/,百度会对www.esmo.cn/example3564/a/,包括www.esmo.cn/example3564/a/b/进行改版处理。 详细使用方法可参考百度站长平台已有的文章《网站改版工具帮助》
  • 第三步:使用抓取非常工具
    已在改版工具中提交改版规则后,随时关注新内容的抓取情况。假如不吻合预期,可使用抓取非常工具查找部分缘故原由,排除由服务器、运营商、DNS、IP、UA等导致的抓取不及时。
    工具地址: http://zhanzhang.baidu3564/crawl/index 详细可参考百度站长平台已有文章《抓取非常工具帮助》,里面对每项因素都有细致说明息争决办法。

  • 第四步:使用抓取频次工具
    抓取频次工具提供站点在百度近一个月的天级抓取量曲线图,假如新内容抓取量不吻合预期可在工具中进行反馈,spider会根据站长的申请和现实情况对抓取频次进行调整。
    工具地址:http://zhanzhang.baidu3564/pressure/index
    详细使用方法可参考百度站长平台已有文章《抓取频次工具帮助》

  • 第五步:使用百度索引量工具
    一个站点的被抓取量多与少并不是重点,重点是索引量,只有被建为索引的页面才有可能显现在用户面前。站长可以通过百度索引量工具来对比新旧内容被建索引的数量,来确认改版后站点在百度搜索引擎的收录是否已恢复正常。
    工具地址:http://zhanzhang.baidu3564/indexs/index 该工具使用起来特别很是简单,可参考百度站长平台之前的文章《百度索引量工具帮助》

网站换空间(IP)该如何关照百度

在与站长同伙私下交流中,站长透露表现:最怕改版,最怕换空间换IP,每次都是万不得已身不由己。改版还好些,有改版工具可以使用。换了空间和IP都不知道怎么关照百度。其实,登录百度站长平台网络营销策划,使用抓取诊断工具,换空间和IP真的不是愁事。
抓取诊断工具会检查站点与百度的连接是否通顺,若站长发现IP信息照旧老旧的,可以通过“报错”关照百度搜索引擎更新IP,如下图所示:

怎么建设一个吻合优化的网站
紧张提醒:因为spider精力有限,如遇报错后网站IP仍旧没有转变,站长可进行多次尝试,直至达到预期。

UGC站点如何进行防护工作

因为大多数UGC建站体系存在漏洞,攻克技术成本较低,且群发软件价格低廉,容易被作弊者行使,近期我们发现大量UGC站点被群发的垃圾信息困扰。这些垃圾群发内容无孔不入,除论坛、博客等传统的UGC站点受到困扰外,现已蔓延到微博、SNS、B2B商情页、公司黄页、分类信息、视频站、网盘等更多领域内,甚至连新兴的分享社区也受到了影响。从曩昔的论坛帖子、博客日志,扩展到供求信息页、视频页、用户资料页,这些任何由用户填写和生成内容的地方,都会被作弊者挖掘行使,形成大量的UGC性子的垃圾页面。

搜索引擎在发现UGC性子的垃圾页面后必将做出响应应对,但对真正操作群发的作弊者很难有用的袭击,所以作弊者容易行使UGC站点极低成本且自身安全这些特点,做出更多危害网站、危害用户、危害搜索引擎的举动。若网站自身管理不严控制不力,很容易成为垃圾内容的温床;有些网站为了短期流量而对垃圾内容置之度外,这无异于饮鸩止渴。网站不应仅仅是平台的提供者,更应该是内容的管理者,积极维护网站自身质量特别很是紧张。若网站任由垃圾内容滋生,不仅会影响网站的用户体验,同时也会破坏网站口碑和自身品牌建设,造成正常用户流失,紧张时,还会使搜索引擎降低对网站的评价。

对于作弊者来说,在UGC站点上发布垃圾内容的目的就是被搜索引擎收录,假如不能让垃圾页面在网站和搜索引擎上消散,他们依然会持续赓续地产生更多垃圾内容。百度站长平台盼望和站长一路袭击垃圾页面,帮助网站良性发展,共同维护互联网生态环境。

一软件开发公司,UGC垃圾典型case

  • 与网站或论坛版块主题不符的内容
  • 诳骗搜索引擎用户的内容
    • 使用夸大诱人的题目,或在内容中穿插堆积热门关键词
    • 有些文章看题目以为在说A事,而重要内容却在讲B,且与A毫无关系
    • 视频或音频文件题目所述不符
    • 诳骗网站诈取分帐式广告收益的内容
    • 专门行使UGC网站为本身做推广、谋福利
    • 诈骗中奖、虚伪联系电话、不良信息

二,UGC管理员该怎么做

  • 删除垃圾内容,并将这些页面设置为404页面后,及时通过百度站长平台的死链工具提交死链列表
  • 进步注册用户门槛,限定机器注册
    • 群发软件通常使用主动的程序探测论坛默认的注册文件名、发帖文件名。管理员可以不定期的修改注册用户文件名、发帖文件名;注册、发帖按钮使用图片;与程序默认的不同,可以防止被主动程序搜索到。
    • 发帖机通常是机器注册,举动模式单一。管理员可添加一些必要人工操作的步骤,有助于限定机器注册。如使用验证码;限定统一邮箱注册ID的数量,同时启用邮箱验证;使用更为复杂的验证机制;经常替换注册问答。
    • 除了在注册处设置门槛外,还可以控制新用户权限。如要求完成上传头像、完美用户信息等人工操作步骤后才开放发帖功能;在肯定时间内限定新用户发帖;限定新用户发布带链接的帖子,待达到肯定级别后再摊开。
  • 严控机器发帖举动,如使用验证码、限定短时间内延续发帖等
  • 建立黑名单机制,将群发常用词、广告电话和网址等加入黑名单,对含有黑名单内容的帖子进行限定或消灭。黑名单应该赓续维护
  • 对站内非常内容进行监控,发现爆增数据后及时查找缘故原由
  • 对站点内用户的举动进行监控
    • 部分非常用户的ID结构有别于通俗用户,如使用偶然义的字母数字、或几个单个汉字的无序组合
      如:gtu4gn6dy1、蝶淑琴;使用商业词作为ID,如:轴承寰宇7、hangkongfuwu123
    • 发布内容间隔过短
    • 发布的内容绝大部分特别很是类似
  • 发布的大部分内容里含有类似的特性,如某个网址、电话、QQ号码等联系体例
  • 不许可发布带有可实行代码的内容,避免弹窗、跳转等紧张影响用户体验的情况发生。
  • 对部分UGC位置提及的链接,使用“nofollow”进行标记,如:bbs签名内的链接、BLOG回复ID自置的链接
  • 论坛中的广告、灌水版块,建议加上权限限定,或者禁止搜索引擎收录。
  • 关注建站程序的安全更新,及时安装补丁程序。保障用户账号安全,避免发生盗用正常用户账号或历史沉寂用户账号发布垃圾内容的情况发生。

网站安全之防止被黑

这里所说的被黑,指黑客通过网站漏洞篡改网页内容、为网站恶意添加很多垃圾页面,内容每每与博彩、游戏等热门关键词有关,然后利于网站在搜索引擎中的自然上风骗取更多流量。互联网上所有网站其实都存在被黑的可能,尤其是已在搜索引擎中获得较好体现的站点更要细致,万万不要让被黑令本身的心血付之东流。

一,如何判断网站被黑

先通过外界对网站进行观察,假如有如下征象,那您的网站可能被黑了

  • 通过百度站长平台的索引量工具,发现站点收录量大增;再通过搜索关键词工具发现,站点获得流量的关键词中有许多与本站点无关。
  • 通过Site语法查询站点,表现搜索引擎收录了大量非本站应有的页面。
    **注:site查询结合一些常见的色情、游戏、境外博彩类关键字,可帮助站长更快的找到非常页面,例如“site:www.esmo.cn/abcxyz3564 博彩”**
  • 从百度搜索效果中点击站点页面,跳转到了其他站点。
  • 站点内容在搜索效果中被提醒存在风险。
  • 从搜索引擎带来的流量短时间内非常暴增。

二,进一步验证网站是否被黑

通过上述方法站长嫌疑本身的网站被黑了,那么该如何对黑出来的内容进行排查呢?

  • 分析体系和服务器日志,检查本身站点的页面数量、用户访问流量等是否有非常波动,是否存在非常访问或操作日志;
  • 检查网站文件是否有不正常的修改,尤其是首页等重点页面;
  • 网站页面是否引用了未知站点的资源(图片、JS等),是否被放置了非常链接;
  • 检查网站是否有不正常增长的文件或目录;
  • 检查网站目录中是否有非管理员打包的网站源码、未知txt文件等;
  • 使用百度站长平台抓取诊断工具,诊断网页是否被加了黒链、隐蔽文本
    每个站点每月可使用300次,抓取效果只显现百度蜘蛛可见的前200KB内容

【紧张提醒】若直接访问网站时统统正常,但在百度的搜索效果显现了非常的快照内容,这可能是黑客做了特别处理,只让百度蜘蛛抓取到非常的页面,以此来增长潜伏性,让站长难以发现;同理,若直接访问网站正常,但从百度搜索效果页进行访问时,出现了非常页面,这是黑客针对百度来源(refer)做了特别处理

三,网站被黑怎么办

  • 立即制止网站服务,避免用户继承受影响,防止继承影响其他站点(建议使用503返回码)。
  • 假如统一主机提供商同期内有多个站点被黑,您可以联系主机提供商,敦促对方做出应对。
  • 清理已发现的被黑内容,将被黑页面设置为404死链,并通过百度站长平台死链提交工具进行提交。
  • 排查出可能的被黑时间,和服务器上的文件修改时间相比对,处理掉黑客上传、修悛改的文件;检查服务器中的用户管理设置,确认是否存在非常的转变;更改服务器的用户访问密码。
    **注:可以从访问日志中,确定可能的被黑时间。不过黑客可能也修改服务器的访问日志。**
  • 做好安全工作,排查网站存在的漏洞,防止再次被黑。

网站安全之域名被劫持

2014年5月14日,前瞻网官方微博发布通知布告,公布域名被盗损失过亿。在黑客遍行的今天,域名被盗被劫持几乎天天都在发生。百度搜索引擎盼望站长在关注收录、流量、变现的同时,多多关注域名安全,毕竟域名安全是生存之本。在之前与站长接触中,发现站长都有如下生理:域名控制权完全在服务商,我们处于被动的一方。那么站长就真的什么都不用做、什么都无法做了么?

一,域名被劫持的紧张后果

1,域名被解析到其它地址,用户无法正常访问,网站流量受损 2,通过泛解析生成大量子域名,共同指向其它地址(每每是恶意垃圾网站) 3,域名被解析到恶意钓鱼网站,导致用户财产损失 4,当域名被劫持后的内容干扰搜索效果时,为保障用户的使用体验和安全,百度搜索引擎会临时关闭对域名的收录和展示,待严酷审核确认后才会再度摊开

二,如何降低域名被劫持风险,削减损失

  • 为域名注册商和注册用邮箱设置复杂密码,且经常替换。使用单独的DNS服务,也必要对密码进行上述设置。同时细致不要在多个紧张注册地使用雷同的用户名和密码。
  • 将域名更新设置为锁定状况,不许可通过DNS服务商网站修改记录
    **使用此方法后,必要做域名解析都要通过服务商来完成,时效性较差**
  • 定期检查域名帐户信息、域名whois信息,天天site网站检查是否有预期外网页,或使用百度云观测进行监控——当域名被解析到恶意站点时可以第临时间收到报警(百度云观测关于域名安全的介绍)
  • 网站运营和优化人员经常细致检查网站索引和外链信息,有非常肯定要检查清楚

三,域名被劫持后该怎么做

  • 立即修改域名服务商和邮箱密码,使用复杂度高的密码且经常替换
  • 删除不属于你的DNS解析,恢复DNS设置
  • 假如使用的是第三方DNS服务,应立即修改第三方DNS服务端帐户密码,锁定帐户信息,开启帐户短信邮箱类提示
  • 收集悉数被非法添加的页面并设置404,使用百度站长平台工具提交死链
  • 假如该服务商下域名经常出现被劫持事件,可考虑替换更安全稳固的服务商。有能力的网站可自建DNS服务,自立运维自大风险

其他

关于网站建设,其实还有许多细碎的题目要细致,所以在这里单启一篇,日后再根据反馈赓续增补完美。

二级域名和子目录,哪个更有利于SEO

一,二级域名的特点

搜索引擎每每将二级域名当作一个自力的网站看待,同时会视情况将主域名的评价传递一部分给二级域名。使用二级域名会使同domain下站点变多,但是每个站点的体量变小。二级域名的SEO特点是:

  • 二级域名对用户来说也是一个完备的域名,显得更有权威性
  • 二级域名网页之间相干性更强,对于搜索引擎来说主题更集中
  • 相较子目录更易形制品牌

二,子目录的特点

将不同内容通过子目录的情况放在统一个网站下,会使网站体量变得越来越大,可以使网站积累更多的投票:

  • 相较二级域名,可以更好地继续主域名的评价数据
  • 与站点关系更密切,同时不失天真,搜索引擎对站点内容的识别早以细化到目录级别

三,二级域名与子目录的选择

选择使用二级域名照旧子目录来分配网站内容,对网站在搜索引擎中的体现会有较大的影响,为此百度站长平台建议:

  • 在某个频道的内容没有雄厚到可以当作一个自力站点存在之前,使用目录情势;等频道下积累了充足的内容,再通过改版成二级域名的情势。
    一个网页能否排到搜索引擎效果的前面,“出身”很紧张,假如出自一个站点评价较高的网站,那排到前面的可能性就较大,反之则越小。通常情况下,二级域名会从主站点继续一部分权重,继续多少视二级域名质量而定。
    在内容没有雄厚到可以作为一个自力站点之前,使用子目录更能在搜索引擎中获得较好体现。

  • 内容差异较大、关联度不高的内容,建立使用二级域名的情势。
    搜索引擎会识别网站的主题,假如网站中各子目录的内容关联度不高,可能导致搜索引擎错误地判断网站的主题。所以,关联度不高的内容放在不同的二级域名中,可以帮助搜索引擎更好的理解网站的主题。

  • 二级域名间的服务器权限应该严酷控制,a.domain3564下的内容,最好不能域名替代通过b.domain3564访问。如:a.domain3564/abc.html 不应该通过b.domain3564/abc.html访问到。
    二级域名的内容能够互相访问,可能会被搜索引擎当作重复内容进行去重处理,保留的URL不肯定能吻合站长预期。

  • 不要滥用二级域名
    没有雄厚的内容就大量启用二级域名,极容易被搜索引擎当作作弊举动责罚。

多域名同内容的常见题目

网站在生存发展中会碰到许多题目,会由于各种缘故原由产生不同的域名,而这些域名的内容却都是雷同的。百度一向在说拒绝重复内容,那么,多域名同内容是否会对SEO产生负影响呢?我们收集了浩繁站长对多域名同内容的题目后,请百度spider专家做了同一解答,现宣布出来供各站长参考。

问:多个域名指向统一个域名算是作弊么?
答:假如某公司从品牌珍爱或长远发展角度出发,注册了多个域名,且多域名301重定向指向一个常用域名,那此举动自己不属于作弊。但是假如进行301重定向的多域名自己有作弊举动,那么被指向的域名有可能受到牵连。

问:多个域名同内容是否有利于进步排名?
答:此举特别很是不利于进步排名,由于多个域名会分散本来应该属于单独域名的外链进而影响权重,不利于单独域名获得更好的排名。

问:我们先推个测试域名,走上正轨后再启用正式域名,会有什么影响吗?
答:假如两个域名的内容完全一样,对正式域名的收录可能会有影响。搜索引擎会认为这两个网站重复,在已经收录了前者的前提下,会对后者限定收录。的确曾经有某理财网站先搞一个一时域名在搜索引擎试水,效果等正牌域名上线后却迟迟得不到收录的事情发生。

问:假如公司已经有多个域名是雷同内容该怎么处理?
答:先确认一个好记易懂的域名作为“唯一域名”,进行重点宣传推介,其余的域名也万万不能放任自流,尤其是当测试域名已经有了较好的收录和排位时,可以设置301重定向,指向唯一域名。同时登录百度站长平台对新旧网站进行验证,然后在网站改版工具中进行响应的操作,可以让“唯一域名”继续原域名已获得的权重。
网站改版工具地址&帮助说明

转载自:http://zhanzhang.baidu3564/college/courseinfo?id=150

上一篇:网站SEO优化原创文章怎么写 下一篇:没有了