Lucifaer's Blog.

Blackhat SEO

Word count: 3,779 / Reading time: 13 min
2017/07/20 Share

之前分析黑产SEO的笔记

0x00 由两个问题引出来话题

1. “菠菜”问题

在使用360搜索时,我们发现了非常严重的现象:


在搜索“菠菜”(“博彩谐音”),杏彩等敏感词汇时,360搜索所提供的为您推荐中存在非预期结果,访问这些链接所搜索到的网站都是博彩网站:

同时,换个方式,我们在360搜索中搜索“赌博谐音”,可以发现给出的链接都是赌博网站:

2. 相关搜索问题

在搜索赌博时,我们在网页最下方的相关搜索处发现了非预期结果:

所有的“赌博交流群”的搜索结果皆为博彩网站。

同样的情况也出现在搜索“菠菜”关键字时:

进入该链接后,同样存在:

还有在搜索“彩”关键字时:

点击进入,发现全为黄色网站:

0x01 同类搜索引擎比较

1. 百度

“菠菜”关键字:

“赌博”关键字:

并没有发现相关的博彩网站。

2. Google

同样并没有发现相关的博彩网站。

0x02 为什么会出现这样的现象——Blackhat SEO

1. 什么是Blackhat SEO

SEO全称为搜索引擎优化,是指通过站内优化、站外优化等方式,提升搜索引擎收录排名。我们都知道,如果一个新站想要取得好的排名,往往需要很长的时间和资源。为了简化这个过程,出现了Blackhat SEO。

2. Blackhat SEO的几个基础概念

  • 三级域名(即顶级域名、一级域名、二级域名)
  • 泛站群

    • 泛二级域名站群

      以上这些,都是www.bet3657834.com这个博彩网站的泛二级域名站群。

      建立这样的泛二级域名站群,可以通过下面的方式实现:

      • 前提:在做域名解析的时候,选择了*
      • 操作:进入服务器,可以借助泛二级域名建站工具,批量创建二级域名站点,从而实现站群的效果
    • 泛端口站群

      基本同上,只是从二级域名变成了端口。

      • 建立的方法:先要获得操作目标站点的服务器权限,进入服务器之后,可以使用泛端口站群建设工具,批量创建泛端口站点。主要是在iis里面批量创建站点,绑定站点对应的端口。对于泛端口站点,一定要注意一些重要端口别占用了,否则可以导致服务器出错。一般泛站,用的比较多的是Dedecms程序。
    • 站中站

      就是在权重高的网站中创建一个自己的网站,其实就是添加很多外链,蜘蛛会认为这些网站也是属于高权重网站的内容,因此权重也会比较高。但是由于这种做法太泛滥,导致百度修改了爬虫算法。

    • 链轮

      中间为想要推广的网站,外围是自己控制的外部网站,首先可以搞多个网站,一层层外链下去,形成链轮。当想要推广某个网站时,可以在所有外部网站上添加中间网站的外链。谷歌貌已经对此不友好,百度还可以尝试。

    • 蜘蛛池

      蜘蛛池是一种通过利用大型平台权重来获得搜索引擎收录以及排名的一种程序。原理可以理解为事先创建了一些站群,获取(豢养)了大量搜索引擎蜘蛛。当想要推广一个新的站点时,只需要将该站点以外链的形式添加到站群中,就能吸引蜘蛛爬取收录。

    • 寄生虫

      寄生虫是黑帽SEO常用的一种方法,通过侵入别人网站,植入寄生虫程序,自动生成各种非法页面。之所以叫做寄生虫是因为能够自己触发生成,而不是一次生成,例如在访问网页的时候触发,自动生成页面且形成链轮等。

0x03 Blackhat SEO常用的手法

下面列出几种常见的,如果想要了解更加详细的信息,请看这里了解详情。(搜索引擎判断关键字堆砌的技术已经非常的成熟,下面就不赘述了)

3.1 Doorway Pages or Gateway Pages

桥页为一种比较常见的黑产SEO方式,通常该页面充斥着关键字,完全以关键词排名与流量为目标,不考虑用户体验。通常桥页都会配合页面跳转来实现。

页面跳转的分类

  1. 服务端跳转
  2. 客户端跳转

    客户端跳转分为:http层跳转,应用层跳转

    应用层跳转又分为:html head跳转,js跳转

    • http层跳转

      http跳转是指server根据工作情况通过http返回状态码,利用http的重定向协议指示客户端浏览器跳转到相应页面的过程,一般返回码是302

    • html head跳转(HTML refresh)

      在html代码的head中添加特殊标签如:

      1
      <meta http-equiv="refresh" content="0"; url="http://target_url/" />
    表示:0秒之后跳转到target_url,这个跳转需要浏览器具体解析html后才能进行。

* js跳转

    在html代码中添加js代码,通过js代码实现跳转。这部分的案例就很多了,举个有代表性的例子:

    ![](http://image-lucifaer.test.upcdn.net/2018/11/29/15002818605123.jpg)

    ![](http://image-lucifaer.test.upcdn.net/2018/11/29/15002818294901.jpg)

    完成了博彩网站的二级跳转。
  1. 各种跳转包含关系

    • 服务端跳转
    • 客户端跳转
      • http跳转
      • 应用层跳转
        • html head跳转
        • html js跳转
  2. 各种跳转介绍

    • 服务端跳转
      • 介绍:跳转发生在服务器上,用户不会有任何感觉
      • 优点:跳转行为在server进行,一次tcp连接完成相关操作,对用户是透明的,不会造成疑惑
      • 缺点:对用户隐藏了信息,跳转行为都发生在server端,对server有压力
    • http跳转
      • 介绍:跳转发生在服务端发生数据给客户端过程中,用户能感觉到,状态码往往为302.
      • 优点:响应速度快。
      • 缺点:仅能做跳转,没有其他功能,基于js和html的跳转可以选择延时跳转,但302无法选择延时跳转等。
    • html head跳转
      • 介绍:跳转发生在服务端已经将数据传输到客户端以后,用户能够感觉到。
      • 优点:跳转方式灵活,可以指定延时跳转以及记录用户信息等。
      • 缺点:可能多次建立tcp连接,浪费客户端时间。
    • js跳转
      • 介绍:跳转发生在服务端已经将数据传输到客户端以后,用户能够感觉到。
      • 优点:同上
      • 缺点:同上

想要获取详细信息,请看这里

3.2 刷站

3.2.1 刷排名

刷排名的原理基于用户点击,搜索引擎认为质量高的网站必然是用户最喜欢点击的网站,搜索一个关键字,一个网站点击的次数越多,说明这个网站是更受用户欢迎的。

刷搜索引擎排名的核心技术就是模仿大量真实IP搜索某个关键词并直接点击目标网站,一般是通过adsl换ip或者是代理池的方式来实现的。

应对措施:

这里说一说百度如何判断刷排名的:

  1. 搜索和地域不相关的词。
  2. IP过多集中在同一区域或者同一IP段。如果是用adsl拨号换IP的话,尽管IP能切换成不同的IP,但始终都是在同一IP段内,并且IP所在地址是不变的。
  3. 不点击排名在前面的网站,而直接点击某一特定排名的网站。由于是刷排名,软件一般会通过定位或者是查找的方式,直接跳转到某一页中,点击某个特定的网站。这就和普通用户的浏览习惯大相径庭了。

3.2.2 刷下拉框(相关搜索)

刷相关搜索的方法,就是发明一些与热门关键字相关的关键字,预先自己建立好响应的页面,通过搜索这个心的关键词能排到第一。然后通过软件在搜索引擎中不断的搜索这个关键字,于是这个关键字就出现在相关搜索的位置,吸引用户点击搜索。

3.2.3 刷网站流量

通常说网站流量是指网站的访问量,是用来描述一个网站的用户数量以及用户所浏览的页面数量等指标。

刷流量具有一些特征:

  1. 流量大起大落
  2. 重复IP严重
  3. 页面浏览时间太短
  4. 流量不均匀
  5. 外链和流量严重不平衡

搜索引擎可以针对这些特征来进行相关改进。

3.3 PR劫持

PR劫持主要利用的301和302定向的功能。从域名A做301或302转向到域名B,而域名A的PR值较高,域名B在PR更新后,也会显示域名A的PR值。最简单的就是先做301或302跳转到域名B,等PR更新过后,立刻取消转向,同时也获得了和A站相同的PR值。

检查PR劫持:

  • PR值检测网站
  • 看Google的网页快照,Google快照和你看到的网页不是同一个网站,(一般网站标题和logo都会显示出来),就非常可疑了,网页快照里面的那个网站就是PR劫持的目标网站。
  • 查看反向链接,再根据反向链接来判断真实的网站是哪个。登陆google,在搜索框中输入:link:it.xxxxx.com,搜索结果中的网站就是向该网站提供反向链接的,任意打开一个,在里面查找it.xxxxx.com的链接,没有发现。再随机找几个,依然没有发现,这就说明该站的PR是劫持的

链接工厂,是指由大量网页交叉链接而构成的一个网络系统,通过加入外链来操纵链接配置。加入的外链的网站内容与互联网上的其他网站相异。这些网页可能来自同一个域或多个不同的域,甚至可能来自不同的服务器。一个站点加入这样一个“链接工厂”后,一方面它可得到来自该系统中所有网页的链接,同时作为交换它需要“奉献”自己的链接,借此方法来提升链接得分,从而达到干预链接得分。

其目的是通过搜索引擎获得大量流量,或者是将链接指向同一个网站,以提高搜索排名。

对于搜索引擎来说,规模化的链接工厂是极难发现的,通过与配合其他手法组成的“团体”就是现在我们看到的组织化的,系统化的博彩站点。

0x04 具体案例分析

首先,我们利用360搜索搜索“赌博谐音”灰词

前五个链接全都是博彩网站。

1. 案例——前四都是一家

三个网站,除了劫持的样式不同外,基本的执行过程都是一样的。

首先跳转到http://www.wk2m.net/RLQ4kC325199813.html,之后加载js:

我们简化一下js代码:

1
document.writeln("<a href=http://www.w8858.top/?rtl=4779  target=_0><center><img src=/ads.jpg broder=0></center></a>");

也就是只要我们点击该图片,就会跳转到博彩网站的注册会员处:

为何这四个网站会在搜索排行第一位

主要使用了以下黑产SEO的方法:

  • 网页劫持

    劫持复制了微软安全中心的页面样式。

  • 垃圾链接

    其中包含了大量与主题内容不相关的链接,用以提高网站的权重。

  • 关键字堆砌

在网页中大量重复关键词,提高关键词的密度,达到提高关键词排名的效果。
  • 隐藏链接

    同上图,我们还可以看到很多关键字隐藏在链接中,以提升关键字排名效果。

  • 桥页

    其中的桥页就不细说了,给一张图:

  • 黑链

    通过js将链接及图片嵌入这个桥页中。

同时,除开这些手法之外,还是使用了泛二级域名站群和链轮的方式,以此增加了自己的pv值。

首先看一下收录情况:

可以看到360对其的收录量到达了7480,百度对其的反链达到了12w多。

相对一个这样的小的指数,这样的收录量和反链数已经很多了,相对来说所占的权重也是非常高的。

之后,我们发现这个站点还使用了泛二级域名站以及链轮的方式,以增加自己的收录:

我们再看一下这个站的出站链接:

所有的链接的特征与该网页特征相符:

2. 案例——较弱的第五

最简单的跳转模式,有趣的是写在了404,这样就就避免了搜索引擎的过滤:

看一下这个脚本:

同样是用了百度统计的接口用来统计数据,然后就是跳转到目标页面:

做适配与插入<iframe>标签。

同时利用404的状态码,过掉了网盾。

多看了一下,www.dxolkf.net也是个博彩网站,所利用的跳转脚本与上面的脚本差不多,只是改了一下url而已。

为什么一个如此多404状态的页面会有这么高的收录

看到收录的情况非常的一般,看了一下这些链接:

发现了相同的地方,www.dxolkf.net这个链接所提供的应该是垃圾链接与关键词的的堆砌,用以提高排名,并通过js脚本来实现目标页的跳转。

同时使用了链轮来加大www.dxolkf.net的PV值。但是相比前4个来说,做的相对简单,所以收录量并不好。

0x05 总结

通过上面的案例,我们可以看到黑产SEO的利用手段,关键还是在于制造蜘蛛池,通过桥页跳转到目标站。在网站的搭建过程中,普遍的使用泛二级域名站与链轮,使其排名得以提高。

搜索方面的问题

  • 搜索的爬虫陷入链接工厂中,形成死循环,导致链接工厂中的PV值提升,使其占据主页
  • 对于链轮和泛二级域名站没有特别好的判断,造成目标站的PV值上升,使其占据主页
  • 对于关键字堆砌和垃圾链接的解决方案有不完善的地方。
CATALOG
  1. 1. 0x00 由两个问题引出来话题
    1. 1.1. 1. “菠菜”问题
    2. 1.2. 2. 相关搜索问题
  2. 2. 0x01 同类搜索引擎比较
    1. 2.1. 1. 百度
    2. 2.2. 2. Google
  3. 3. 0x02 为什么会出现这样的现象——Blackhat SEO
    1. 3.1. 1. 什么是Blackhat SEO
    2. 3.2. 2. Blackhat SEO的几个基础概念
  4. 4. 0x03 Blackhat SEO常用的手法
    1. 4.1. 3.1 Doorway Pages or Gateway Pages
      1. 4.1.1. 页面跳转的分类
    2. 4.2. 3.2 刷站
      1. 4.2.1. 3.2.1 刷排名
      2. 4.2.2. 3.2.2 刷下拉框(相关搜索)
      3. 4.2.3. 3.2.3 刷网站流量
    3. 4.3. 3.3 PR劫持
    4. 4.4. 3.4 Link Farm
  5. 5. 0x04 具体案例分析
    1. 5.1. 1. 案例——前四都是一家
      1. 5.1.1. 为何这四个网站会在搜索排行第一位
    2. 5.2. 2. 案例——较弱的第五
      1. 5.2.1. 为什么一个如此多404状态的页面会有这么高的收录
  6. 6. 0x05 总结
    1. 6.1. 搜索方面的问题