登陆

python爬虫反爬,是怎样丧尽天良的 经过css加密让你爬不到的?

admin 2020-02-14 230人围观 ,发现0个评论

这次咱们来说点爬虫略微进阶一点的,关于怎样破解 css 加密后的数据。

别急,咱们先站在对方的视点想一想,假定咱们现在有一个网站、这个网站有些要害的数据信息、不想给他人那么容易的爬取到,你会怎样做呢?

(文末python全套视频教程赠送、主张看完 别走开)

一个可执行的办法,便是将要害数据经过 css 加密

这样的话,当他人经过 requests 来恳求咱们的网站的时分,回来的 HTML 里边就得不到要害的数据了

举个比方,简略写一个帅b的页面

这时分咱们经过 requests 去恳求

在这儿恳求的是本地的网页,所以需求挂载一下 FileAdapter

接着会得到这样的源代码

(应该这样写:

问题来了,怎样把帅b的个人信息搞一下、让回来的 HTML 里边拿不到呢、能够经过增加 css 来打乱次序,就以「名字」为例,来界说一个 css 的类元素

这儿界说了两个特点,一个是用来将它移除屏幕,一个便是不要占了行高,横竖便是用来躲藏咱们的搅扰信息,接着 HTML 就能够这样写

再来界说一个 css 特点

意思便是说:在 EFG 选择器的这个标签后追加内容,所以咱们真实的代码便是这样

那么这时分普通用户看到的python爬虫反爬,是怎样丧尽天良的 经过css加密让你爬不到的?网页,是能够看到要害信息的

而这个时分,你来爬取得到的却是这样的

得到的成果是不是、能够让你懵逼一会了?

一些没耐性的人、看到这儿应该就不计划爬下去了、哈哈哈...

当然了、这仅仅 css 一种反爬的思路,实践运用到项目中,仍是有点杂乱的,比方群众点评网站...那么接下来便是

来看看群众点评的广州按摩店,

假定你想爬取这些数据,你开兴冲冲的看它的源码

成果发现,我去,怎样数字变成一个方块?咱们来看看它的 css

这儿界说了一个 PingFangSC-Regular 的字体,猫腻应该就出在这儿了!

咱们去掉 css 界说的字体,能够看到数字也跟着消失

这个是时分你是不是如同发现了什么?来看看这个页面的源代码文件

每个数字都是变成了,最初的奥秘代码。这个时分你是不是又如同发现了什么?

这其实便是一种 css 的加密方法!

加密自界说字体,让你爬取的时分拿不到要害的数据!

仍是得先站在对方的视点,想想这种丧心病狂的方法,到底是怎样做到的呢?这就要从前端的开发说起了,下面请开端:

在咱们的电脑里边,都有一些字体库,比方什么宋体啊,黑体啊等等,,,

所以你在上网的时分,看到的网页的字体都差不多,没有什么千差万别的状况,

可是有些公司想要自家的、网页上的文字愈加炫酷一点,便是想要不一样、便是要显得牛逼。

比方苹果的官网,就整了一些自界说的字体

而要完成这种方法,在 css3 中界说字体和字体文件途径就能够运用了


@font-face {

font-family: "自界说字体的称号";

src: "自界说字体的途径"

}

接下来

就在一开端的帅b页面中

完成一下像群众点评这样的反爬吧

能够在以下链接下载苹方字体

https://github.com/zongren/font/raw/master/PingFang-SC-Regular.ttf

咱们要对字体的数字加密,能够运用 fonttools 来提取数字


pip install fonttools

装置好了之后就能够运用,如下指令来提取了


pyftsubset /home/shuaib/Desktop/PingFang-SC-Regular.python爬虫反爬,是怎样丧尽天良的 经过css加密让你爬不到的?ttf --text="1234567890" --output-file="PingFang-Num.tty"

这儿的

/home/shuaib/Desktop/PingFang-SC-Regular.ttf

是你下载的字体文件途径

--text="1234567890"

是你要提取的内容

--output-file="PingFang-Num.tty"

界说你提取后江苏卫视春晚的字体文件

运转之后你在该途径下,就会生成一个新的字体文件了

翻开看就都是数字啦

有了数字字体文件之后,接下来便是对字体加密了,以下这个网站能够对字体加密

http://fontello.com/

不过这个网站仅支撑 svg 格局的

所以咱们能够把 ttf 转化成 svg 格局

发现这个网站不错

https://convertio.co/zh/ttf-svg/

那就转化一波呗

下载下来之后,再回到 fontello、把 svg 拖进去

然后就变成这个姿态

选中要加密的字

然后点击

Customize Codes

这时分就能够对字加密啦!接着点击右上角,下载加密后的字体文件

  • 那么现在
  • 咱们就有了所需求的文件了

赶忙在帅b的页面试试看吧、首要界说一下,

咱们自界说文件的途径和称号,比方这儿咱们的字体就叫帅b

接着咱们就能够运用刚刚加密的 code 了

翻开网页

能够看到数字正常显现

而源码

变成了方块了,字体也指向了shuaib

是不是和群众点评的如出一辙了

现在你现已知道了对方的套路了,那么现在让你去爬取这样的网站,你知道怎样爬取吗?

本文就共享python爬虫反爬,是怎样丧尽天良的 经过css加密让你爬不到的?到这儿了、让我们观看这么久也不容易,所以奉上些福利给我们

只转发并重视,私信小编“材料”即可免费获取Python的全套材料!

Python零根底进阶,爬虫 、教程、python爬虫反爬,是怎样丧尽天良的 经过css加密让你爬不到的?源码、实战项目,你还怕学不会吗?赶忙私信收取吧!

只转发并重视,私信小编“材料”即可免费获取Python的材料!

请关注微信公众号
微信二维码
不容错过
Powered By Z-BlogPHP