
课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
如果大家对互联网编程技术比较熟悉的话,应该听过爬虫技术吧,今天我们就通过案例分析来简单了解一下,反爬虫技术都有哪些方法。
1、CSS偏移反爬虫
在搭建网页的时候,需要用CSS来控制各类字符的位置,也正是如此,可以利用CSS来将浏览器中显示的文字,在HTML中以乱序的方式存储,从而来限制爬虫。CSS偏移反爬虫,就是一种利用CSS样式将乱序的文字排版成人类正常阅读顺序的反爬虫手段。
2、图片伪装反爬虫
图片伪装反爬虫,它的本质就是用图片替换了原来的内容,从而让爬虫程序无法正常获取,如图9所示。这种反爬虫的原理十分简单,就是将本应是普通文本内容的部分在前端页面中用图片来进行替换,遇到这种案例可以直接用ocr识别图片中的文字就可以绕过。而且因为是用图片替换文本显示,所以图片本身会相对比较清晰,没有很多噪声干扰,ocr识别的结果会很准确。
3、自定义字体反爬虫
在CSS3时代,开发者可以使用@font-face为网页指定字体。开发者可将心仪的字体文件放在Web服务器上,并在CSS样式中使用它。用户使用浏览器访问Web应用时,对应的字体会被浏览器下载到用户的计算机上,但是我们在使用爬虫程序时,由于没有相应的字体映射关系,直接爬取就会无法得到有效数据。
4、页面动态渲染反爬虫
网页按渲染方式的不同,大体可以分为客户端和服务端渲染。
服务端渲染,页面的结果是由服务器渲染后返回的,有效信息包含在请求的HTML页面里面,通过查看网页源代码可以直接查看到数据等信息;
客户端渲染,页面的主要内容由JavaScript渲染而成,真实的数据是通过Ajax接口等形式获取的,通过查看网页源代码,无有效数据信息。
客户端渲染和服务器端渲染的重要的区别就是究竟是谁来完成html文件的完整拼接,如果是在服务器端完成的,然后返回给客户端,就是服务器端渲染,而如果是前端做了更多的工作完成了html的拼接,则就是客户端渲染。
【免责声明】:本内容转载于网络,转载目的在于传递信息。文章内容为作者个人意见,本平台对文中陈述、观点保持中立,不对所包含内容的准确性、可靠性与完整性提供形式地保证。请读者仅作参考。更多内容请加抖音太原达内IT培训学习了解。