课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
python编程是目前大多数软件开发程序员都在学习的一个编程开发语言,而本文我们就通过案例分析来了解一下,零基础学python编程需要掌握哪些知识。
1、Python的队列
在爬虫程序中,用到了广度优先搜索(BFS)算法.这个算法用到的数据结构就是队列.
Python的List功能已经足够完成队列的功能,可以用append()来向队尾添加元素,可以用类似数组的方式来获取队元素,可以用pop(0)来弹出队元素.但是List用来完成队列功能其实是低效率的,因为List在队使用pop(0)和insert()都是效率比较低的,Python官方建议使用collection.deque来高效的完成队列任务.
2、Python的集合
在爬虫程序中,为了不重复爬那些已经爬过的网站,我们需要把爬过的页面的url放进集合中,在每一次要爬某一个url之前,先看看集合里面是否已经存在.如果已经存在,我们就跳过这个url;如果不存在,我们先把url放入集合中,然后再去爬这个页面.
Python提供了set这种数据结构.set是一种无序的,不包含重复元素的结构.一般用来测试是否已经包含了某元素,或者用来对众多元素们去重.与数学中的集合论同样,他支持的运算有交,并,差,对称差.
3、Python的正则表达式
在爬虫程序中,爬回来的数据是一个字符串,字符串的内容是页面的html代码.我们要从字符串中,提取出页面提到过的所有url.这就要求爬虫程序要有简单的字符串处理能力,而正则表达式可以很轻松的完成这一任务.
虽然正则表达式功能异常强大,很多实际上用的规则也非常巧妙,真正熟练正则表达式需要比较长的实践锻炼.不过我们只需要掌握如何使用正则表达式在一个字符串中,把所有的url都找出来,就可以了.如果实在想要跳过这一部分,可以在网上找到很多现成的匹配url的表达式,拿来用即可.
【免责声明】本文系本网编辑部分转载,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与管理员联系,我们会予以更改或删除相关文章,以保证您的权益!更多内容请加danei0707学习了解。欢迎关注“达内在线”参与分销,赚更多好礼。