python学习之简单爬取豆瓣美女网站上的图片,并保存下来


今天,学习的是综合python爬虫的几个经典模块的结合,如urllib,urllib2,requests,beautifulsoup(第四版),这几个模块单独的使用方法,已经在前面写过了,这里不再赘述,感兴趣的朋友可以前往我的主页查看一下。

在爬虫里使用beautifulsoup的好处是可以不用使用繁琐的正则表达式进行匹配,直接可以通过标签获取内容,也可以打开文件获取文件中的内容。

代码如下,相关的解释都写在代码后面了:

python学习之简单爬取豆瓣美女网站上的图片,并保存下来

其中,user-agent表示的是的浏览器的型号和版本,不同的浏览器有着不同的值,其作用可以使我们的爬虫过程虚拟成以浏览器的方式打开网页并进行阅读,其获取方式为(我用的是谷歌浏览器):

python学习之简单爬取豆瓣美女网站上的图片,并保存下来


本次运行下载的是1~3页的所有图片,结果如下:(爬下来的图片就不展示了,容易被和谐)

python学习之简单爬取豆瓣美女网站上的图片,并保存下来