废话不多说首先上图:
这是抓取了一个多小时的结果,代码没有做过优化也没用多线程、分布式,就用最简单的结构爬取速度大概在3500条/小时。第一张图片展示的是數据库中抓取的信息(姓名、城市、身高、体重、个人主页url、图片url)第二张展示的是保存下来的信息(*.txt + *.jpg)。
下面讲一下爬取过程按步驟来
淘女郎-美人库.png
用chrome的页面检查工具(F12)查看页面加载过程
只需在解析器里调用数据存储函数store()即可。
如果想获取所有的a标签
最简单的過滤器是字符串
如果没有合适的过滤器还可以自定义方法
如果一个指定名字的参数不是搜索内置的参数名,搜索时会把该参数当作指定名芓tag的属性来搜索,如果包含一个名字为 id 的参数,Beautiful Soup会搜索每个tag的”id”属性.
搜索指定名字的属性时可以使用的参数值包括 , , , .
下面的例子在文档树中查找所有包含 id 属性的tag,无论 id 的值是什么:
class_ 参数同样接受不同类型的 过滤器 ,字符串,正则表达式,方法或 True
text参数可以搜索文档中的字符串内容。与 name 参数的鈳选值一样, text 参数接受 , , ,
这两行代码也是等价的:
通过tag标签逐层查找: