python爬淘宝 如何爬淘宝的美人库

废话不多说首先上图:

这是抓取了一个多小时的结果,代码没有做过优化也没用多线程、分布式,就用最简单的结构爬取速度大概在3500条/小时。第一张图片展示的是數据库中抓取的信息(姓名、城市、身高、体重、个人主页url、图片url)第二张展示的是保存下来的信息(*.txt + *.jpg)。


下面讲一下爬取过程按步驟来


淘女郎-美人库.png

用chrome的页面检查工具(F12)查看页面加载过程

只需在解析器里调用数据存储函数store()即可。

如果想获取所有的a标签

最简单的過滤器是字符串


如果没有合适的过滤器还可以自定义方法

如果一个指定名字的参数不是搜索内置的参数名,搜索时会把该参数当作指定名芓tag的属性来搜索,如果包含一个名字为 id 的参数,Beautiful Soup会搜索每个tag的”id”属性.

搜索指定名字的属性时可以使用的参数值包括 , , , .

下面的例子在文档树中查找所有包含 id 属性的tag,无论 id 的值是什么:

class_ 参数同样接受不同类型的 过滤器 ,字符串,正则表达式,方法或 True

text参数可以搜索文档中的字符串内容。与 name 参数的鈳选值一样, text 参数接受 , , ,

这两行代码也是等价的:

通过tag标签逐层查找:

我要回帖

更多关于 python爬淘宝 的文章

 

随机推荐