python爬淘宝如何爬淘宝的美人库

冬奥会 | 林黛玉 | 供暖 | 混凝土 | 服装面料 | exo | 人口 | 坐月子 | 国家队 | 牙齿美白 | 玄幻小说 | 美杜莎 | 家庭 | 金平区 | 牙齿矫正 | 伊宁市 | 滦州市 | 男士护肤 | 法国 | 大城市 | 威士忌 | 梦想改造家 | 旅游推荐 | 孙悟空 | 机箱 | 周易 | 武术 | ISIS（伊斯兰国） | 艺考 | 骊威 | 温州市 | 易经 | 单片机 | 运动损伤 | 大白菜 | 爽肤水 | 电路设计 | 米酒 | 城市 | 韩国旅游 | 杭州生活 | 新风系统 | 机动车辆保险 | 戚继光 | 唇膏 | 寺庙 | 政府 | 貂蝉 | 咖啡馆 | 葫芦 | 动画制作 | 巴中市 | 美术生 | 房贷 | 意大利 | 暑假 | 香港购物 | 五粮液 | 台风 | 酱油 | 展会 | 名言 | 第三者 | 高三 | 徽州区 | 烹饪学校 | 三菱商事 | 梵蒂冈 | 红木艺术 | 螃蟹 | 自行车选购 | 内黄县 | 成都美食 | 果酒 | 少儿英语 | 酸奶 | 呼和浩特市 | 糕点 | 昌平区 | 宝洁（P&G） | 天气 | 任天堂 | 赛欧 | 火影忍者 | 英国 | 卫生间 | 葡萄 | 双色球 | 印度 | 赋 | 宇宙 | 智商 | 李白 | 延安市 | 合生元 | 洗面奶 | 青年旅舍 | 商标 | 西藏大学 | 抽脂 | 网盘 | 电梯 | 岳阳县 | 歌词 | 旅游线路 | 案件 | 卡通 | 卡地亚（Cartier） | 长春市 | 大红袍 | 少数民族 | 韭菜 | 通辽市 | 西点 | 铜陵市 | 魏无羡 | 食品 | 精酿啤酒 | 乾隆 | 肺炎 | 鲤鱼 | 显示器 | 论文写作 | 婴儿喂养 | 紫檀 | 牛初乳 | 郭德纲 | 老挝 | 中学 | 孝感市 | 嘉兴市 | 进贤县 | 祛痘印 | 鸭绿江 | 前端开发 | 中国教育 | 卫生巾 | 科幻 | 兰蔻（lancome） | 潮牌 | 视频剪辑 | 诛仙 | 余杭区 | 趣味 | 本田（honda） | 福州市 | 酱料 | 礼仪 | 纪录片 | 专升本 | 雪碧 | 写字楼 | 宜昌市 | 辣条 | gucci | 美容化妆 | 身材 | 泾川县 | 亲情 | 菠萝 | 安庆市 | 三国人物 | 朋友关系 | 恋爱心理 | 家装 | 新泰市 | logo设计 | 中国银行 | 大三学生 | 鱼丸 | 方便面 | 机车 | 红木家具 | 咖啡机 | 骨折 | 雅马哈 | 大城县 | 化妆技巧 | 海蛇 | 王建国 | 吸尘器 | 大学生创业 | 埇桥区 | 星座（占星） | 德国 | 陶瓷 | 城市生活 | 姓氏 | 孩子 | 肖战 | 电压 | 糖尿病 | 文景之治 | 江门市 | 铜仁市 | 果冻 | 海西蒙古族藏族自治州 | 狗粮 | 庐山 | 黑暗料理 |

你的位置：网站首页 >> 频道首页 >>Python >>python爬淘宝如何爬淘宝的美人库

python爬淘宝如何爬淘宝的美人库

来源：蜘蛛抓取(WebSpider) 时间：2018-05-28 06:38 标签： python爬淘宝

废话不多说首先上图：

这是抓取了一个多小时的结果，代码没有做过优化也没用多线程、分布式，就用最简单的结构爬取速度大概在3500条/小时。第一张图片展示的是數据库中抓取的信息（姓名、城市、身高、体重、个人主页url、图片url）第二张展示的是保存下来的信息（*.txt + *.jpg）。

下面讲一下爬取过程按步驟来

淘女郎-美人库.png

用chrome的页面检查工具(F12)查看页面加载过程

只需在解析器里调用数据存储函数store()即可。

如果想获取所有的a标签

最简单的過滤器是字符串

如果没有合适的过滤器还可以自定义方法

如果一个指定名字的参数不是搜索内置的参数名,搜索时会把该参数当作指定名芓tag的属性来搜索,如果包含一个名字为 id 的参数,Beautiful Soup会搜索每个tag的”id”属性.

搜索指定名字的属性时可以使用的参数值包括 , , , .

下面的例子在文档树中查找所有包含 id 属性的tag,无论 id 的值是什么:

class_ 参数同样接受不同类型的过滤器 ,字符串,正则表达式,方法或 True

text参数可以搜索文档中的字符串内容。与 name 参数的鈳选值一样, text 参数接受 , , ,

这两行代码也是等价的:

通过tag标签逐层查找:

python爬淘宝如何爬淘宝的美人库

我要回帖

更多关于 python爬淘宝的文章

随机推荐

python爬淘宝 如何爬淘宝的美人库

我要回帖

更多关于 python爬淘宝 的文章

随机推荐

python爬淘宝如何爬淘宝的美人库

更多关于 python爬淘宝的文章