咳咳~不要怀疑这是一个正经嘚可视化项目,而且附带一点科普?
数据来自爬虫获取淘宝怎么复制商品标题约50个文胸商品的20W条评论数据~
对于很多只知道A/B/C的绅士们,我们在看数据之前可能先得了解点知识~
首先我们得先了解两个概念——上胸围 & 下胸围具体看示意图:
通过上胸围与下胸围的差值,峩们就可以确定罩杯的大小了具体的对应关系可参考下图:
有了下胸围 & 罩杯就能确定文胸对应的尺码了~
当然这又有分为英式尺码和国際尺码,具体参考下图:
好了接下俩就可以开始我们的可视化了~
原始数据是txt格式,为了方便处理这边转为Dataframe~
尺码部分通过正则表达式提取出对应的下胸围和罩杯,具体代码如下:
我们通过jieba
分词来看看商品分类中最常出现的是哪些关键词~
- 钢圈似乎是个比较重要的卖点;
我们通过不同的胸围来看看罩杯的比例:
最后我们来看看评论中经常说到的是什么词语吧~
文章内只能上传没有交互效果的图片更好嘚阅读体验欢迎访问的我KLab ——