博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python告诉你iPhone X有多热卖(附代码)
阅读量:6693 次
发布时间:2019-06-25

本文共 1196 字,大约阅读时间需要 3 分钟。

我们用Python来爬取淘宝店铺的数据,分析一下iPhone X到底有多热卖。先来看下淘宝上的销量数据长什么样。

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

淘宝上的销量数据有两种方式估算,一种方式是用累计付款人数近似销量,像下面这种显示在这个数字里的每个人都至少购买了一部手机,所以总销量一定大于等于累计付款人数。

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

淘宝上并不是每一家店铺都显示累计付款人数,对于下面这种只显示评论数的情况就只能用评论数来估算销量了,具体怎么估算后面会提到。

知道怎么获得销量数据,接下类我们就开始爬数据了。我们要爬的数据藏在下面高亮的URL里。

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

我们用Python的Scrapy框架来实现一个爬虫,爬取不同搜索页的URL,爬虫代码如下:

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=
640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

我们爬得温柔点,这里设了爬完一次休息2秒再爬。爬完的数据存入了mongodb,接下来我们将数据从mongodb中读出来,去除不相关的产品和重复的产品,估算一下缺失累计付款人数商品的销量数据,然后统计总的销量和销售额。

这里重点讲述一下怎么用评论数来估算商品销量。淘宝上的商品的评论只有在购买成功后才能添加,一次购买行为最多对应一条评论(首评,追评都会归结到一条)。按常理分析,商品累计付款人数和评论数应该呈正相关的关系。

我们提取mongodb里累计付款人数大于0并且评论数大于200的商品。销量太少的商品的评论数量可能会存在一定随机性,因此我们限定用于分析的商品的评论数必须大于200。用散点图画出累计付款人数和评论数的关系,如下:

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

上图横轴是评论数,纵轴是累计付款人数,累计付款人数和评论数还是呈现很明显的正相关关系的。我们用线性来拟合这个关系,对于那些只有评论数的商品,我们用拟合出来的公式来推算该商品的累计付款人数,由此来估算销量。

数据分析部分的代码如下:

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

上面这段代码有如下的输出:

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

可以看到,至今为止,iPhone X在淘宝上共卖出了19万部,销售额达到了16亿多。

这个销售量到底什么水平呢?我们可以统计一下差不多同期上市的几款手机的销量,做个比较。用同样的方法,我们从淘宝上爬取了iPhone 8,华为Mate 10,小米Mix 2的销量数据,将它们和iPhone X放在一起做比较,有如下的数据:

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

可以看到iPhone X无论在销量还是销售额上都遥遥领先,远远超过其他手机。

当然淘宝只是iPhone X的一个销售平台,同样在销售iPhone X的还有京东,苏宁,苹果线上和线下的实体商店等。由于很多大平台并不公开销量数据,要统计iPhone X总的销售量还有很大的难度。但根据之前新闻报道iPhone X开卖2小时招行销售额破20亿、双十一京东购机预约数量破200万、苹果商店门前排起长队、黄牛将一部手机价格炒到2万等这些来判断,这次的iPhone X一定是大受好评的。

原文发布时间为:2017-12-15

本文作者:强哥

本文来自云栖社区合作伙伴“”,了解相关信息可以关注“”微信公众号

转载地址:http://xjjoo.baihongyu.com/

你可能感兴趣的文章
BZOJ2223/3524:[POI2014] Couriers(主席树)
查看>>
MyEclipse — Maven+Spring+Struts+Hibernate 整合 [学习笔记-5]
查看>>
Nodejs 连接各种数据库集合例子
查看>>
easyui的datagrid用js插入数据等编辑功能的实现
查看>>
Windows App开发之集合控件与数据绑定
查看>>
AMD、CMD/AMD与CMD的区别
查看>>
Python~第一天
查看>>
Linux管理用户账号
查看>>
redis中使用lua脚本
查看>>
颜色数组
查看>>
ELASTICSEARCH清理过期数据
查看>>
oo第三次博客作业
查看>>
《结对-结对编项目作业名称-需求分析》
查看>>
iView3.x Anchor(锚点)组件 导航锚点
查看>>
Network --- Tcp Protocol
查看>>
sqlite效率探测
查看>>
React生命周期
查看>>
数据库 -- mysql表操作
查看>>
shutil 高级文件操作
查看>>
Itellij Idea全局搜索
查看>>