扫二维码与项目经理沟通
我们在微信上24小时期待你的声音
解答本文疑问/技术咨询/运营咨询/技术建议/互联网交流
千万级数据统计而已。
成都创新互联公司专业为企业提供槐荫网站建设、槐荫做网站、槐荫网站设计、槐荫网站制作等企业网站建设、网页设计与制作、槐荫企业网站模板建站服务,十年槐荫做网站经验,不只是建网站,更提供有价值的思路和整体网络服务。
每天写表写两份。一张现有的总表,一张每天的临时表,每天定时清空。
统计的数据,可以写成一张统计表。在页面点击查询的时候,查的就是这张统计表。
mysql数据库有undo空间
5种mysql做可靠性分析的方案:
1.MySQL Clustering(ndb-cluster stogare)
简介:
MySQL公司以存储引擎方式提供的高可靠性方案,是事务安全的,实时复制数据,可用于需要高可靠性及负载均衡的场合。该方案至少需要三个节点服务器才能达到较好的效果。
成本:
节点服务器对RAM的需求很大,与数据库大小呈线性比例;
最好使用千兆以太网络;
还需要使用Dolphin公司提供的昂贵的SCI卡。
优点:
可用于负载均衡场合;
可用于高可靠性场合;
高伸缩性;
真正的数据库冗余;
容易维护。
缺点:
随着数据库的变大,对RAM的需求变得更大,因此成本很高;
速度:
几乎 比典型的单独服务器(无千兆以太网,无SCI卡,存储引擎相关的限制少)慢10倍。
应用场合:
冗余,高可靠性,负载均衡
2. MySQL / GFS-GNBD/ HA (Active/Passive)
简介:
如果多个MySQL服务器使用共享硬盘作为数据存储,此方案如何?
GFS/GNBD可以提供所需的共享硬盘。
GFS是事务安全的文件系统。同一时刻你可以让一个MySQL使用共享数据。
成本:
最多n台高性能服务器的成本,其中一个激活的,其他作为备份服务器。
优点:
高可靠性
某种程度的冗余
按照高可靠性进行伸缩
缺点:
没有负载均衡
没有保证的冗余
无法对写操作进行伸缩
速度:
单独服务器的2倍。对读操作支持得较好。
应用场合:
需要高可靠性的、读操作密集型的应用
3. MySQL / DRBD / HA (Active/Passive)
简介:
如果多个MySQL服务器使用共享硬盘作为数据存储,此方案如何?
DRBD可以提供这样的共享硬盘。DRBD可以被设置成事务安全的。
同一时刻你可以让一个MySQL使用共享数据。
成本:
最多n台高性能服务器的成本,其中一个激活的,而其他则作为备份服务器。
优点:
高可靠性;
一定程度的冗余;
以高可靠性名义来看是可伸缩的。
缺点:
没有负载均衡
没有保证的冗余
在写负载方面没有伸缩性
速度:
在读写方面相当于单独服务器
应用场合
需要高可靠性、读操作密集型的应用
4. MySQL Write Master / Multiple MySQL Read Slaves (Active/Active)
简介:
考虑不同的读、写DB数据库连接的情况。可以使用一台主服务器用于写操作,而采用n台从服务器用于读操作。
成本:
最多1台高性能写服务器,n台读服务器的成本
优点:
读操作的高可靠性;
读操作的负载均衡;
在读操作负载均衡方面是可伸缩的。
缺点:
无写操作的高可靠性;
无写操作的负载均衡;
在写操作方面无伸缩性;
速度:
同单独服务器;在读操作方面支持得较好
应用场合
读操作密集型的、需要高可靠性和负载均衡的应用。
5. Standalone MySQL Servers(Functionally separated) (Active)
多台功能分离的单独服务器,没有高可靠性、负载均衡能力,明显缺点太多,不予考虑。
相信很多数据分析师在写数据分析报告的时候也会遇到一些困惑,因为我最近也在写一个报告,在这里就梳理一下如何写数据分析报告
数据分析报告是数据分析师常见的工具,写好一份数据分析报告,不但能够清楚描述问题,洞察数据并且提出一些有思考的举措,也很能反映出一个数据分析师的思维和用数据讲故事的能力,网上虽然也有很多关于写好数据分析报告的文章,但是大部分都是偏重于理论,具体实践的很少,我就在这里做一个汇总,希望能帮助一些朋友,以期抛砖引玉
--------分割线--------正式开始--------
一份好的数据分析报告离不开两部分:数据部分和分析部分。巧妇难为无米之炊,数据之于数据分析师就好像食材之于巧妇,数据的重要性可见一斑,分析部分是数据分析师将数据做成报告的最重要一步,是最体现一个数据分析师功底的部分,也是拉开差距的部分,下面就针对两部分分别进行阐述
一. 数据部分
数据部分最重要的就是数据质量,数据质量的好坏直接决定一份数据分析报告的好坏,如果报告中某一个数据被质疑,会直接影响这份数据分析报告的可信度,本章说一说跟数据有关的一些内容
1.数据的质量
1.1数据类型
数据类型比较好理解,就是数据以什么样的类型存储的,不同的数据类型有不同的使用方法,因此在处理数据之前,必须要先了解数据类型,常见的数据类型有(这里只说一些常见的数据类型):
整数型
int :用于存储整数,存储从-2的31次方到2的31次方之间的所有正负整数,每个INT类型的数据按4 个字节存储
bigint :用于存储大整数,存储从-2的63次方到2的63次方之间的所有正负整数,每个BIGINT 类型的数据占用8个字节的存储空间
smallint :用于存储小整数,存储从-2的15次方到2的15次方之间的所有正负整数。每个SMALLINT 类型的数据占用2 个字节的存储空间
浮点型
real :存储的数据可精确到第7 位小数,其范围为从-3.40E -38 到3.40E +38。 每个REAL类型的数据占用4 个字节的存储空间
float :存储的数据可精确到第15 位小数,其范围为从-1.79E -308 到1.79E +308。 每个FLOAT 类型的数据占用8 个字节的存储空间。 FLOAT数据类型可写为FLOAT[ n ]的形式。n 指定FLOAT 数据的精度。n 为1到15 之间的整数值。当n 取1 到7 时,实际上是定义了一个REAL 类型的数据,系统用4 个字节存储它;当n 取8 到15 时,系统认为其是FLOAT 类型,用8 个字节存储它
字符型
char : 数据类型的定义形式为CHAR[ (n) ],n 表示所有字符所占的存储空间,n 的取值为1 到8000, 即可容纳8000 个ANSI 字符。若不指定n 值,则系统默认值为1。 若输入数据的字符数小于n,则系统自动在其后添加空格来填满设定好的空间。若输入的数据过长,将会截掉其超出部分
nchar : 它与CHAR 类型相似。不同的是NCHAR数据类型n 的取值为1 到4000。 因为NCHAR 类型采用UNICODE 标准字符集(CharacterSet)。 UNICODE 标准规定每个字符占用两个字节的存储空间,所以它比非UNICODE 标准的数据类型多占用一倍的存储空间。使用UNICODE 标准的好处是因其使用两个字节做存储单位,其一个存储单位的容纳量就大大增加了,可以将全世界的语言文字都囊括在内,在一个数据列中就可以同时出现中文、英文、法文、德文等,而不会出现编码冲突
varchar :VARCHAR数据类型的定义形式为VARCHAR [ (n) ]。 它与CHAR 类型相似,n 的取值也为1 到8000, 若输入的数据过长,将会截掉其超出部分。不同的是,VARCHAR数据类型具有变动长度的特性,因为VARCHAR数据类型的存储长度为实际数值长度,若输入数据的字符数小于n ,则系统不会在其后添加空格来填满设定好的空间。一般情况下,由于CHAR 数据类型长度固定,因此它比VARCHAR 类型的处理速度快
时间和日期型
date :‘2018-01-17’
time :‘10:14:00’
timestamp :‘2018-01-17 10:14:00.45’
以上就是常用的数据类型,如果有其他的数据类型没有说到,可以去网上搜一下,都比较好理解
1.2噪音数据
因为网上有非常多的关于噪音数据的解释,都非常专业,我就不在这里做过多的详细解释了,我们只探讨从sql取出数据的时候有一些异常值的处理办法:
null
一般跑过sql的朋友肯定会发现,在跑出来的数据中会有null的情况,这个时候需要对null进行替换,如果是计算用,就把null替换成0,这个步骤可以在sql里面完成,也可以在excel里面完成
极大值
极大值会影响数据的计算结果,一般会进行处理,要么替换成除极大值以外的最大值,要么直接弃用
作为分母的0
如果0作为分母,在excel里会出现#DIV/0,这个时候可以直接把结果替换,或者在sql里面直接进行替换,用case……when……就可以替换
1.3数据的口径
数据的口径很重要,根据经验看,大部分的数据出现问题是口径造成的,数据的口径一定要跟业务的口径一致,拿留存率举例:
留存率是周期比率型指标,一般在计算留存率的时候需要确定 留存周期 和 活跃判定的口径
留存周期:留存周期通俗来讲就是指用户在多长时间范围内活跃,并在下一个周期内仍然活跃,这里的多长时间就是指留存周期
活跃判定:指怎么判定一个用户活跃,可以是启动App,可以是登陆,也可以是完成了一次其他特定行为,这个主要依照业务需求而定
实际计算:
周留存率的计算
分子:本周活跃 且 上周也活跃的用户数
分母:上周活跃的用户数
2.可能会用到的工具
在处理数据的过程中可以用很多工具,在这里就介绍一些比较常见的工具,大家耳熟能详,学起来也不是特变难
2.1提取数据
mysql
hivesql
两者的查询语句有相似的地方也有不同的地方,主要看自己所在公司的数据存储情况
2.2数据处理
python:一般写个脚本做一些机械的操作(我目前是这么用),也可以用来做计算
mysql:在查询的时候可以进行处理
excel:数据量比较小的时候,可以在excel上简单处理
2.3数据可视化
python:可以用来做一些词云图
Tableau:可视化一些图表,可以和sql结合着用
excel:做一些简单的图表,实际上数据处理的好的话,一般用excel就足够了
二. 分析部分
在处理了数据以后就要开始进行报告的撰写,写报告会涉及到几个部分的工作,这里分别进行介绍一下:
1.报告结构
一篇数据分析报告的结构是十分重要的,一个好的结构能够将他人带入到你的报告中,让他人更好的明白你的意图,减少信息传递之间的丢失,同时你的思维也主要展现在结构上,这就意味着在写数据分析报告前,一定好想清楚数据分析报告的结构,当然这里说的报告结构即包括整个报告的结构,也包括每一个章节的结构,这里就放到一起说了
1.1 总 - 分 - 总(多用在整体结构)
我们在读一本书的时候,打开目录,会发现整部书的结构一般包括:
前言
第一篇
第二篇
……
第n篇
结尾
这就是典型的总 - 分 - 总结构,是最常见的结构,如果是对一个专题进行分析,用这种形式是非常好的,举个例子:
某电商App近一个月内的销售额出现下滑,让你针对这个问题进行一次专题分析
分析思路:拿到这个问题,我们很容易想到的是,销售额出现下滑出现的原因有两个,一个是付费用户数减少了,另一个是付费用户的人均付费金额减少了,这两个原因属于并列的原因,不存在递进关系,也就是说付费用户数减少了与人均付费金额减少并不存在因果关系,没有什么相关性,因此需要对两个原因共同分析,最后输出结论和提升建议,分析完以后,会发现总
- 分 - 总结构很适合这样的分析,所以列出以下提纲
问题描述
销售额近一个月下降多少?绝对值,环比,同比数据
原因假设:付费用户数下降/人均付费金额下降
付费用户数下降分析
付费用户数降幅是多少?绝对值,环比,同比数据
定位下降人群:是整体下降还是某一群体用户数下降
这里就涉及到用户分群,用户分群的方法有很多,涉及到用户价值的分群常见的就是RFM模型,将分完群的用户进行数据对比,看看上个月付费用户的结构占比跟本月有什么不同,当然用户分群的方法也不止这一个,还有按照会员等级分群(主要用会员等级进行用户分群),按照活跃程度(新用户/留存用户/回流用户),按照消费习惯(一般用户表里面都会有用户的标签,标识这个用户的消费习惯,表示这个用户更喜欢购买哪一类的商品),不管用什么分群方法,都需要纵向对比,也就是这个月和上个月付费人群的对比
原因分析:
如果是付费用户整体下降(这种是大家都不想看到的现象,欣慰大盘数据的驱动需要投入大量的资源,也有可能是自然波动),考虑可能的原因主要有:用户整体流失,比如用户流失到竟对;或者本月有什么特殊情况,影响到了整体的用户活跃;或者是从活动维度去观察,是不是活动的力度减小,影响了用户付费的欲望
如果是某一个用户群体下降:考虑的原因可能有商品品类的影响,是不是某一类商品在平台没有上架,或者某一类商品涨价;或者这一类用户受到了哪些影响,一般可以从属性和行为角度去分析
提出策略:
针对分析出的原因提出可落地的策略(策略一定要落地,要具体,比如如果你提出一条策略是:提升新注册用户数,那么等于没说,老板多数会diss你,但是你如果说,通过减少注册时填写的非必要字段,如年龄/职业,来简化注册流程,挺升注册转化率,进而提升新注册用户数,那感觉是不一样的)
人均付费金额下降分析
人均付费金额的降幅是多少?绝对值,环比,同比数据
定位原因
人均付费金额下降可能的原因主要有:订单数量下降;每个订单包含的商品数的下降/某一个品类购买数下降
提出策略:针对分析出的原因提出可落地的策略
总结问题
明确造成销售额下降的原因到底是什么(定性以后,记得一定要量化,不量化会被diss)
提出有针对性的建议
如何预防再次发生
1.2 递进(可用于整体结构和章节内部结构)
这种结构适合对一个问题进行探索,就像上一个例子中,我们针对每一个可能原因进行分析的时候,就是采用的这种分析方法,这种分析结构特别适合对一个小问题进行深入的探索分析,层层递进,深挖原因,这里在举一个例子:
某一个App的新注册用户数环比上个月减少,需要你做一个深入的分析,找到原因,提供改进策略
分析思路:新注册用户数的的影响因素是一个典型的漏斗结构,也是一个典型的单向性用户旅程,画一张图就能说明白:
如图所示,影响注册用户数的原因全部标注在漏斗里面,但是注册全流程这个漏斗只能看个大概流失,所以我们会对某一步进行细化,这张图上,我们对用户从启动到注册成功进行细化,细化到用户行为,这样能够提出一些产品上的改进意见,这个时候,如果想要提升新注册用户数,只需要针对每一步流失原因进行分析,找到提升策略就可以了,基本上是所见即所得的分析
比如:我们想对提交注册信息到注册成功这一步进行优化,那么首先我们要找到用户注册失败的原因有什么,一般有:
用户已注册
密码格式不合规
系统错误
未勾选《隐私协议》
在提出建议的时候,只要针对以上原因提出具体改进意见就可以了
1.3并列结构(多用于整体结构)
这种结构一般遇到的情况不多,常见的有对不同的校区进行经营分析/对不同品类的商品进行售卖分析,基本都是以描述型分析为主,因为分析的主体是并列关系,所以只需要每个主体就行单独分析就好,基本采用的分析思路是一样的
1.4因果结构(多用于章节内部结构)
这种结构一般用在复盘分析报告中,复盘是常见的数据分析报告类型之一,也是很多公司比较重视的一个报告,比如双十一复盘/新手活动复盘等等, 以电商某一次大促复盘为例 ,这里直接写结构:
总体描述:
本次大促整体数据表现,整体活动节奏的介绍;销售额是多少,同比提升多少;利润情况;参与用户有多少,同比提升多少;卖出商品有多少,同比提升多少;各个子活动的贡献是多少
子活动1的效果分析
子活动1的简介,作用,发力点
子活动1的贡献是什么,对于直接提升结果指标或者间接提升指标有哪些贡献
子活动1的成本是什么?投入产出比是多少?
子活动2的效果分析
子活动x的效果分析
最后汇总,提出优化建议
2.分析方法
讲完了整体结构,我们就该进入到具体分析的过程里面,这里的分析方法,主要想说说怎么去针对不同的数据进行分析,也就是说怎么通过数据看出问题,这里介绍常用的5种分析方法,但是有一句话非常重要,想写这节的最前面: 数据分析师一定要懂业务,在分析之前最好能把问题定位个大概,再去捞数,再去分析,否则每天会沉浸在漫无目的取数中,我认为一个数据分析师最重要的能力是要懂业务,从数据的角度看业务,才能驱动业务
2.1 对比分析
横向对比
横向对比就是把一个指标按照不同维度拆分,去对比不同维度的变化,举个简单的例子来说就是:
昨天的DAU增长了30%,那么把DAU进行拆分,可以拆分成以下三种方式:
DAU=新注册用户数+留存用户数+回流用户数
DAU=北京活跃用户数+河北活跃用户数+山东活跃用户数+……
DAU=北京活跃用户数+河北的活跃用户数+……
=北京的新增用户数+北京的留存用户数+北京的回流用户数+河北的新增用户数+河北的留存用户数+河北的回流用户数+……
这里留一个疑问,怎么去选择优先下钻的维度?想明白以后分析的效率就会有很大提升
纵向对比
在进行完横向对比以后,就要开始进行纵向对比,纵向对比主要是在时间维度上,还拿上一个例子来说,我们按照第一种方式进行横向对比以后,就要纵向对比,见下表:
2.2分布分析
分布分析一般是应用的场景比如用累计消费金额去分组/按照用户一个月活跃天数去分组,这些场景都有两个共性的特征:
属性值都是数值类型,或者日期类型
属性值非常多,比如累计消费金额可能从1-90000中间任意一个数字,也就是属性值非常多,没办法用每一个属性值去单独分析,因此需要分组
还是上图说明:
2.3交叉分析
交叉分析一般指多维度交叉,或者不同指标之间的交叉
多维度交叉其实有点类似对比分析的第三类分类方法,这里不在赘述了,还是那个图,但是在实际分析中的作用其实很是强大,具体如何应用就需要大家举一反三啦,仔细看看这张图,可以换成哪些分析场景下的哪些场景的交叉分析:
不同指标交叉一般用在分析变化趋势中,或者寻找相关因素的时候,上图:
这样既能看绝对值的变化,又能一目了然的看出变化趋势,如果不同指标之间呈现一定的相关性,那就是相当完美了
2.4漏斗分析
漏斗分析模型比较好理解了,一般在行为分析中常用到,直接上图吧:
是不是有点眼熟?漏斗分析一般分析应用在分析用户使用某项业务时,经过一系列步骤转化的效果,因为用户会沿着产品设计的路径到达最终目标事件,在分析每一步转化的时候会用到这个模型
2.5矩阵分析
矩阵分析是一个不错的分析模型,主要用在分类上面,常见的有用户分类、产品分类等,比如像常见的RFM模型是一个三维矩阵,有八个象限,上两个图看看:
矩阵分析其实不难理解,但是涉及到一个比较关键的问题,就是临界点怎么选择,通俗来说就是第一象限和第二象限的临界值是多少,有的是0,有的不是0,举个例子:
我想用活跃度和累计消费金额对1万个用户进行分群,使用矩阵分析
我建好了这个二维矩阵,我第一件事就是先要确定原点的坐标值,也就是说用户的累计消费金额大于x,就会出现在第一/四象限,如果小于x,就会出现在第二/三象限,想确定这个值需要一定的方法,会用到一些分类算法,这个可以去网上查一些关于分类的教程,有很多,后续我会写一盘文章来介绍分类,这里就不细讲了
以上就是数据分析最重要的两个模块,当然在实际操作中还有很多需要思考的地方,太细节的东西不太能够面面俱到,这里留给大家去思考的空间,比如:
数据分析报告怎么讲成一个故事,比如背景-现状-原因-策略-预期结果-复盘结果?
每一页PPT怎么排版会让你的数据分析报告可读性更高?
如果你的数据分析报告不采用上述的结构,还能用哪些结构?
怎么让你的数据分析报告显得更高大上?
可以留言交流哦
执行顺序:
适用结构相同的表联结成一张大表
内连接:返回两个表共同的行
左连接:以表 1 为基础,匹配表 2 的相同行
右连接:以表 2 为基础,匹配表 1 的相同行
全连接:返回全部数据,可以理解为左连接和右连接的结合
mysql 没有全连接
常用于组内排序,具体写法如下
窗口函数可以用 rank 相关函数或者聚合函数
当前日期+时间(date + time)函数:now()
当前时间戳函数:current_timestamp()
日期或时间转换为字符串 函数:date_format(date,format), time_format(time,format)
lower(str):将字符串参数值转换为全小写字母后返回
upper(str):将字符串参数值转换为全大写字母后返回
concat(str1, str2,...):将多个字符串参数首尾相连后返回
concat_ws(separator,str1,str2,...):将多个字符串参数以给定的分隔符 separator 首尾相连后返回
substr(str,pos):截取从 pos 位置开始到最后的所有 str 字符串
substr(str, pos, len):截取 str 字符串,从 pos 位置开始的 len 个字符
length(str):返回字符串的存储长度
char_length(str):返回字符串中的字符个数
format(X,D,locale):以格式 ‘#,###,###.##’ 格式化数字 X,D 指定小数位数,locale 指定国家语言(默认的 locale 为 en_US)
left(str, len):返回最左边的len长度的子串
right(str, len):返回最右边的len长度的子串
ltrim(str),rtrim(str):去掉字符串的左边或右边的空格
repeat(str, count):将字符串 str 重复 count 次后返回
reverse(str):将字符串 str 反转后返回
通俗易懂的学会:SQL窗口函数
mysql format时间格式化说明
MySQL常用字符串函数
一、数据收集
数据收集是数据分析的最基本操作,你要分析一个东西,首先就得把这个东西收集起来才行。由于现在数据采集的需求,一般有Flume、Logstash、Kibana等工具,它们都能通过简单的配置完成复杂的数据收集和数据聚合。
二、数据预处理
收集好以后,我们需要对数据去做一些预处理。千万不能一上来就用它做一些算法和模型,这样的出来的结果是不具备参考性的。数据预处理的原因就是因为很多数据有问题,比如说他遇到一个异常值(大家都是正的,突然蹦出个负值),或者说缺失值,我们都需要对这些数据进行预处理。
三、数据存储
数据预处理之后,下一个问题就是:数据该如何进行存储?通常大家最为熟知是MySQL、Oracle等传统的关系型数据库,它们的优点是能够快速存储结构化的数据,并支持随机访问。但大数据的数据结构通常是半结构化(如日志数据)、甚至是非结构化的(如视频、音频数据),为了解决海量半结构化和非结构化数据的存储,衍生了HadoopHDFS、KFS、GFS等分布式文件系统,它们都能够支持结构化、半结构和非结构化数据的存储,并可以通过增加机器进行横向扩展。
四、数据分析
做数据分析有一个非常基础但又极其重要的思路,那就是对比,基本上 90% 以上的分析都离不开对比。主要有:纵比、横比、与经验值对比、与业务目标对比等。
五、数据运用
其实也就是把数据结果通过不同的表和图形,可视化展现出来。使人的感官更加的强烈。常见的数据可视化工具可以是excel,也可以用power BI系统。
六、总结分析
根据数据分析的结果和报告,提出切实可行的方案,帮助企业决策等。
关于数据分析的具体流程是什么,青藤小编就和您分享到这里了。如果您对大数据工程有浓厚的兴趣,希望这篇文章可以为您提供帮助。如果您还想了解更多关于数据分析师、大数据工程师的技巧及素材等内容,可以点击本站的其他文章进行学习。
本文以“淘宝用户行为数据集”的分析全过程为例,展示数据分析的全过程
——使用工具:MySQL,Excel,Navicat,PowerBI
——分析类型:描述分析,诊断分析
——分析方法:漏斗分析,用户路径分析,RFM用户价值分析,活跃/存留分析,帕累托分析,假设验证分析。
(考虑到阅读体验文章中只放了SQL截图,如需PDF版本,再公众号后台回复“用户行为分析”领取)
(目录如下)
1.分析流程和方法
当没有清晰的数据看板时我们需要先清洗杂乱的数据,基于分析模型做可视化,搭建描述性的数据看板。
然后基于描述性的数据挖掘问题,提出假设做优化,或者基于用户特征数据进行预测分析找规律,基于规律设计策略。简单来说:
——描述性分析就是:“画地图”
——诊断性分析就是:“找问题”
——预测性分析就是 :“找规律”
在数据分析中有两个典型的场景:
一种是有数据,没有问题:需要先整体分析数据,然后再根据初步的描述分析,挖掘问题做诊断性分析,提出假设,设计策略解决问题。
另一种是已经发现了问题,或者已经有了假设,这种做数据分析更偏向于验证假设。
2.淘宝用户行为分析
本次是对“淘宝用户行为数据集”进行分析,在分析之前我们并不知道有什么问题,所以需要先进行描述性分析,分析数据挖掘问题。
我们首先来看下这个数据集的元数据:
根据以上数据字段我们可以拿用户行为为主轴从纵深方向提出一些问题,然后再从数据中找答案
纵向:
——这个数据集中用户的日活跃和周活跃时间有什么规律吗?
——在当日活跃的用户次日,三日,四日……还有多少活跃?
深向:
——用户从浏览到购买的整体转化率怎么样?
——用户从浏览到购买的路径是怎么样子的?
——平台主要会给用户推送什么商品?
——用户喜欢什么类目?喜欢什么商品?
——怎么判断哪些是高价值用户 ?
下面是叮当整理的常用分析方法:
我们可以给前面的问题匹配一下分析方法,便于后面的分析:
为了便于后面的数据分析,在分析之前我们需要先对做一下清洗
看元数据(字段解释,数据来源,数据类型,数据量……)初步发现问题为之后的处理做准备。
确定缺失值范围,去除不需要字段,填充缺失内容
根据元数据格式和后续分析需要的格式对数据进行处理
去除重复值,异常值
——去除重复值:并把用户ID,商品ID,时间戳设置为主键
——异常值处理:查询并删除2017年11月25日至2017年12月3日之外的数据
查询并删除小于2017-11-25的
——验证数据:
——分析思路:
——SQL提数:
——Excel可视化:
活跃曲线整体为上升状态,同为周六日,12月2号,3号相比11月25日,26日活跃度更高。
用户在周六周日相比其他时间更活跃(周六周日为休息日,用户有更多时间)
一天内用户活跃的最高峰期为21点(用户在这个时间段空闲较多)
——分析思路:
——SQL提数:
列出每用户每天及当天后面又活跃的日期,并创建“活跃时间间隔表”用于后面求次日存留,三日存留……
对“活跃时间间隔表视图”引用进行分组统计,计算每日存留人数并创建视图
对存留人数表进行计算,统计活跃用户留存率
——Excel可视化:
——分析思路:
——SQL提数:
-把各种用户行为分离出来并创建视图方便后续查询用户行为数据
查询整体数据漏斗
——Excel可视化:
用户从浏览到购买整体转化率2.3%,具体主要在哪个环节流失还需要再细分用户路径分析
——分析思路:
——SQL提数:
——PowerBI可视化:
用户从浏览到购买的路径主要有4条,路径越长转化率越底
路径1:浏览→购买:转化率1.45%
路径2:浏览→加购物车→购买:转化率0.33
路径3:浏览→收藏→购买:转化率0.11%
路径4:浏览→收藏→加购物车→购买:转化率0.03%
——分析思路:
——SQL提数:
——Excel可视化:
——描述性分析:
浏览量top100的商品浏览量呈阶梯分布,越靠前的阶梯之间的落差相对越大在这个阶梯中的商品越少,越靠后商品浏览量阶梯之间的落差相对越小,同阶梯内的商品越多。
浏览量TOP100的商品所属类目中,4756105,3607361,4357323三个类目浏览量远超其他类目。
——分析思路:
——SQL提数:
查询计算商品转化率,升序排列,取前100个
——Excel可视化:
——描述性分析:
从商品看:有17款商品转化率超过了1。
从类目看:这些商品所属类目分布均匀,除965809,4801426,2735466,2640118,5063620,4789432,2945933这7个类目之外,其他类目都只有一个商品在转化率TOP100的商品中。
——分析思路:
用户价值分析常用的分析方式是RFM模型
本次分析中的R,F,M具体定义(仅用于演示分析方法,无实际业务参考价值):
——SQL取数与分析:
1)建立打分标准:先计算R,F的值,并排序,根据R,F值最大值和最小值得区间设计本次得打分标准
-查询并计算R,F值创建视图
-引用RF数值表,分别查询R,F的最大值和最小值
-结合人工浏览的建立打分标准
2)给R,F按价值打分
3)计算价值的平均值
4)用平均值和用户分类规则表比较得出用户分类
——Excel可视化
通过描述性分析得到可视化的数据后我们一般会先看一下是否符合业务常识
如果符合常识接下来我们会通过与行业平均数据和本产品的同比环比对比看是否正常,如果不正常就要找原因,设计解决方案,如果正常那就看是否有可以优化的地方。
我们首先来看一下这些描述性分析是否符合业务常识和指标是否正常:
1.活跃曲线整体为上升状态,同为周六日,12月2号,3号相比11月25日,26日活跃度更高。
2.用户在周六周日相比其他时间更活跃
3.一天内用户活跃的最高峰期为21点
4.从2017年11月15日致2017年12月3日,活跃用户新增38%
5.从2017年11月15日致2017年12月3日,活跃用户次日留存增长18.67%,当日的活跃用户留存也在快速增长,第七日留存比次日留存高18.56%。
6.用户从浏览到购买整体转化率2.3%
7.用户从浏览到购买的路径主要有4条,路径越长转化率越低。
8.浏览量top100的商品浏览量呈阶梯分布,越靠前的阶梯之间的落差相对越大在这个阶梯中的商品越少,越靠后商品浏览量阶梯之间的落差相对越小,同阶梯内的商品越多。
9.浏览量TOP100的商品所属类目中,4756105,3607361,4357323三个类目浏览量远超其他类目。
10.从商品看:有17款商品转化率超过了1。
11.从类目看:这些商品所属类目分布均匀,除965809,4801426,2735466,2640118,5063620,4789432,2945933这7个类目之外,其他类目都只有一个商品在转化率TOP100的商品中。
根据以上诊断分析我们梳理出了以下假设,做假设验证。
假设1:这些商品中有高转化率的爆款商品
对比浏览量TOP5的商品,发现这些商品转化率在同一类目下并不高,假设不成立
假设2:4756105,3607361,4357323三个类目属于高频刚需类目
-创建类目购买频次表
-计算类目购买频次平均值
-查询4756105,3607361,4357323三个类目的购买频次
4756105,3607361,4357323三个类目的用户购买频次明显高于平均值,假设成立
假设3:有部分用户是未点击商详直接从收藏和购物车购买的。
用户不是直接从收藏和购物车购买的,只是后续复购未点击商详,假设不成立
假设4:淘宝推荐的商品主要是“同一类目下的高转化商品”
用Excel对浏览量TOP100的商品ID和转化率TOP100的商品ID进行去重,结果无重复值,假设不成立
3.结论:
1)用户活跃:用户活跃曲线整体呈上升趋势,在一周中周六,周日活跃度比平时更高,在一天中用户活跃曲线从凌晨4点开始往上升,在中午12点和下午5~6点有两个小低谷(吃饭),到晚上9点时活跃度达到顶峰。
2)用户留存:从2017年11月15日致2017年12月3日的用户留存数据来看,淘宝的用户留存数据较好,活跃用户次日留存增长18.67%,当日的活跃用户留存也在快速增长,第七日留存比次日留存高18.56%。
3)用户转化:整体转化2.3%,用户从浏览到购买的路径主要有4条,路径越长转化率越低。
4)平台推荐与用户偏好:从数据集中的数据来看,排除用户兴趣偏好标签,淘宝给用户用户推送的商品主要是高频刚需的类目,促使用户复购,流量回流平台。
以上结论受数据量和数据类型的影响,并不一定准确,仅用来练习数据分析方法。
(考虑到阅读体验文章中只放了SQL截图,如需PDF版本,再公众号后台回复“用户行为分析”领取)
我们在微信上24小时期待你的声音
解答本文疑问/技术咨询/运营咨询/技术建议/互联网交流