⑴如何利用Excel做数据分析
Excel是日常工作中最常用的工具,如果不考虑性能和数据量,它可以处理大部分的分析工作。
数据分析的最终目的是解决我们生活和工作中遇到的问题。
明确的问题为数据分析提供了目标和方向。
Excel数据分析的步骤分为:问题澄清——数据理解——数据清洗——数据分析或模型构建——数据可视化。
1.澄清问题
上面文章中提到的淘宝和天猫宝贝商品数据作为数据分析的数据集。
1.在顶级产品中,哪种产品的销量最好?在该类别中,哪个子类别最受欢迎?
2.不同季度如何影响用户购买行为?
2.不同年龄段如何影响用户购买行为?
3.不同性别如何影响用户购买行为?
2.理解数据
Mumu参考:描述性统计分析和理解数据集部分
3.br/>数据清理步骤为:选择子集——重命名列名——删除重复值——处理缺失值——处理一致性——排序数据——处理离群值。
1.选择子集
有时原始数据量太大,有时并非所有字段都是必需的。
我们可以隐藏不需要的字段。
确保数据完整性,尽量不删除数据。
从问题中我们可以看出,购买的产品表中的产品属性对我们分析数据没有用处,可以隐藏(选择产品属性列,右键,选择隐藏)。
2.重命名列名
我们可以将原始数据集中的英文字段改为中文字段,以便于阅读和理解。
双击列名称进行编辑。
直接地。
3.删除重复值
从购物产品表和宝贝信息表示中,仅当所有字段在操作点都重复时,我们才认为数据重复。
查看,,没有重复值。
4.处理缺失值
可以看到一共有多少行数据,然后用鼠标选中该列就可以看到缺失了多少个值。
如果有缺失值,我们可以使用定位来查找缺失值(选择列-F5-定位-条件-null)。
没有发现缺失值。
5.一致性处理
统一数据列的数据格式。
数据中的购买时间列和出生日期列是普通格式,我们需要转换为日期类型(选择列-右键-格式化单元格-日期)然后选择列-列-下一个-下一个-列数据格式:日期:YMD-完整。
6.排序数据
对购买数量列进行降序排序,发现用户“2288344467”在2014年11月13日购买了10000份“50018831”。
-分类级别,一级分类产品'50014815'。
7.处理离群值
数据透视表中的每列数据都没有离群值。
至此我们已经获得了分析问题的数据。
接下来,我们将利用Excel中的数据透视、函数和分析工具进行数据分析来解决我们的业务问题。
1.在顶级产品中,哪种产品销量最好?在该类别中,哪个子类别最受欢迎?
将顶级产品分类放在行标签上,其值是购买数量的总和。
得出的结论是,最受欢迎的顶级产品是28,购买数量是。
28545.
在这个品类中,即一级品类28个产品中,哪个二级品类最受欢迎?
2.该季度如何影响用户的购买行为?换句话说,每个季度的销量是多少?
从数据来看,我们发现2012-2014年第四季度的销量是当年最高的。
3.不同年龄段如何影响用户购买行为?
在分析这个问题之前,我们需要使用VlookupV函数将一级分类资产和二级分类资产添加到宝贝信息表中,然后计算出宝贝的年龄。
根据统计数据,各年龄段的购买量为:从透视表中可以看出,4岁以下的婴儿是主要的用户群体。
从不同年龄段婴儿购买的二次产品数量来看,各年龄段用户最喜欢的二次产品如下:
4.性别对这对用户购买行为有何影响?
我们可以看到,男宝宝和女宝宝的数量差异不大,但女宝宝的购买数量几乎是男宝宝的两倍。
男女宝宝最受欢迎的二次品类商品TOP5
此外,我们还可以看到男女宝宝最受欢迎的二次品类商品TOP5。
⑵excel数据分析常用的功能
1.连接。
CONCATENATE是最容易学习但最强大的数据分析公式之一。
将多个单元格中的文本、数字、日期等合并到一个单元格中。
2。
LEN快速确定给定单元格中的字符数。
3.COUNT。
COUNTA确定单元格是否为空。
在数据分析师的生活中,您每天都会面对不完整的数据集。
COUNTA允许您评估数据集中可能存在的任何差距,而无需重新组织数据。
4。
天/晴天。
DAYS正是这个意思。
此函数确定两个日期之间的日历天数。
它是根据服务时间估算产品、合同和营业收入的生命周期的有用工具——数据分析至关重要。
5.SUMIFS。
SUMIFS是数据分析师需要了解的公式之一。
6。
平均的。
与SUMIFS一样,AVERAGEIFS允许您根据一个或多个条件求平均值。
7。
虚拟PR。
VLOOKUP是最有用和最知名的数据分析函数之一。
8。
查找/搜索。
FIND/=SEARCH是一个强大的函数,用于突出显示数据集中的特定文本。
9。
错误。
IFERROR是任何自愿提供数据的分析师都应该使用的东西。