当前位置:首页 > 数据分析 > 正文

excel数据分析常用知识与工具


⑴如何利用Excel做数据分析
Excel是日常工作中最常用的工具,如果不考虑性能和数据量,它可以处理大部分的分析工作。 数据分析的最终目的是解决我们生活和工作中遇到的问题。 明确的问题为数据分析提供了目标和方向。
Excel数据分析的步骤分为:问题澄清——数据理解——数据清洗——数据分析或模型构建——数据可视化。
1.澄清问题
上面文章中提到的淘宝和天猫宝贝商品数据作为数据分析的数据集。
1.在顶级产品中,哪种产品的销量最好?在该类别中,哪个子类别最受欢迎?
2.不同季度如何影响用户购买行为?
2.不同年龄段如何影响用户购买行为?
3.不同性别如何影响用户购买行为?
2.理解数据
Mumu参考:描述性统计分析和理解数据集部分
3.br/>数据清理步骤为:选择子集——重命名列名——删除重复值——处理缺失值——处理一致性——排序数据——处理离群值。
1.选择子集
有时原始数据量太大,有时并非所有字段都是必需的。 我们可以隐藏不需要的字段。 确保数据完整性,尽量不删除数据。 从问题中我们可以看出,购买的产品表中的产品属性对我们分析数据没有用处,可以隐藏(选择产品属性列,右键,选择隐藏)。
2.重命名列名
我们可以将原始数据集中的英文字段改为中文字段,以便于阅读和理解。 双击列名称进行编辑。 直接地。
3.删除重复值
从购物产品表和宝贝信息表示中,仅当所有字段在操作点都重复时,我们才认为数据重复。 查看,,没有重复值。
4.处理缺失值
可以看到一共有多少行数据,然后用鼠标选中该列就可以看到缺失了多少个值。 如果有缺失值,我们可以使用定位来查找缺失值(选择列-F5-定位-条件-null)。 没有发现缺失值。
5.一致性处理
统一数据列的数据格式。 数据中的购买时间列和出生日期列是普通格式,我们需要转换为日期类型(选择列-右键-格式化单元格-日期)然后选择列-列-下一个-下一个-列数据格式:日期:YMD-完整。
6.排序数据
对购买数量列进行降序排序,发现用户“2288344467”在2014年11月13日购买了10000份“50018831”。 -分类级别,一级分类产品'50014815'。
7.处理离群值
数据透视表中的每列数据都没有离群值。
至此我们已经获得了分析问题的数据。 接下来,我们将利用Excel中的数据透视、函数和分析工具进行数据分析来解决我们的业务问题。
1.在顶级产品中,哪种产品销量最好?在该类别中,哪个子类别最受欢迎?
将顶级产品分类放在行标签上,其值是购买数量的总和。 得出的结论是,最受欢迎的顶级产品是28,购买数量是。 28545.
在这个品类中,即一级品类28个产品中,哪个二级品类最受欢迎?
2.该季度如何影响用户的购买行为?换句话说,每个季度的销量是多少?
从数据来看,我们发现2012-2014年第四季度的销量是当年最高的。
3.不同年龄段如何影响用户购买行为?
在分析这个问题之前,我们需要使用VlookupV函数将一级分类资产和二级分类资产添加到宝贝信息表中,然后计算出宝贝的年龄。
根据统计数据,各年龄段的购买量为:从透视表中可以看出,4岁以下的婴儿是主要的用户群体。
从不同年龄段婴儿购买的二次产品数量来看,各年龄段用户最喜欢的二次产品如下:
4.性别对这对用户购买行为有何影响?
我们可以看到,男宝宝和女宝宝的数量差异不大,但女宝宝的购买数量几乎是男宝宝的两倍。
男女宝宝最受欢迎的二次品类商品TOP5
此外,我们还可以看到男女宝宝最受欢迎的二次品类商品TOP5。


⑵excel数据分析常用的功能
1.连接。 CONCATENATE是最容易学习但最强大的数据分析公式之一。 将多个单元格中的文本、数字、日期等合并到一个单元格中。
2。 LEN快速确定给定单元格中的字符数。
3.COUNT。 COUNTA确定单元格是否为空。 在数据分析师的生活中,您每天都会面对不完整的数据集。 COUNTA允许您评估数据集中可能存在的任何差距,而无需重新组织数据。
4。 天/晴天。 DAYS正是这个意思。 此函数确定两个日期之间的日历天数。 它是根据服务时间估算产品、合同和营业收入的生命周期的有用工具——数据分析至关重要。
5.SUMIFS。 SUMIFS是数据分析师需要了解的公式之一。
6。 平均的。 与SUMIFS一样,AVERAGEIFS允许您根据一个或多个条件求平均值。
7。 虚拟PR。 VLOOKUP是最有用和最知名的数据分析函数之一。
8。 查找/搜索。 FIND/=SEARCH是一个强大的函数,用于突出显示数据集中的特定文本。
9。 错误。 IFERROR是任何自愿提供数据的分析师都应该使用的东西。