700字范文,内容丰富有趣,生活中的好帮手!
700字范文 > 数据分析师CDA认证 Level Ⅰ笔记(完结)

数据分析师CDA认证 Level Ⅰ笔记(完结)

时间:2021-06-23 22:03:24

相关推荐

数据分析师CDA认证 Level Ⅰ笔记(完结)

**黑色字体部分为考纲(截至),蓝色字体部分为笔记,仅供参考

PART 1 数据分析概念与职业操守

1、数据分析概念、方法论、角色

【领会】

数据分析基本概念(数据分析、数据挖掘、大数据)

数据分析目的及其意义

数据分析方法与流程

数据分析的不同角色与职责

2、数据分析师职业道德与行为准则

【领会】

数据分析师职业道德操守

数据分析师专业行为准则

3、大数据立法、安全、隐私

【领会】

国外隐私相关法律要求(参阅《国际数据保护规则要览》)

国内大数据立法的历程和展望(参阅《中国大数据法治发展报告》)

欧盟《通用数据保护条例》(General Data Protection Regulation,简称GDPR)中企业和个人的数据使用权限

PART 2 数据结构

总体要求

理解表格结构与表结构的数据特征、理解表结构与表结构数据获取操作方法、理解表结构数据连接及汇总的逻辑、能够应用表结构连接及汇总逻辑关联多表进行汇总求值计算、能够制作ER关系图

1、表格结构数据特征

【领会】

表格结构数据概念

表格结构数据处理工具

【熟知】

表格结构数据特征

2、表格结构数据获取、引用、查询与计算

【领会】

表格结构数据获取方法

【熟知】

单元格区域的特征

【应用】

表格结构数据的引用方法

表格结构数据的查询方法

表格结构数据的常用函数

3、表结构数据特征

【熟知】

理解主键的意义

表的业务记录单位。在一个数据表中的所有非主键字段都要围绕主键展开

理解维度及度量的意义

理解缺失值

表结构数据特征

表结构数据与表格结构数据差异

4、表结构数据获取、加工与使用

【领会】

表结构数据获取渠道及方法

【熟知】

表结构数据连接逻辑

表结构数据汇总逻辑

ETL作用、特征

【应用】

应用E-R图

计算两表连接汇总值

应用ETL获取及处理数据

PART 3 数据库应用

总体要求

理解数据库的基本概念、理解DDL及DML语言、能够根据业务需求及数据特征使用查询语言从数据库中获取准确、完整的数据信息、能够应用数据库函数进行数据处理及计算

1、数据库相关概念

【领会】

数据库分类

SQL语言的功能

【熟知】

数据库、数据库管理系统与SQL之间的关系

2、DDL数据定义语言

【领会】

数据库基本结构

【熟知】

数据类型

约束条件

数据库三大范式

数据表中的每一列(每个字段)必须是不可拆分的最小单元表中所有的列都必须依赖于主键任何非主属性不依赖于其他非主属性

五大约束

主键约束非空约束唯一约束外键约束默认值约束

数据完整性

实体完整性 关系中的主属性值不能为Null且不能有相同值域完整性 字段的值域、字段的类型及字段的有效规则等约束参照完整性 关系中的外键必须是另一个关系的主键有效值,或者是NULL可以通过四种方式来实现 约束规则默认值触发器完整性约束包括 主键约束(PRIMARY KEY)外键约束(FOREIGN KEY)唯一约束(UNIQUE)非空约束(NOT NULL)检查约束(CHECK)

【应用】

创建、选用、删除数据库

create database xxxx;

use xxxx;

drop database xxxx;

创建、修改、删除表

create table yyyy;

alter table yyyy add|modify|drop|rename column

drop table yyyy;

3、DML数据操作语言

【领会】

添加数据的步骤

【熟知】

添加、修改、删除数据的语法规则

【应用】

添加数据

insert into table (columns) values (v1s)

修改数据

update table set column = value where …

删除数据

delete from table where …

4、单表查询

【领会】

虚拟结果集

【熟知】

运算符

SQL语句的书写顺序和执行逻辑

【应用】

基本查询:去重查询、设置别名

distinct

as

条件查询:多条件查询、空值查询、模糊查询

where

is null

like

分组查询:分组聚合、分组后筛选

group by … having

查询结果排序、限制查询结果数量

order by

limit

row_number()

5、多表查询

from a,b,c

【领会】

对应关系:一对一、一对多、多对多

连接方式:内连接、左连接、右连接

连接条件:等值连接、不等值连接

【熟知】

连接查询的逻辑和联合查询规则

【应用】

连接查询:内连接、左连接、右连接

inner join

left join

right join

联合查询:去重、不去重

union/union all

6、子查询

【领会】

子查询分类

【熟知】

子查询位置、子查询操作符

【应用】

子查询语法规则

子查询优化

7、数据库函数

【领会】

计算字段

【熟知】

函数功能及参数

【应用】

数学函数、字符串函数、日期时间函数、分组合并函数、逻辑函数

PART 4 描述性统计分析

总体要求

理解统计基本概念、理解描述性统计相关知识内容、理解描述性统计图表定义及适用场景、能够应用描述性统计知识描述及探索业务问题

1、统计基本概念

【熟知】

统计学含义及其应用

统计学的基本概念:数据、总体、样本、参数、变量

参数估计

估计量:用于估计总体参数的随机变量 如样本均值,样本比例,样本方差例如:样本均值就是总体均值的一个估计量参数用θ表示,估计量用表示估计值:估计参数时计算出来的统计量的具体值估计方法 点估计 矩估计法最大似然法顺序统计量估计法最小二乘法区间估计点估计 用样本的估计量直接作为总体参数的估计值没有给出估计值接近总体参数程度的信息区间估计 在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减抽样误差而得到根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率量度 x为点估计值z为置信水平σ为标准差±之后的值称为统计误差置信水平 将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平影响区间宽度的因素 总体样本的离散程度样本容量置信水平1-σ估计量的评价 一致性:随着样本量的增大,估计量的值越来越接近被估计的总体参数有效性:D()标准差越小越有效无偏性:E()=𝜃一个总体参数的区间估计 正态总体、𝜎²已知,或非正态总体、大样本(n≥30) z分布正态分布,方差已知非正态分布,可由正态分布来近似(𝜎未知)正态总体、𝜎²已知,小样本 t分布总体比例的区间估计 假定条件 总体服从二项分布可由正态分布近似使用正态分布统计量z 总体比例Π在1-a置信水平下的置信区间为 总体方差的区间估计 估计一个总体的方差或标准差假设总体服从正态分布总体方差𝜎2的点估计量为s2,总体方差在1-a置信水平下的置信区间为​​​​​​假设检验

假设:对总体参数的具体数值所作的陈述假设检验:先对总体的参数提出某种假设,然后利用样本信息判断假设是否成立的过程 类型 参数检验非参数检验逻辑上用反证法,统计上运用小概率原理原假设H0 0假设=,≥,≤备择假设H1 研究假设≠,>,<​​​​

两类错误

第Ⅰ类错误-弃真错误第Ⅱ类错误-取伪错误

影响β错误的因素

总体参数的真值:随着假设的总体参数的减少而增大显著性水平:当α减少而增大总体标准差:σ增大而增大样本容量:n增大而减少

显著性水平α

是一个概率值原假设为真时,拒绝原假设的概率(拒绝域)常用0.01,0.05,0.10由研究者事先确定

一个总体参数的检验

检验统计量的确定总体均值的检验

总体比例的检验

总体方差的检验

总体比例的检验d 总体方差的检验 通常在t 检验之前我们首选需要进行进行F检验(方差齐性检验),判断两个总体的方差是否存在显著差异

Z检验

总体呈正态分布

总体方差已知

样本量较大

t检验

总体呈正态分布

总体方差未知

样本量较小

最小样本量公式

n为样本量

σ2为方差,抽样个体值与整体均值之间的偏离程度,抽样数值分布越分散方差越大,需要的样本量越多

E为抽样误差,由于是倒数平方关系,抽样误差减小1/2,抽样量需要增加4倍

【领会】

描述性统计图表:直方图、散点图、箱型图

描述性统计图表构成类图表序列类图表比较类图表

集中趋势的描述:众数、中位数、分位数、平均

众数:出现次数最多的变量值(分类型数据/顺序型数据/数值型数据)分位数(顺序型数据/数值型数据)均值(数值型数据简单算术平均数加权算术平均数简单几何平均数加权几何平均数简单调和平均数加权调和平均数算术平均数≥几何平均数≥调和平均数

离散程度的描述:极差、方差、标准差、离散系数、变异系数

极差R=max-min四分位差平均差方差标准差样本方差样本标准差离散系数(变异系数)

分布形态的描述:偏态、峰态

偏态

偏态系数为正,则为右偏分布,平均数>中位数>众数 偏态系数为负,则为左偏分布,平均数<中位数<众数

峰态

由于正态分布的峰态系数为0;若峰态系数的值明显不等于0,则分布比正态分布更平或更尖 当K>O时为尖峰分布,数据的分布更集中;当K<O时为扁平分布,数据的分布更分散。

【应用】

能够应用描述性统计知识对业务数据进行恰当的数据特征描述,针对数据描述特征阐述业务问题、探索问题原因、提出解决问题方法

3、统计分布

【熟知】

两点分布、二项分布、正态分布、分布、T分布、F分布

1. 离散分布 i. 两点分布 ii. 二项分布2. 连续分布 i. 正态分布 ii. 标准正态分布3. 抽样分布 i. 卡方分布 1) 期望E(x²)=n,方差D(x²)=2n 2) 可加性:两个独立随机变量U、V服从自由度为m、n的x2分布,则U+V服从自由度为m+n的x²分布 ii. t分布 1) 定义:X~N(0,1),Y~X2(n),且X、Y相互独立,则,自由度为n的t分布 2) n≥2时,期望E(t)=0,n≥3时,方差D(t)=n/(n-2) iii. F分布 1) 定义:U~X²(m),V~X²(n)且相互独立,则F=(U/m)/(V/n),记F~F(m,n) 2) 期望E(F)=n/(n-2),n>2,方差,n>4 3) F分布与t分布关系:如果X~t(n),则X²~F(1,n)

4、相关分析

【熟知】

相关分析的描述:散点图、相关分析的类型

相关关系的度量:相关系数

相对位置的量度——标准化值 切比雪夫不等式:对于任意分布形态的数据,至少有1-1/k2的数据落在平均数±k个标准差内。其中k是大于1的任意值,不一定为整数协方差相关系数

PART 5 多维数据透视分析

总体要求

理解多维数据模型价值、理解多维数据模型逻辑、理解透视分析原理、能够活用多维数据模型结合恰当透视方法观测业务问题实现商业洞察

1、多表透视分析逻辑

【熟知】

熟知透视分析的作用价值

理解多表环境下的连接、透视逻辑

【应用】

能够通过表的字段理解该表所代表的业务维度及业务意义,能够通过表的业务意义倒推回表中字段的主键、维度、度量属性

2、多维数据模型

【领会】

了解使用多维数据模型的业务意义

【熟知】

熟知多维数据模型的创建方法

熟知多维数据模型中连接方式与汇总结果间的关系

熟知多维数据模型下汇总维度与筛选维度间的差异及各自的适用场景

【应用】

能够通过5W2H思维模型梳理业务线索,搜集完整的多表数据

5W2H模型

whowherewhenwhatwhyhow muchhow to do

能够根据业务需求,按照正确的连接关系创建完整、准确、全面的多维数据模型

能够根据多维数据模型推导出可探索的业务问题范围,实现业务洞察

3、透视分析方法

【领会】

透视分析的价值及意义

【熟知】

熟知基本透视规则

合计规则计数规则平均规则最大最小值规则

熟知条件筛选透视规则:多条件透视计算、不同层级维度透视计算

熟知基本对比计算规则:均比、基准比、标准比、百分比、差异百分比

均比:实际值与平均值之间的对比(同类型产品销售情况)基准比:实际值与基准值之间的对比(成绩水平)目标比:实际值与目标值之间的对比(销售业绩绩效)标准比:实际值与标准值之间的对比(工厂工作水平绩效)占比:部分与总体的对比(不同区域销售额占比)

熟知时间维度下的透视计算规则:不同时间段、不同时间位移量下的透视计算规则

MTDYTDQTD环比同比对比百分比公式=实际值/对比值×100%差异百分比公式=(实际值-对比值)/对比值×100%

熟知行间透视与字段上透视的差异

【应用】

能够根据业务需求选择创建正确的透视规则

能够将透视规则应用在正确的多维模型下描述业务问题

能够通过透视结果理解业务问题

透视结果与预期结果不符时,能够检查、追踪问题原因

PART 6 业务数据分析

总体要求

理解业务数据分析方法、掌握业务数据分析流程、能够使用及设计创建业务指标、能够结合业务模型及业务分析方法正确理解业务问题,找到问题原因,并能够提出解决问题建议

1、数据驱动型业务管理方法

【熟知】

熟知数据从业务中来到业务中去的全过程

熟知数据驱动型业务管理的价值意义

熟知数据驱动型业务管理流程

熟知数据驱动型业务管理思维方式

经验为主数据为辅,经验比数据更可信

【应用】

能够通过数据驱动型业务管理流程找到业务分析与业务管理需求的结合点,能够正确理解数据的出处及产生逻辑,能够正确的运用数据为业务管理提供有价值的数据分析结果

2、指标的应用与设计

【领会】

指标的作用

【熟知】

熟知从指标结果出发到业务行为落地的思维过程及分析方法

熟知指标与透视计算间的关系

熟知常用指标

流量相关指标

CPM-cost per mille 每千次曝光收费CPS-cost per sales 实际销售收费CPC-cost per click 点击次数收费UV 访问对应维度的非重复用户数PV 浏览页面的总次数Visits 统计会话数新访客数 新进访客数平均访问深度 PV/Visits跳失率 跳出次数/Visits新访客占比 新访客数/UV

转化相关指标

电商黄金公式: 销售额 = 流量 * 转化率 * 客单价一级指标(企业中指定指标有一定差异 结合实际情况)流量数量重要指标:前提是时间内 比如1天 访客数( UV):到达店铺页面的非重复用户数浏览量( PV):店铺内浏览和查看页面的累加次数访问次数( Visits):一个会话内被用户连续访问的次数(时间内打开到关闭算一次),代表不同渠道带来客户次数跳失次数: 一个会话内用户只看一次页面就关闭的次数新访客数: 新进访客数二级指标流量质量重要指标 平均访问深度:浏览量/访问次数,代表客户对网页兴趣程度,起到流连忘返效果,容易触发成单,=PV/UV跳失率:跳出次数 / 访问次数新访客占比: 新访客数 / 访客数

营运、销售相关指标

成交额:GMV、实际销售额、税后销售额、退款额

成交量:实际订单量、销量、退款订单量、上架数量

完成情况:目标达成率、退货率

效果:屏效、商品关联性

库存类指标

库龄=存放仓库时长

库存周转次数=平均库存量/出库总量

订货满足率=按合理需求正常供货次数/产品被要求供货的总次数

缺货率=缺货次数/总订货次数

售罄率=1-库存金额/进货金额

常用财务指标

绩效类指标

客户相关指标

熟知拆解业务需求设计指标方法

【应用】

能够根据指标结果洞察业务问题及影响

能够根据业务场景选择恰当的指标进行观测

能够根据业务需求设计新指标,完善指标体系

3、业务分析方法

【领会】

不同业务分析方法各自的作用

【熟知】

熟知以下业务分析方法:

客户分析:客户来源分析、客户价值分析、客户生命周期分析、客户行为分析

商品分析:商品进销存分析、商品渠道分析、商品耗损分析、商品价格分析

流量、转化分析:流量转化分析、流量渠道分析

行为效果分析:活动效果分析、销售分析、其他行为效果分析

业务分析模型:漏斗模型、RFM模型、客户价值模型

右上左下提升难度大

业务分析方法:树状结构分析法、二八分析法、四象限分析法、同期群分析法

树状结构分析

二八分析

四象限分析-波士顿矩阵(明星类-高-高,问题类-低-高,奶牛类-高-低,瘦狗类-低-低)

同期群分析

AARRR模型

Acquisition用户获取

日新登用户数(DNU)

Activation用户激活

日活跃用户数(DAU)

周活跃用户数(WAU)

月活跃用户数(MAU)

日均使用时长(DAOT)

DAU/MAU

Retention用户留存

次日留存率(Day 1Retention Ratio)

定义:日新增用户在+1日登录的用户数占新增用户的比例。

三日留存率(Day 3Retention Ratio)

定义:日新增用户在+3日登录的用户数占新增用户的比例。

七日留存率(Day 7Retention Ratio)

定义:日新增用户在+7日登录的用户数占新增用户的比例。

日流失率(Day 1Churn Ratio)

定义:统计日登录APP,但随后7日未登录APP的用户占统计日活跃用户的比例。

周流失率(Week Churn Ratio)

定义:上周登录过APP,但是本周未登录过APP的用户占上周周活跃用户的比例。

月流失率(Month Churn Ratio)

定义:上月登录过APP,但是本月未登录过APP的用户占上月月活跃用户的比例。

Revenue获得收益

付费率(PR或者PUR)

活跃付费用户数(APA)

平均每用户收入(ARPU)

平均每付费用户收入(ARPPU)

生命周期价值(LTV)

Referral推荐传播

K因子

K=(每个用户向他的朋友们发出的邀请的数量)×(接收到邀请的人转化为新用户的转化率)。

【应用】

能够应用恰当分析方法解决业务问题

能够将数据处理分析技能融入到业务分析方法中,为数据驱动型业务管理提供正确、全面、客观的数据依据

PART 7 业务分析报告与数据可视化报表

总体要求

理解业务分析报告与数据可视化报表的制作方法、能够结合业务需求撰写正确的业务分析报告,能够结合业务需求创建全面的数据可视化报表

1、可视化分析图表

【领会】

业务图表与统计图表的区别

【熟知】

业务图表决策树

熟知比较类图表的使用方法

油量表圆环百分比进度图柱状图条状图雷达图树状图地图

熟知描述类图表的使用方法

直方图散点图箱型图气泡图关系图指标卡

熟知结构类图表的使用方法

饼图环形图南丁格尔玫瑰图堆积图百分比堆积图瀑布图

熟知序列类图表的使用方法

折线图面积图柱状图漏斗图

【应用】

能够根据数据特征及业务需求选择正确的业务类图表使用

能够通过图表展示内容理解业务问题

2、撰写业务分析报告

【领会】

业务分析报告作用

【熟知】

熟知业务分析报告撰写流程

熟知业务分析报告撰写注意事项

熟知业务分析报告设计方法

【应用】

能够根据业务需求选择正确的报告论点

能够根据报告论点搜集并展示充分、正确的数据依据

能够撰写合理严谨的分析报告,并提出有价值的分析建议

3、创建数据可视化报表

【领会】

数据可视化报表的作用

【熟知】

熟知数据可视化报表与业务分析报告的差异

熟知数据可视化报表的创建过程

熟知数据可视化报表的设计思路

熟知数据可视化报表的应用方法

【应用】

能够结合业务需求设计可落地的数据可视化报表内容

能够将抽象的业务需求转化为具象的数据维度与度量描述

能够制作可清晰、准确、全面地描述业务问题、展示业务全面场景的数据可视化报表

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。