大数据时代读书笔记
【篇一:大数据时代读书笔记】
大数据时代
——
读书笔记
一、引论
1.
大数据时代的三个转变:
1.
可以分析更多的数据,处理和某个现象相关的所有数据,而不是
随机采样
2.
不热衷于精确度
3.
不热衷与寻找因果关系
2.
习惯:用来决策的信息必须是少量而精确的。实际:数据量变大,
数据处理速度变快,
数据不在精确
3.
危险:不是隐私的泄露而是未来行动的预判
二、大数据时代的思维变革
1.
原因:没有意识到处理大规模数据的能力,假设信息匮乏,发展
一些使用少量信息的技
术(随机采样)
1.1086
年
末日审判书
英国对人的记载
量关系不大
3.1890
年,穿孔卡片制表机,人口普查
4.
随机采样有固有的缺陷
1.
采样过程中存在偏差
2.
采样不适合考察子类别
3.
只能得出实现设计好的问题的结果
4.
忽视了细节考察
2.
全数据模式:样本
=
总体
1.
通过异常量判断信用卡诈骗
2.
大数据分析:不用随机抽样,而是采用所有数据。不是绝对意义
而是相对意义。
(
xroom
信用卡诈骗,日本相扑比赛)
3.
多样性的价值(社区外联系很多》社区内联系很多)
3.
混杂性而非精确性
1.
葡萄树温度测量:数据变多,虽然可能有错误数据,但总体而言
会更加精确。