硬能力
一:平台建设 1.行业平台 1)大平台 谷歌云亚马逊云阿里云腾讯云网易云华为云2)小平台 国云国双青云勤思3)专业工具平台 海致BDP永洪易观4)APP分析平台 mix panelgrowing IO神策诸葛 IO2.技术选型 1)CDH2)HDP+HDF3)MAPR4)Transwarp3.平台架构1)HDP Core(平台核心也是Hadoop core)
HDFS(存储)MapReduce(批处理)Yarn(基础资源调度) 负责集群资源的统一管理和调度单节点资源管理和使用应用程序管理对任务运行环境的抽象支持运行长应用程序和短应用程序支持docker fpga期待更细粒度的资源控制对比MesosOozie(任务调度编排) 平台调度的基础保障hadoop 各种任务的使用与调度对比 Azkaban AirflowSlider(调度支持 新版已经集成yarn)
2)Enterpise Data Warehouse(企业数据仓库)
Pig(基础脚本服务) 用类sql语言保证mr执行顺畅pig latin 的执行环境Hive(数据仓库存储) 基础数据仓库(ods gdm dw app dim)基础ETL的运行实例OLAP的数据存储(kylin)各种数据的hive外表用于查询对比impalaDruid(adhoc方案 实时多维查询和分析) 已处理数十亿事件和TB级数据实时查询分析 高可用、高容错、高性能交互式聚合和快速探究大量数据为OLAP工作流的探索性分析而构建,支持各种过滤、聚合和查询对比 drill mdrill 等Tez(简化增强hive)Sqoop(数据导入导出工具)
3)Data sclence(数据科学)
Spark(内存通用并行计算) 推荐相关数据清洗特征抽取预测相关对比 flink stormflinkSpark sql(结构化数据处理)Spark streaming(spark流式处理)Zeppelin(界面分析挖掘工具) 基于R和python的单机界面使用工具(分析挖掘)基于spark kafka 的界面操作工具基于预测数据的使用与展现支持pandas numpy支持R支持hive hbase spark sparksql sparkstreaming支持keras matplotlib pysql
4)Operational data store(操作KV存储)
Hbase(kv数据存储)Phoenix(hbase 类sql查询)
5)Securlty governance(安全治理)
Knox(鉴权工具) 数据的权限鉴权通道平台跟外部的出入口Ranger(权限管理工具) 架构下各组件的权限管理记录操作日志到solrAtlas(元数据溯源与数据治理工具) 大数据平台下各种操作的元数据记录数据打标签(对于维度 指标 ETL等)可查询hive storm spark sqoop oozie nifi 元数据,可自定义实现自己的需要查看和维护的工具数据流转流程的图像化展现元数据操作记录与各种信息查询
6)Stream procressing(流式计算)
Storm(实时数据处理分析)Kafka(分布式发布订阅消息系统)Streaming Analytics Manager (流式数据处理界面工具) 拖放可视化设计,开发,部署和管理流式数据分析应用程序进行事件关联,上下文衔接,复杂模式匹配,分析聚合以及创建警报/通知MiNiFi(边缘数据处理) 数据产生的源头收集和处理数据通过实现边缘设备智能(edge intelligence)来调整数据流的双向通信可以数据溯源(Data Provenance)可以集中管理和下发Agentsjava agentc++ agent
7)Operations(平台运维工具)
Ambari(大数据平台管理工具)Ambari Metrics(监控平台各类服务及主机的运行情况)Ambari InfraZookeeper(基础分布式保证工具)Solr(搜索应用 操作日志存储)
8)Data operation platform(数据操作平台)
NiFi(数据 ETL 数据流处理) 日志清洗 业务数据入库基础数据(mysql binlog业务库 )ETL部分外部数据自定义数据接入方式自定义数据流程处理数据输出出口NiFi Registry(NiFi版本管理工具) NIFI的版本记录回溯NIFI Schema Registry 来统一文件定义(类配置中心)配合SwaggerAPI数据定义Hue(大数据交互界面平台)
9)Data visualization(数据可视化工具)
Superset(数据分析界面工具)FineBI(BI界面分析工具) 报表数据可视化部分OLAP分析Fine IndexFIne Direct现场数据实时展示(Cboard) 主用于数据导出Metabase 直接用来对接运营产品的数据交互工具支持问题模式,支持对数据进行标记对比 Saiku Tableau Qlikview自主研发 Echarts HighChartsinMapdatav
10)OnlineAnalytical processing(OLAP解决方案 adhoc)
Kylin(MOLAP方案)
维度间交叉分析构建过程基于hive集群不需要单独搭建数据存储于hbase集群,主要消耗磁盘
HAWQ(SQL on Hadoop)
符合ANSI SQL规范并且支持SQL 92、99、 OLAP包含关联子查询、窗口函数、汇总与数据库、广泛的标量函数与聚合函数的功能TPC-DS针对具有各种操作要求和复杂性的查询定义了99个模板(例如,点对点、报告、迭代、OLAP、数据挖掘等)HAWQ使用Apache Ambari作为管理和配置的基础
GreenPlum(MPP架构升级版PostgreSQL)学习资料
基于PostgreSQL采用两阶段提交和全局事务管理机制来保证集群上分布式事务的一致性建立在实例级别上的并行计算,可在一次SQL请求中利用到每个节点上的多个CPU CORE的计算能力解决大问题而设计的并行计算技术,而不是大量的小问题的高并发请求
PostgreSQL (单机ORDBMS)学习资料
天生就是为扩展而生的,可以在PG中用Python、C、Perl、TCL、PLSQL等来扩展强大 SQL 支持能力和非常丰富的统计函数和统计语法支持hash join、merge join、nestloop join的支持方面做的较好
Presto(MPP-SQL交互式查询引擎)
多数据源(Hive,Hbase,RDBMS)支持标准SQL 不支持UDF对表的连接以及 group by操作有比较严格的大小限制对集群结点的内存和CPU消耗较大
Elasticsearch
横向可扩展,高可用 分片机制单集群,索引缓存在内存中,单节点易造成内存溢出不支持复杂sql,无法实现关联统计分析
HashData(SQL on Cloud)
托管于云平台,用户不再需要为基础设施投资,不再需要调优运维,仅为您使用的计算资源买单分布式架构,根据负载快速扩充计算能力,实现高性能计算,满足用户交互式查询的需求。云数据仓库,针对云平台订制设计。利用云计算的优势,实现数据仓库的高可用、快速恢复、弹性扩容
ClickHouse 学习资料
实时数据更新关系型、支持SQL可以不依赖hadoop平台分布式并行计算,把单机性能压榨到极限列式存储数据库,数据压缩 Graph database(图数据库) 对比图Janus Graph(图数据库引擎) 图的序列化, 图的数据模型和高效的查询依赖hadoop来做图的统计和批量图操作为数据存储,索引和客户端访问实现了粗粒度的模块接口模块架构能和和许多存储,索引,客户端技术集成. 可以简便的扩展新的功能Dgraph(事务性的分布式图形数据库) 解决企业在数据库增长超过单个服务器时面临的一些问题而构建可扩展的,分布式的,低延迟的图数据库超过 TB 的结构数据里,为用户提供足够低延迟的实时查询Neo4j(NoSQL图数据库)ArangoDB(NoSQL数据库) 原生多模型数据库可以将逻辑功能加入V8的 js framework Foxx™中 并可以完全访问所有功能可扩展性,JOINS, 复杂事务处理4.资源申请 1)基准测试2)资源预估(基于业务存量与增量)3)理解各组件的CPU IO 内存 硬盘 带宽的特性4)硬件知识(RAID 存储加速 存储接口等 )5)瓶颈资源预判6)分阶段保障5.日常维护 1)bigdata devops2)权限授权3)瓶颈判断4)继续需求的二次开发5)组件版本关注与升级6)各种疑难杂症修复7)环境维护(正式 测试)6.技术调研 1)机器学习2)IOT相关3)边缘计算7.云平台化建设二:数据获取 1.公司内结构化数据 1)增量2)全量3)拉链4)binlog5)接口6)kafka需求对接2.小程序 1)支付宝小程序2)头条系小程序3)微信小程序3.公司内非结构化数据 1)日志 接口内部埋点 后端埋点方案无埋点方案url规约系统用户级别页面级别CMS块级别事件级别第三方埋点 GA百度友盟其他搜索2)视频3)图像4)excel5)文档4.外部数据(非公司IT支撑) 1)爬虫平台开发利用推进2)API对接3)销售使用的外部工具数据取回 启信宝企查查天眼查赤狐各种CRM4)运营使用的外部工具数据取回 广点通达摩盘知乎DSP今日头条系百度系微博营销工具个推腾讯信鸽各种统计平台......5.外部数据 1)数据报告 199IT(100+)艾瑞(100+)IT橘子国家互联网中心恒大研究院亿欧智库易观数据中国通信研究院腾讯数据实验室阿里研究中心2)商业合作 数据交换专项购买流量互补3)竞品数据 分析竞品列表 风险信息 商业环境正负面情绪新闻动态频率讨论度热点主题关联商家关联人物关联品牌爬虫获取商家 商品 评论等业务数据从一些公开平台获取统计数据4)行业数据 大盘数据行业动态数据5)统计数据 Similar web新榜6)数据资讯 智东西大数据导航三:数据价值 1.数据清洗 日志数据清洗(UDF SparkStreaming )业务数据清洗维度数据抽取NLP语义化图片识别等2.数据仓库 1)分层 Operational Data Store(ODS) 原始操作数据General Data Mart(GDM)清洗后通用数据Data WareHouse (DW)数据集市Dimension Data(DIM)维度数据2)规范 权限规范ETL规范调度规范3)ETL4)元数据(Atlas查看和标记) 业务元数据ETL元数据数据元数据3.统计报表 分类维度指标数据可视化4.商业智能 关键指标与转化 博弈分析法(找到博弈方,找到博弈方的冲突与矛盾)企业价值评估法(找到利益保持或者增长的关键点或者业务流程量化KPI)行业参考(标准行业的指标体系)保证少而精 结果导向 可衡量 一致性影响业务决策影响运营决策影响老板决策5.数据报告 抓重点业务或关键路径体系化叙述重点数据解释编写参考 玩转keynote6.业务赋能 用户画像推荐广告数据预警数据预测数据查询对运营支持的数据工具对业务销售支持的数据工具7.数据产品 2B 行业标准与数据共享垂直行业指数项目B端客户数据价值展示2C 结合产品规划推荐搜索风控舆情监测用户画像反作弊8.场景探索四:数据安全 1.企业数据分级 普通敏感机密绝密2.数据隐私保护 Personal Identifiable Information(PII级别)用户唯一标识(因公司而异)核心业务数据订单 优惠券 等(掩码)3.平台权限控制 数据导出权限控制账号跟踪与密钥更换数据使用申请4.数据流程规范 需求对接规范数据订正规范业务数据变更修正五:质量保障 1.平台与资源保障2.数据质量3.统一口径4.故障跟进