700字范文,内容丰富有趣,生活中的好帮手!
700字范文 > 一个大数据架构师应该掌握的技能

一个大数据架构师应该掌握的技能

时间:2021-01-12 10:45:43

相关推荐

一个大数据架构师应该掌握的技能

硬能力

一:平台建设 1.行业平台 1)大平台 谷歌云亚马逊云阿里云腾讯云网易云华为云2)小平台 国云国双青云勤思3)专业工具平台 海致BDP永洪易观4)APP分析平台 mix panelgrowing IO神策诸葛 IO2.技术选型 1)CDH2)HDP+HDF3)MAPR4)Transwarp3.平台架构

1)HDP Core(平台核心也是Hadoop core)

HDFS(存储)MapReduce(批处理)Yarn(基础资源调度) 负责集群资源的统一管理和调度单节点资源管理和使用应用程序管理对任务运行环境的抽象支持运行长应用程序和短应用程序支持docker fpga期待更细粒度的资源控制对比MesosOozie(任务调度编排) 平台调度的基础保障hadoop 各种任务的使用与调度对比 Azkaban AirflowSlider(调度支持 新版已经集成yarn)

2)Enterpise Data Warehouse(企业数据仓库)

Pig(基础脚本服务) 用类sql语言保证mr执行顺畅pig latin 的执行环境Hive(数据仓库存储) 基础数据仓库(ods gdm dw app dim)基础ETL的运行实例OLAP的数据存储(kylin)各种数据的hive外表用于查询对比impalaDruid(adhoc方案 实时多维查询和分析) 已处理数十亿事件和TB级数据实时查询分析 高可用、高容错、高性能交互式聚合和快速探究大量数据为OLAP工作流的探索性分析而构建,支持各种过滤、聚合和查询对比 drill mdrill 等Tez(简化增强hive)Sqoop(数据导入导出工具)

3)Data sclence(数据科学)

Spark(内存通用并行计算) 推荐相关数据清洗特征抽取预测相关对比 flink stormflinkSpark sql(结构化数据处理)Spark streaming(spark流式处理)Zeppelin(界面分析挖掘工具) 基于R和python的单机界面使用工具(分析挖掘)基于spark kafka 的界面操作工具基于预测数据的使用与展现支持pandas numpy支持R支持hive hbase spark sparksql sparkstreaming支持keras matplotlib pysql

4)Operational data store(操作KV存储)

Hbase(kv数据存储)Phoenix(hbase 类sql查询)

5)Securlty governance(安全治理)

Knox(鉴权工具) 数据的权限鉴权通道平台跟外部的出入口Ranger(权限管理工具) 架构下各组件的权限管理记录操作日志到solrAtlas(元数据溯源与数据治理工具) 大数据平台下各种操作的元数据记录数据打标签(对于维度 指标 ETL等)可查询hive storm spark sqoop oozie nifi 元数据,可自定义实现自己的需要查看和维护的工具数据流转流程的图像化展现元数据操作记录与各种信息查询

6)Stream procressing(流式计算)

Storm(实时数据处理分析)Kafka(分布式发布订阅消息系统)Streaming Analytics Manager (流式数据处理界面工具) 拖放可视化设计,开发,部署和管理流式数据分析应用程序进行事件关联,上下文衔接,复杂模式匹配,分析聚合以及创建警报/通知MiNiFi(边缘数据处理) 数据产生的源头收集和处理数据通过实现边缘设备智能(edge intelligence)来调整数据流的双向通信可以数据溯源(Data Provenance)可以集中管理和下发Agentsjava agentc++ agent

7)Operations(平台运维工具)

Ambari(大数据平台管理工具)Ambari Metrics(监控平台各类服务及主机的运行情况)Ambari InfraZookeeper(基础分布式保证工具)Solr(搜索应用 操作日志存储)

8)Data operation platform(数据操作平台)

NiFi(数据 ETL 数据流处理) 日志清洗 业务数据入库基础数据(mysql binlog业务库 )ETL部分外部数据自定义数据接入方式自定义数据流程处理数据输出出口NiFi Registry(NiFi版本管理工具) NIFI的版本记录回溯NIFI Schema Registry 来统一文件定义(类配置中心)配合SwaggerAPI数据定义Hue(大数据交互界面平台)

9)Data visualization(数据可视化工具)

Superset(数据分析界面工具)FineBI(BI界面分析工具) 报表数据可视化部分OLAP分析Fine IndexFIne Direct现场数据实时展示(Cboard) 主用于数据导出Metabase 直接用来对接运营产品的数据交互工具支持问题模式,支持对数据进行标记对比 Saiku Tableau Qlikview自主研发 Echarts HighChartsinMapdatav

10)OnlineAnalytical processing(OLAP解决方案 adhoc)

Kylin(MOLAP方案)

维度间交叉分析构建过程基于hive集群不需要单独搭建数据存储于hbase集群,主要消耗磁盘

HAWQ(SQL on Hadoop)

符合ANSI SQL规范并且支持SQL 92、99、 OLAP包含关联子查询、窗口函数、汇总与数据库、广泛的标量函数与聚合函数的功能TPC-DS针对具有各种操作要求和复杂性的查询定义了99个模板(例如,点对点、报告、迭代、OLAP、数据挖掘等)HAWQ使用Apache Ambari作为管理和配置的基础

GreenPlum(MPP架构升级版PostgreSQL)学习资料

基于PostgreSQL采用两阶段提交和全局事务管理机制来保证集群上分布式事务的一致性建立在实例级别上的并行计算,可在一次SQL请求中利用到每个节点上的多个CPU CORE的计算能力解决大问题而设计的并行计算技术,而不是大量的小问题的高并发请求

PostgreSQL (单机ORDBMS)学习资料

天生就是为扩展而生的,可以在PG中用Python、C、Perl、TCL、PLSQL等来扩展强大 SQL 支持能力和非常丰富的统计函数和统计语法支持hash join、merge join、nestloop join的支持方面做的较好

Presto(MPP-SQL交互式查询引擎)

多数据源(Hive,Hbase,RDBMS)支持标准SQL 不支持UDF对表的连接以及 group by操作有比较严格的大小限制对集群结点的内存和CPU消耗较大

Elasticsearch

横向可扩展,高可用 分片机制单集群,索引缓存在内存中,单节点易造成内存溢出不支持复杂sql,无法实现关联统计分析

HashData(SQL on Cloud)

托管于云平台,用户不再需要为基础设施投资,不再需要调优运维,仅为您使用的计算资源买单分布式架构,根据负载快速扩充计算能力,实现高性能计算,满足用户交互式查询的需求。云数据仓库,针对云平台订制设计。利用云计算的优势,实现数据仓库的高可用、快速恢复、弹性扩容

ClickHouse 学习资料

实时数据更新关系型、支持SQL可以不依赖hadoop平台分布式并行计算,把单机性能压榨到极限列式存储数据库,数据压缩 Graph database(图数据库) 对比图Janus Graph(图数据库引擎) 图的序列化, 图的数据模型和高效的查询依赖hadoop来做图的统计和批量图操作为数据存储,索引和客户端访问实现了粗粒度的模块接口模块架构能和和许多存储,索引,客户端技术集成. 可以简便的扩展新的功能Dgraph(事务性的分布式图形数据库) 解决企业在数据库增长超过单个服务器时面临的一些问题而构建可扩展的,分布式的,低延迟的图数据库超过 TB 的结构数据里,为用户提供足够低延迟的实时查询Neo4j(NoSQL图数据库)ArangoDB(NoSQL数据库) 原生多模型数据库可以将逻辑功能加入V8的 js framework Foxx™中 并可以完全访问所有功能可扩展性,JOINS, 复杂事务处理4.资源申请 1)基准测试2)资源预估(基于业务存量与增量)3)理解各组件的CPU IO 内存 硬盘 带宽的特性4)硬件知识(RAID 存储加速 存储接口等 )5)瓶颈资源预判6)分阶段保障5.日常维护 1)bigdata devops2)权限授权3)瓶颈判断4)继续需求的二次开发5)组件版本关注与升级6)各种疑难杂症修复7)环境维护(正式 测试)6.技术调研 1)机器学习2)IOT相关3)边缘计算7.云平台化建设二:数据获取 1.公司内结构化数据 1)增量2)全量3)拉链4)binlog5)接口6)kafka需求对接2.小程序 1)支付宝小程序2)头条系小程序3)微信小程序3.公司内非结构化数据 1)日志 接口内部埋点 后端埋点方案无埋点方案url规约系统用户级别页面级别CMS块级别事件级别第三方埋点 GA百度友盟其他搜索2)视频3)图像4)excel5)文档4.外部数据(非公司IT支撑) 1)爬虫平台开发利用推进2)API对接3)销售使用的外部工具数据取回 启信宝企查查天眼查赤狐各种CRM4)运营使用的外部工具数据取回 广点通达摩盘知乎DSP今日头条系百度系微博营销工具个推腾讯信鸽各种统计平台......5.外部数据 1)数据报告 199IT(100+)艾瑞(100+)IT橘子国家互联网中心恒大研究院亿欧智库易观数据中国通信研究院腾讯数据实验室阿里研究中心2)商业合作 数据交换专项购买流量互补3)竞品数据 分析竞品列表 风险信息 商业环境正负面情绪新闻动态频率讨论度热点主题关联商家关联人物关联品牌爬虫获取商家 商品 评论等业务数据从一些公开平台获取统计数据4)行业数据 大盘数据行业动态数据5)统计数据 Similar web新榜6)数据资讯 智东西大数据导航三:数据价值 1.数据清洗 日志数据清洗(UDF SparkStreaming )业务数据清洗维度数据抽取NLP语义化图片识别等2.数据仓库 1)分层 Operational Data Store(ODS) 原始操作数据General Data Mart(GDM)清洗后通用数据Data WareHouse (DW)数据集市Dimension Data(DIM)维度数据2)规范 权限规范ETL规范调度规范3)ETL4)元数据(Atlas查看和标记) 业务元数据ETL元数据数据元数据3.统计报表 分类维度指标数据可视化4.商业智能 关键指标与转化 博弈分析法(找到博弈方,找到博弈方的冲突与矛盾)企业价值评估法(找到利益保持或者增长的关键点或者业务流程量化KPI)行业参考(标准行业的指标体系)保证少而精 结果导向 可衡量 一致性影响业务决策影响运营决策影响老板决策5.数据报告 抓重点业务或关键路径体系化叙述重点数据解释编写参考 玩转keynote6.业务赋能 用户画像推荐广告数据预警数据预测数据查询对运营支持的数据工具对业务销售支持的数据工具7.数据产品 2B 行业标准与数据共享垂直行业指数项目B端客户数据价值展示2C 结合产品规划推荐搜索风控舆情监测用户画像反作弊8.场景探索四:数据安全 1.企业数据分级 普通敏感机密绝密2.数据隐私保护 Personal Identifiable Information(PII级别)用户唯一标识(因公司而异)核心业务数据订单 优惠券 等(掩码)3.平台权限控制 数据导出权限控制账号跟踪与密钥更换数据使用申请4.数据流程规范 需求对接规范数据订正规范业务数据变更修正五:质量保障 1.平台与资源保障2.数据质量3.统一口径4.故障跟进

软实力

一:个人素质 1.体系化建设 1)快速了解一个体系 渠道 专业图书技术官网githubprocesson 里的推荐功能技术博客知乎体系报告网站(参考 数据获取-外部数据-数据报告)各种行业平台网站谷歌百度找朋友聊 加微信QQ群记录整理 找个工具记录 散漫的疯狂阅读与吸取最好用表格来划分横向维度和纵向维度消除杂音 刨除过程中一些过时的资料或者概念尽量找原版的设计与理解2)快速形成自己的理解 聚合分类排序深入3)系统计划4)修正策略5)投资视角看公司 商业模式 完整的产品、服务和信息流体系,不完全决定着盈利模式但是衡量盈利模式的基础简单易懂一句话说明白的模式就是好模式在产业上下游关系所处的位置定价权在哪里企业和客户关系的好坏盈利模式 探求企业利润来源、生产过程以及产出,对企业经营要素进行价值识别和管理 关注持续力团队 关注公司的团队架构,工作任务如何进行分工、分组和协调合作 。关注CXO 专一性创新性管理者优势用户来源 关注在特定的公司下他们是如何获客的,获客的效果与方法是否可以持续健康的保持优势现金流 公司对于内部价值的挖掘和在商业上的资金变现能力成本结构 成本结构决定因素成本产业优化变现能力路径依赖 公司内部对主营业务的依赖性,对于新业务拓展的阻碍。在快速调整方向时能动性的高低烧钱速度竞争对手 赛道内竞争对手的强弱与个数,竞争对手的资方背景。竞争对手对红海的竞争性与蓝海的开拓性(赛道)行业特性 垂直行业内的一些特殊关注点和可能发现的价值挖掘点,也是可能构建护城河的点价值流失 价值守护的能力,包括资产数据 用户,针对于流失的方法策略是否有意识和具体的动作护城河 抵御竞争者的保护措施 财务效率边际成本回报率品牌效应天花板 公司所在的行业是否已经进入饱和状态,是否供过于求 关注行业或者需求拐点关注小行业的大公司关注新旧势力平衡关系关注面对天花板公司采取的策略2.业务破局 1)了解业务 老板 高管 经理 投其所好 多渠道的了解老板画像试探数据价值的关注度换位思考 从他们的角度去考虑他们遇到的困难,不解和所做的决定不要被他们的思维固化(在其位谋其政)影响你对于数据价值的思考全面的体系 重要的分级 全面的体系化建设(基于对行业 业务 数据 的宽泛认知)永远要记住摸清主线按照重要程度(看势)做事情的分级观察对方的底线(长期)技术 产品 运营 技术体系初步印象 前端(ios android pc tv) 涉及到埋点日志事情后端(微服务 链路 数据库) 涉及到业务数据入库和日志收集掌握全局(局部)数据库 先全面后局部的感觉下数据库设计(如果有ER图提供最好)感觉下量级与增速深入了解产品的规划 找到契合点 不要越界数据价值为主 外层的展现为辅产品方向的数据价值多数来自C端 所以 推荐 广告 用户画像等为主 不同的行业考虑下特性应用(O2O IOT 新零售 AI的落地应用)拿出诚意才会得到配合 站在开发者角度去尽量减轻他们的负担日志与埋点的配合业务数据入库配合底层运维支持配合技术层面的分享带给别人更多理解相关技术的机会是否需要数据产品经理 涉及到产品规划和业务赋能的最好有数据产品对接关于数据报表分析的最好让数据分析人员进入对接一线销售 业务 财务 良好的沟通从兴趣开始数据价值来源于解决B端面临问题 是否能提供有价值的数据让业务跑得更快能否提供销售更直接的客户服务数据财务的事情佛系对待合适的机会跟他们一起开会,反复强调的内容里面就有重点和痛点多花时间研究他们的工作流程 流程最能体现价值(优化 提速 转化 效率)接触工作流程中可以更深刻的理解业务关键指标一定会有所提及(不懂找资料学习再沟通) 绕不过的钱 记录关键指标 自己先琢磨在找懂的人沟通遇到不分享的可以先想办法解决他的一些问题,无论大小,展现诚意。记住自己的目标2)分析痛点 将痛点归类(部门 角色 数据源 数据价值)归类后痛点间的关联关系找主线能解决的痛点才是痛点缩小范围解决头部需求反手解决次类需求3)专注行动 象限法(重要紧急四象限) 优先处理 重要且紧急 紧急不重要的阶段性的处理重要不紧急的(这种事情要记录在本本上)行动前的影响与价值预估 可能对其他部门或人造成的工作加重减轻与正负面影响行动能得到的可能价值(对需求方 相关人 团队 自己)可拆解的任务才能行动 行动计划保证在一个可控范围内(人员 时间 资源 )任务的串并行尝试人员维度的安排时间维度的安排行动中的修正与反馈 寻找一个反馈对象(最好是需求方)修正来源于对结果的不可控(保证损失最小)拿到结果一定要说话(不要当哑巴 付出得到回报天经地义) 打算说给谁听准备好PPT(参见玩转keynote)时间地点3.数据解读 考虑受众 想要说给谁听是重中之重了解对方的工作特性用类比方式的去阐述数据实事求是 轻易不下结论 全局意识局部业务专研分析思维小心求证,在给出数据前多做检验会看数据 维度-指标-特征-缺失-差值-聚合-分类-排序比率-中数-众数-方差-维度相关性多维度的去思考和验证寻找数据点(点) - 寻找主数据(线) - 串联数据的顺序关系(面)4.工具利用 1)时间管理工具 Omni FocusTyme22)快速记录工具 备忘录WikiMacdown3)扩展思维工具 MindNodeProcesson4)学习成长工具5.清醒复盘 1)复盘前的思考2)何时复盘3)避坑总结6.玩转keynote 1)确定主题与讲述思路 解决痛点模式突出主题模式流程讲解模式技术分享模式融资招商模式数据报告模式2)讲述靠说不靠堆叠 言简意赅归纳总结3)利用模板来快速制作和辅助思路 参考模板 Layouts for Keynote(App Store有售)PC6合集辅助思路 当有些思路阻碍可以看看模板上被人是如何处理和展现的运用模板的特殊元素来装扮自己的文案4)基础色调选取与排版建议 色调选择 运用模板的特殊元素来装扮自己的文案多用过度色 原则上整体别超过5个颜色可以用吸管 从浅入深或由深入浅波动选择黑白灰为常用过度配色分清极暖色 极冷色 暖色 冷色 微暖 微冷色彩的对比 平衡 混合 多练习排版建议 建议用“细黑”的字体,比如冬青黑体,华文雅黑,微软雅黑light等节奏感:尺寸大小,上下位移,旋转,间距,就是不能让文字之间稳当地排在一起巧用各种图形 可以更形象化的让人理解大纲最好列在每页的面包屑上巧用动画7.行业关注二:团队管理 1.遇见对的人2.人尽其才 组团队差异化重培养3.上通下达4.拒绝沉溺(不要给鱼)5.老司机别翻车 容忍与控制不要触碰底线没有什么是烧烤不能解决的 如果有那就两顿三:技术能力 1.编程2.算法3.数据仓库4.工程四:人生之路 1.平衡之道 规划VS变动 领导VS下属 个人VS团队 资源VS价值 家庭VS工作2.破除心魔 1)以结果导向 理论上个人感受会是结果导向的障碍结果是个大家相对一致的预期结果2)接受一家公司代表要融入一种文化 是否喜欢是个很重要的分水岭无论什么企业文化都会以结果为导向综合评定自己的容忍度3)敲碎or划清边界 阻碍目标的大多都是边界内自己要做或者推动的4)多维度的看待事情 不要再不同纬度观点下讨论事情,这样容易产生无谓的争执当一种角度理解不了某些人或事的时候那就切换下角度对一个事情或者一个人的评判一定不要单纯的一个角度下结论同样的维度之间切换自如有助于你讨喜5)信任之路且行且珍惜6)道德沦陷还是底线失守 改变自己,做自己认为恶心的事情是不是就是道德沦陷底线是一个恒久不变的还是一个根据自己的发展阶段 家人 事业 朋友动态调整的3.推荐书籍 1)技术类(不包含理论与技术框架) 《数学之美》《数据仓库工具箱:维度建模的完全指南》《美团机器学习实践》《数据挖掘与数据化运营实战 思路、方法、技巧与应用》2)业务类 《无印良品的改革》《增长黑客》《智联网》《浪潮之巅》《京东平台化数据运营》3)管理与心理学 《原则》《乌合之众》《说谎》《卓有成效的管理者》《九型人格》《影响力》

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。