700字范文,内容丰富有趣,生活中的好帮手!
700字范文 > 关于大数据技术的演讲_大数据技术应用趋势与当前大数据技术实践反思...

关于大数据技术的演讲_大数据技术应用趋势与当前大数据技术实践反思...

时间:2021-08-07 01:58:52

相关推荐

关于大数据技术的演讲_大数据技术应用趋势与当前大数据技术实践反思...

大数据技术应用的五个方向:数据资产管理、增强分析、智能化数据基础设施、面向AI的分布式框架、数据安全及服务。大多数企业已经运用起来,那么大数据技术应用趋势如何?

大数据技术应用趋势:混合计算、实时图计算、与区块链结合、基于AI的数据管理、边缘数据科学

当大数据和人工智能已成为企业数字化转型的核心方案,对于技术组合、组织管理和应用模式的要求变得越来越高。企业面临的挑战和难点不再是理解、建设数据基础设施,而是如何建立适应数字时代的数据型组织、如何通过数据资源积累实现业务价值。未来大数据技术发展的关键词是“融合”——通过多元化数据科学能力的组合,达到驱动业务创新的目标。

一、混合计算框架

随着应用场景的逐渐丰富,大数据计算引擎技术的发展正在逐年加快。企业在实践中,往往采用多种解决方案来处理复杂的数据业务问题。例如,对于历史数据的采集与汇总、数据仓库、业务报表等T+1离线数据加工场景,通常选择Hadoop、Spark的批处理计算引擎;对于实时推荐、营销、风控反欺诈等T+S级的实时数据,则可以采用Storm、Flink等流处理引擎。在一些刻画复杂关系网络、知识图谱的场景,则还需要Neo4j、Titan等图计算框架。

开源或商用化组件越来越丰富,多数企业目前都有多套引擎来适配不同业务场景。但混合计算架构带来的问题是,数据团队往往要维护多套计算集群和组件,缺少统一的平台框架来集成、管控、调度多种计算单元。此外,由于各种计算引擎不统一,在组织层面也会存在不同技术栈和数据体系割裂。例如,业务部门与科技部门搞两套或多套计算平台的情况并不鲜见。

近年来,一些领先的BigTech公司提出融合计算的概念,希望通过统一的分布式计算框架支持多种计算模式。融合计算模式在底层技术的设计上,不会绑定特定批处理、流计算还是图计算模型,而采用通用分布式核心调度层,提供统一调度、资源管理、灾难恢复等能力。例如,加州大学伯克利分校AMPLab的Ray分布式框架,作为通过核心框架实现对批量、流、图等不同计算模式的抽象。

未来企业大数据架构,批流融合、图流融合将会是一个大的趋势。一些开源组件如Flink、Kafka等已引入了批量计算与实时计算统一处理思路。这一理念对于设计复杂计算单元的统一监控与管理时具有重要意义。

二、实时图计算

图计算与图数据库已经在不少场景中得到应用,如知识图谱、关联关系刻画、资金行为分析、多重担保、欺诈行为预测等,多数场景多基于离线数据的图形化映射刻画实体之间的关系。随着5G时代的到来,企业面临高频、快速数据分析的场景会越来越多。大规模分布式图数据库和在线图计算引擎将成为支持高性能、低延迟的关系网络数据查询与分析的重要平台。

实时图计算提供了海量图数据存储之上的低延迟访问,并实现流计算和图计算的多模态处理能力。在这一模式下,分布式系统会对实时流数据进行不同链路的处理加工:一部分写入图数据库、基于内存之上构建图缓存;另一部分从图缓存中抽取图进行计算并将结果输出。

流计算+图计算的融合计算模式解决了传统离线图计算延迟的问题,在大数据环境下为构建知识图谱,实现实时风控、实时营销、异常担保等场景提供了解决方案,未来在金融、政府、零售等行业的应用将会变得更加普遍。

三、与区块链技术的结合

自高层开展学习区块链之后,这种由中本聪(Satoshi Nakamoto)提出、伴随加密货币出现的技术方案瞬间成为风口。以金融业为代表,全行业掀起了区块链技术的研究探索浪潮。在交易登记、结算、审计、供应链管理、可信存证、多方安全计算等领域,区块链应用已陆续落地,区块链技术也被誉为“数字时代的信用基础设施”。

本质上区块链与大数据都是一种数据存储架构,其基础设施均是从单一主从范式的体系结构转变为分布式模式。区别在于:大数据平台存储多元、异构、多种类型的数据,是解决大规模离线与在线数据统计、分析的技术方案;而区块链的主要特点是“共享写入”,结合了去中心化分布式账本和加密方法实现对可信数据的一致性访问。

大数据与区块链将会是未来企业构建企业数据基础设施的重要方向。其中,区块链技术作为存证、凭据、交易等场景数据的存储,自动校验提供数据一致、完整和准确性,形成区块链即服务(Blockchain-as-a-Service);而大数据集成、存储、计算与分析作为数据即服务的解决方案(Data-as-a-Service)。

支撑大数据与区块链的混合数据计算架构(Hybrid Data Architecture)既要体现弹性、冗余、安全、一致性和随时可用的数据访问,也需要满足联盟链或私有链对于非中心化设计、各结点独立保存全量副本的设计标准。

此外,基于区块链数据的处理、分析技术作为重要的基础服务,将会逐步市场化应用。例如,在监管科技应用中,区块链账户身份特征的识别、对区块链交易网络的画像、异常交易行为检测、洗钱与欺诈行为检测等将会是监管机构关注的重点。由于区块链的数据特征、存储模式与传统数据平台较大的差异,如何将区块链数据的分析型应用与可视化,将会是行业探索的重点方向。

四、基于AI的数据管理

随着企业数据资源的积累越来越丰富,对数据管理与治理的需求也变得更加强烈。从数据引入、汇集、存储、建模、元数据、质量、测试校验、发布等过程,需要大量的数据模型设计、研发、运维人员的参与,企业正寻求通过AI技术实现数据管理全链路的优化方案。

信息技术研究机构Gartner预测,在底之前,通过机器学习和和自动化服务管理技术,数据管理的手动任务将会减少45%。基于AI的数据管理(Gartner称之为“增强数据管理”)通过机器学习模型,结合研发与运维等操作过程中的元数据,自动化创建数据质量规则,提供问题精准定位、监控预警等能力,从而免去许多手动任务操作过程。

基于AI的数据管理已经在一些大型科技公司中得到应用,如数据研发链路的质量规则配置、针对计算任务的故障定位、异常操作行为识别等领域;而提供增强数据管理工具的技术提供商也将会逐渐增多。

五、边缘数据科学

5G时代已至,伴随物联网IoT技术的发展,企业面临设备、终端上的海量、多样数据越来越庞大。传统云端集中式的数据处理模式,由于大规模数据传输压力大、网络延迟等问题,已不再适应当前企业发展的需求。近些年兴起的边缘计算(Edge Computing),在数据源头边缘侧提供服务,数据不再上传至云端,成为一种实时、高性能数据处理解决方案。

边缘计算的丰富应用催生了边缘数据科学(Edge Data Science)——基于边缘设备形成的计算与存储平台,对终端产生的大批量、实时业务数据进行预处理、加工、分析与建模。边缘数据科学的重要意义在于它是实现边缘智能的必要条件。例如,边缘设备、终端中需要执行多种算法任务,如自然语言处理(NLP)、实时语音数据分析、视频与图像识别,对机器学习、深度学习、在线强化学习提出了较高的要求。随着AI芯片技术的突破,可在边缘设备上执行的轻量、实时、高性能算法框架(如Caffe)将会快速发展。

万物互联时代即将到来,如何加工处理边缘设备终端中产生的高频、海量的大规模数据是边缘数据科学探索的重要方向。此外,基于边缘设备的数据管理、分析与共享平台也将在更多的场景中得到规模化应用。

文章来源知乎

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。