700字范文,内容丰富有趣,生活中的好帮手!
700字范文 > spark大数据基础概念

spark大数据基础概念

时间:2022-09-23 03:47:34

相关推荐

spark大数据基础概念

Hive和Hbase是两种基于Hadoop的不同技术–Hive是一种类SQL的引擎,并且运行MapReduce任务,

Hbase是一种在Hadoop之上的NoSQL 的Key/vale数据库。

当然,这两种工具是可以同时使用的。就像用Google来搜索,用FaceBook进行社交一样,

Hive可以用来进行统计查询,HBase可以用来进行实时查询,数据也可以从Hive写到Hbase,设置再从Hbase写回Hive。

最后但不是最重要的–为了运行Hbase,Zookeeper是必须的,

zookeeper是一个用来进行分布式协调的服务,这些服务包括配置服务,维护元信息和命名空间服务。

1.hive适合处理离线的数据

2.hbase适合处理实时的数据的查询

Hive本身不存储和计算数据,它完全依赖于HDFS和MapReduce,Hive中的表纯逻辑。hive需要用到hdfs存储文件,需要用到MapReduce计算框架。

hive可以认为是map-reduce的一个包装。hive的意义就是把好写的hive的sql转换为复杂难写的map-reduce程序。

hbase可以认为是hdfs的一个包装。他的本质是数据存储,是个NoSql数据库;hbase部署于hdfs之上,并且克服了hdfs在随机读写方面的缺点。

下面这个链接非常重要:

/JDtech/p/5320408.html

可以看到spark+hbase

spark+hive优于spark+hbase(nosql)

/qq_41577045/article/details/79936353

这个链接中提到,元数据库可以是derby数据库也可以是mysql数据库

在有mysql的情况下,为什么要使用hive

/nxw_tsp/article/details/54314886

hive连接mysql相关参考链接:

/kinginme/p/7249533.html

/kinginme/p/7233315.html

/henni_719/article/details/52919795

非关系型数据库有以下这些:

mongoDB,redis,HBase

关系型的出名的有 sql server,oracle,mysql,postgresql,db2,sqlite ,

剩下的基本是NoSQL 新出的

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。