700字范文 > spark大数据基础概念

spark大数据基础概念

时间：2022-09-23 03:47:34

相关推荐

spark大数据基础概念

Hive和Hbase是两种基于Hadoop的不同技术–Hive是一种类SQL的引擎，并且运行MapReduce任务，

Hbase是一种在Hadoop之上的NoSQL 的Key/vale数据库。

当然，这两种工具是可以同时使用的。就像用Google来搜索，用FaceBook进行社交一样，

Hive可以用来进行统计查询，HBase可以用来进行实时查询，数据也可以从Hive写到Hbase，设置再从Hbase写回Hive。

最后但不是最重要的–为了运行Hbase，Zookeeper是必须的，

zookeeper是一个用来进行分布式协调的服务，这些服务包括配置服务，维护元信息和命名空间服务。

1.hive适合处理离线的数据

2.hbase适合处理实时的数据的查询

Hive本身不存储和计算数据，它完全依赖于HDFS和MapReduce，Hive中的表纯逻辑。hive需要用到hdfs存储文件，需要用到MapReduce计算框架。

hive可以认为是map-reduce的一个包装。hive的意义就是把好写的hive的sql转换为复杂难写的map-reduce程序。

hbase可以认为是hdfs的一个包装。他的本质是数据存储，是个NoSql数据库；hbase部署于hdfs之上，并且克服了hdfs在随机读写方面的缺点。

下面这个链接非常重要：

/JDtech/p/5320408.html

可以看到spark＋hbase

spark＋hive优于spark+hbase(nosql)

/qq_41577045/article/details/79936353

这个链接中提到，元数据库可以是derby数据库也可以是mysql数据库

在有mysql的情况下，为什么要使用hive

/nxw_tsp/article/details/54314886

hive连接mysql相关参考链接：

/kinginme/p/7249533.html

/kinginme/p/7233315.html

/henni_719/article/details/52919795

非关系型数据库有以下这些：

mongoDB，redis，HBase

关系型的出名的有 sql server，oracle，mysql，postgresql，db2，sqlite ，

剩下的基本是NoSQL 新出的

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。