Hive和Hbase是两种基于Hadoop的不同技术–Hive是一种类SQL的引擎,并且运行MapReduce任务,
Hbase是一种在Hadoop之上的NoSQL 的Key/vale数据库。
当然,这两种工具是可以同时使用的。就像用Google来搜索,用FaceBook进行社交一样,
Hive可以用来进行统计查询,HBase可以用来进行实时查询,数据也可以从Hive写到Hbase,设置再从Hbase写回Hive。
最后但不是最重要的–为了运行Hbase,Zookeeper是必须的,
zookeeper是一个用来进行分布式协调的服务,这些服务包括配置服务,维护元信息和命名空间服务。
1.hive适合处理离线的数据
2.hbase适合处理实时的数据的查询
Hive本身不存储和计算数据,它完全依赖于HDFS和MapReduce,Hive中的表纯逻辑。hive需要用到hdfs存储文件,需要用到MapReduce计算框架。
hive可以认为是map-reduce的一个包装。hive的意义就是把好写的hive的sql转换为复杂难写的map-reduce程序。
hbase可以认为是hdfs的一个包装。他的本质是数据存储,是个NoSql数据库;hbase部署于hdfs之上,并且克服了hdfs在随机读写方面的缺点。
下面这个链接非常重要:
/JDtech/p/5320408.html
可以看到spark+hbase
spark+hive优于spark+hbase(nosql)
/qq_41577045/article/details/79936353
这个链接中提到,元数据库可以是derby数据库也可以是mysql数据库
在有mysql的情况下,为什么要使用hive
/nxw_tsp/article/details/54314886
hive连接mysql相关参考链接:
/kinginme/p/7249533.html
/kinginme/p/7233315.html
/henni_719/article/details/52919795
非关系型数据库有以下这些:
mongoDB,redis,HBase
关系型的出名的有 sql server,oracle,mysql,postgresql,db2,sqlite ,
剩下的基本是NoSQL 新出的