新年,公司开始建设大数据中心项目,因此架构组需要对相关技术进行研究。原先对大数据相关技术已有耳闻,但是实际项目没用,很少去深入关注。这里先把一些技术的理解记一下:
1.hadoop 我的理解是一个大数据处理框架,包括了hdfs, hbase, yarn, hive, zookeeper等一堆技术,其中的处理算法是MapReduce.
2.hdfs 是海量分布式文件系统,一般hadoop批量任务都需要依赖hdfs上的资源文件。
3.hbase 一种KV数据库,跟redis相似,hbase以磁盘存储为主,redis以内存为主。
4.yarn 任务调度管理
5.mapreduce 是批处理算法,先把资源分成一个个map处理,然后通过reduce聚合汇总,实现集群处理。
6.hive mapreduce相当于低级的接口,比较难用.hive是让用户能够通过类似sql脚本,来调用mapreduce,相当于高级接口。如果做个比喻, mapreduce相当于汇编语言, hive相当于c语言。
7.zookeeper 任务协调系统
8.spark 是一个比较先进的大数据处理框架,因为hadoop的mapreduce性能比较慢,spark可以利用更少的资源实现更快的速度。
9.DAG 有向非闭合图,就是流程没有循环吧
10.RDD 弹性数据集,只能执行有限操作如join,group等的只读内存记录集。
11.shark 因为hive原先只支持hadoop, 所以shark是为了hive on spark。后来hive支持spark后停更。
12.hive on spark 支持spark的hive.
13.sparksql 因为shark是基于hive上改的,保留了大量hive的代码,在shark停更之后,重新开发了sparksql.
14.spark streaming 是spark的流处理框架。因为hadoop只能跑批,spark streaming则能实时计算,例如需要对一些业务进行实时预警。能够与spark技术栈无缝集成,其实是将实时数据按时间分割跑批,所以实时性只能达到秒级。要是早达到毫秒级,需要用其他技术。
15.storm 是大数据流处理框架。相比spark,实时性高,能达到毫秒级,吞吐量小,需要一条一条处理。
16.mesos 与yarn类似,也是资源调度管理器。
分享到:
相关推荐
云计算大数据学习笔记,让你深入学习云计算大数据学习技术。
大数据学习笔记 包含Hadoop Hbase kafka flume
BigData大数据学习笔记
大数据的学习笔记,从大数据的基本概念包括Hadoop、hive、离线计算、实时计算、数据库、数据仓库、维度建模、大规模并行处理MPP,到阿里大数据产品,包括MaxCompute、DataWorks、数据集成、机器学习PAI、AnalyticDB ...
《IT学习资料》--Java 大数据学习笔记. 《IT学习资料》--Java 大数据学习笔记. 《IT学习资料》--Java 大数据学习笔记.
小白大数据学习笔记
自己在大数据培训班学习整理的笔记,比较详细,适合新手学习,我感觉还是挺有帮助的,希望可以帮助到你
《java学习》-Java 大数据学习笔记.zip
文本详细分析了hadoop的基本构成和原理,hbase的基本原理和常用命令,hive的原理和常用命令等。
《IT学习资料3》--Java 大数据学习笔记.zip
《IT学习资料2》--Java 大数据学习笔记.zip
大数据学习笔记,学习路线,技术案例整理。.zip
这是本人部分大数据学习笔记,共享给需要学习的朋友。目前也在学习中,会一直增加和完善这个文档
本仓库包含Java学习笔记和大数据学习笔记,主要包含Java基础、JavaWEB、Java框架、大数据主要框架。主
大数据导论学习记录笔记
“大数据学习成长笔记知识全集”是一份为广大学习大数据技术的人士量身定制的宝贵资源。这份全集涵盖了大数据领域的各种重要知识点和实践经验,旨在帮助学习者系统地掌握大数据相关技术,并在实践中不断提升自己的...
阿里云大数据专业认证学习笔记 大数据计算服务考试内容讲解及笔记
一、Hadoop 二、Hive 三、Spark 四、Storm 五、Flink 六、HBase
该知识来源于MOOC林子雨老师的《大数据技术原理》,该笔记编写了大数据的发展、为什么需要大数据、大数据有什么用、大数据采用哪些组件等技术原理与知识,对于相关从业者、大学生,是一个梳理自身对大数据的理解的...
大数据技术学习笔记1