HDFS有哪些功能特性(hdfs具有哪些特性)
本文目录
云计算平台有哪些
云计算平台可以划分为3类:以数据存储为主的存储型云平台,以数据处理为主的计算型云平台以及计算和数据存储处理兼顾的综合云计算平台
云计算平台是云计算时代兵家争夺激烈的地方。
1.开源云计算平台
(1)AbiCloud(Abiquo公司)
AbiCloud是一款用于公司的开源的云计算平台,使公司能够以快速、简单和可扩展的方式创建和管理大型、复杂的IT基础设施(包括虚拟服务器、网络、应用、存储设备等)
(2)Hadoop(Apache基金会)
该计划是完全模仿Google体系架构做的一个开源项目,主要包括Map/Reduce和HDFS文件系统
(3)Eucalyptus项目(加利福尼亚大学)
创建了一个使企业能够使用它们内部IT资源(包括服务器、存储系统、网络设备)的开源界面,来建立能够和Amazon EC2兼容的云
(4)MongoDB(10gen)
MongoDB是一个高性能、开源、无模式的文档型数据库,它在许多场景下可用于替代传统的关系型数据库或键/值存储方式
(5)Enomalism弹性计算平台
它提供了一个功能类似于EC2的云计算框架。Enomalism基于Linux,同时支持Xen和Kernel Virtual Machine(KVM)。与其他纯IaaS解决方案不同的是,Enomalism提供了一个基于Turbo Gears Web应用程序框架和Python的软件栈
(6)Nimbus(网格中间件Globus)
Nimbus面向科学计算需求,通过一组开源工具来实现基础设施即服务(IaaS)的云计算解决方案
2.云计算平台厂商
(1)微软
技术特性:整合其所用软件及数据服务
核心技术:大型应用软件开发技术
企业服务:Azure平台
开发语言:.NET
(2)Google
技术特性:储存及运算水平扩充能力
核心技术:平行分散技术MapReduce,BigTable,GFS
企业服务:Google AppEngine,应用代管服务
开发语言:Python,Java
(3)IBM
技术特性:整合其所有软件及硬件服务
核心技术:网格技术,分布式存储,动态负载
企业服务:虚拟资源池提供,企业云计算整合方案
(4)Oracle
技术特性:软硬件弹性虚拟平台
核心技术:Orackle的数据存储技术,Sun开源技术
企业服务:EC2上的Oracle数据库,OracleVM,Sun xVM
(5)Amazon
技术特性:弹性虚拟平台
核心技术:虚拟化技术Xen
企业服务:EC2、S3,SimpleDB、SQS
开发语言:
(6)Saleforce
技术特性:弹性可定制商务软件
核心技术:应用平台整合技术
企业服务:Force.com
开发语言:Java,APEX
(7)EMC
技术特性:信息存储系统及虚拟化技术
核心技术:Vmware的虚拟化技术,一流存储技术
企业服务:Atoms云存储系统,私有云解决方案
(8)阿里巴巴
技术特性:弹性可定制商务软件
核心技术:应用平台整合技术
企业服务:软件互联平台,云电子商务平台
(9)中国移动
技术特性:坚实的网络技术丰富的带宽资源
核心技术:底层集群部署技术,资源池虚拟技术,网络相关技术
了解更多开源相关,去LUPA社区看看吧。
比Spark快10倍的Hadoop3.0有哪些实用新特性
1. Hadoop 3.0简介
Hadoop 2.0是基于JDK 1.7开发的,而JDK 1.7在2015年4月已停止更新,这直接迫使Hadoop社区基于JDK 1.8重新发布一个新的Hadoop版本,而这正是hadoop 3.0。
Hadoop 3.0的alpha版预计今年夏天发布,GA版本11月或12月发布。
Hadoop 3.0中引入了一些重要的功能和优化,包括HDFS可擦除编码、多Namenode支持、MR Native Task优化、YARN基于cgroup的内存和磁盘IO隔离、YARN container resizing等。
2. Hadoop 3.0新特性
Hadoop 3.0在功能和性能方面,对hadoop内核进行了多项重大改进,主要包括:
2.1 Hadoop Common
(1)精简Hadoop内核,包括剔除过期的API和实现,将默认组件实现替换成最高效的实现(比如将FileOutputCommitter缺省实现换为v2版本,废除hftp转由webhdfs替代,移除Hadoop子实现序列化库org.apache.hadoop.Records
(2)Classpath isolation以防止不同版本jar包冲突,比如google Guava在混合使用Hadoop、HBase和Spark时,很容易产生冲突。()
(3)Shell脚本重构。 Hadoop 3.0对Hadoop的管理脚本进行了重构,修复了大量bug,增加了新特性,支持动态命令等。
2.2 Hadoop HDFS
(1)HDFS支持数据的擦除编码,这使得HDFS在不降低可靠性的前提下,节省一半存储空间。()
(2)多NameNode支持,即支持一个集群中,一个active、多个standby namenode部署方式。注:多ResourceManager特性在hadoop 2.0中已经支持。()
2.3 Hadoop MapReduce
(1)Tasknative优化。为MapReduce增加了C/C++的map output collector实现(包括Spill,Sort和IFile等),通过作业级别参数调整就可切换到该实现上。对于shuffle密集型应用,其性能可提高约30%。()
(2)MapReduce内存参数自动推断。在Hadoop 2.0中,为MapReduce作业设置内存参数非常繁琐,涉及到两个参数:mapreduce.{map,reduce}.memory.mb和mapreduce.{map,reduce}.java.opts,一旦设置不合理,则会使得内存资源浪费严重,比如将前者设置为4096MB,但后者却是“-Xmx2g”,则剩余2g实际上无法让java heap使用到。()
2.4 Hadoop YARN
(1)基于cgroup的内存隔离和IO Disk隔离()
(2)用curator实现RM leader选举()
(3)containerresizing()
(4)Timelineserver next generation()
3. Hadoop3.0总结
Hadoop 3.0的alpha版预计今年夏天发布,GA版本11月或12月发布。
Hadoop 3.0中引入了一些重要的功能和优化,包括HDFS可擦除编码、多Namenode支持、MR Native Task优化、YARN基于cgroup的内存和磁盘IO隔离、YARN container resizing等。
hadoop有哪些版本
Hadoop有多个版本。
一、明确答案
Hadoop的版本包括Hadoop 1.x、Hadoop 2.x和Hadoop 3.x。
二、详细解释
Hadoop 1.x版本:这是Hadoop的初始版本,为早期的分布式计算提供了基础功能。这个版本主要以稳定性和可靠性为主,并引入了分布式文件系统HDFS。但是,它在处理大规模数据集时,效率和可扩展性有所限制。
Hadoop 2.x版本:该版本在Hadoop 1.x的基础上进行了大量的改进和优化。最显著的变化是引入了YARN(Yet Another Resource Negotiator)和HBase等组件。YARN提供了更好的资源管理和调度功能,使得Hadoop在处理大规模数据集时更加高效。此外,HBase作为一个分布式NoSQL数据库,为Hadoop提供了实时随机读写访问大规模数据集的能力。
Hadoop 3.x版本:这是Hadoop的最新版本,继续优化和改进性能,同时引入了新的特性和功能。这个版本关注于易用性和生态的现代化,提供了更好的API和工具,以及对多租户和数据安全的改进。此外,新的生态组件如云原生支持也为大数据领域带来了更多可能性。同时此版本在系统弹性和动态管理方面做了增强和改进以适应不同规模和类型的业务场景和需求。这个系列涵盖一系列的特定发行版本及它们的特性和应用功能(此处建议具体参考官网关于特定版本的功能描述和特性说明)。随着技术的不断进步和需求的不断升级,未来还将会有更多的新特性和新版本的发布。
以上就是对Hadoop主要版本的简要介绍。每个版本都有其特定的特性和改进点,以适应不同的应用场景和需求。具体使用哪个版本需要根据实际需求和场景来选择。
大数据核心技术有哪些
大数据技术的体系庞大且复杂,基础的技术包含数据的采集、数据预处理、分布式存储、数据库、数据仓库、机器学习、并行计算、可视化等。
1、数据采集与预处理:FlumeNG实时日志收集系统,支持在日志系统中定制各类数据发送方,用于收集数据;Zookeeper是一个分布式的,开放源码的分布式应用程序协调服务,提供数据同步服务。
2、数据存储:Hadoop作为一个开源的框架,专为离线和大规模数据分析而设计,HDFS作为其核心的存储引擎,已被广泛用于数据存储。HBase,是一个分布式的、面向列的开源数据库,可以认为是hdfs的封装,本质是数据存储、NoSQL数据库。
3、数据清洗:MapReduce作为Hadoop的查询引擎,用于大规模数据集的并行计算。
4、数据查询分析:Hive的核心工作就是把SQL语句翻译成MR程序,可以将结构化的数据映射为一张数据库表,并提供HQL(HiveSQL)查询功能。Spark启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
5、数据可视化:对接一些BI平台,将分析得到的数据进行可视化,用于指导决策服务。











