什么是文件存储HDFS(什么是文件存储的最小单位)
本文目录
数据存储在OBS和HDFS有什么区别
据存储在OBS和HDFS有什么区别?
MRS集群处理的数据源来源于OBS或HDFS,HDFS是Hadoop分布式文件系统(Hadoop Distributed File System),OBS(Object Storage Service)即对象存储服务,是一个基于对象的海量存储服务,为客户提供海量、安全、高可靠、低成本的数据存储能力。MRS可以直接处理OBS中的数据,客户可以基于云管理平台Web界面和OBS客户端对数据进行浏览、管理和使用,同时可以通过REST API接口方式单独或集成到业务程序进行管理和访问数据。
数据存储在OBS:数据存储和计算分离,集群存储成本低,存储量不受限制,并且集群可以随时删除,但计算性能取决于OBS访问性能,相对HDFS有所下降,建议在数据计算不频繁场景下使用。
数据存储在HDFS:数据存储和计算不分离,集群成本较高,计算性能高,但存储量受磁盘空间限制,删除集群前需将数据导出保存,建议在数据计算频繁场景下使用。
HDFS的文件存储过程
在正式介绍HDFS小文件存储方案之前,我们先介绍一下当前HDFS上文件存取的基本流程。
(1)读文件流程
1)client端发送读文件请求给namenode,如果文件不存在,返回错误信息,否则,将该文件对应的block及其所在datanode位置发送给client
2) client收到文件位置信息后,与不同datanode建立socket连接并行获取数据。
(2)写文件流程
1) client端发送写文件请求,namenode检查文件是否存在,如果已存在,直接返回错误信息,否则,发送给client一些可用namenode节点
2) client将文件分块,并行存储到不同节点上datanode上,发送完成后,client同时发送信息给namenode和datanode
3) namenode收到的client信息后,发送确信信息给datanode
4) datanode同时收到namenode和datanode的确认信息后,提交写操作。
对象存储、文件存储和块存储有什么区别
区别如下:
1、速度不同
块存储:低延迟(10ms),热点突出;
文件存储:不同技术各有不同;
对象存储:100ms-1s,冷数据;
2、可分步性不同
块存储:异地不现实;
文件存储:可分布式,但有瓶颈;
对象存储:分步并发能力高;
3、文件大小不同
块存储:大小都可以,热点突出;
文件存储:适合大文件;
对象存储:适合各种大小;
4、接口不同
块存储:Driver,kernel module;
文件存储:POSIX;
对象存储:Restful API;
5、典型技术不同
块存储:SAN;
文件存储:HDFS,GFS;
对象存储:Swift,Amazon S3;
6、适合场景不同
块存储:银行;
文件存储:数据中心;
对象存储:网络媒体文件存储;
扩展资料:
文件存储的优缺点:
优点
(1)、造价低:随便一台机器就可以,另外普通的以太网就可以,根本不需要专用的SAN网络,所以造价低。
(2)、方便文件共享。
缺点
(1)、读写速率低,传输速率慢:以太网,上传下载速度较慢,另外所有读写都要1台服务器里面的硬盘来承受,相比起磁盘阵列动不动就十几上百块硬盘同时读写,速率慢了许多。
hdfs等分布式文件系统真的会存储数据吗
HDFS(Hadoop分布式文件系统)是一种分布式文件系统,它主要用于存储大量的数据,并提供高可靠性和高吞吐量的数据访问。因此,HDFS是能够真正存储数据的分布式文件系统。
与传统的文件系统相比,HDFS有如下优点:
容错性:HDFS可以自动修复硬件故障,并保证数据的完整性和安全性。
可扩展性:HDFS可以根据数据量的增长而扩展容量,并可以支持数千个节点。
数据并行处理:HDFS可以分割数据块并并行处理,提高数据处理速度。
总之,HDFS是真正的分布式文件系统,可以用于存储大量的数据,并提供高性能的数据访问。











