当前位置:首页 > 生活百科

hadoop上传文件命令(hadoop菜鸟教程)

栏目:生活百科日期:2025-02-26浏览:0

HDFS是一个文件系统,用于存储文件,通过统一的命名空间&–目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。

HDFS设计思想:分而治之:将大文件、大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析。?

在大数据系统中作用:为各类分布式运算框架(如:mapreduce,spark,tez,&….)提供数据存储服务?。

重点概念:文件切块,副本存放,元数据。

HDFS重要特性:

HDFS中的文件在物理上是分块存储(block),块的大小可以通过配置参数(dfs.blocksize)来规定,默认大小在hadoop2.x版本中是128M,老版本中是64M;HDFS文件系统会给客户端提供一个统一的抽象目录树,客户端通过路径来访问文件,形如:hdfs://namenode:port/dir-a/dir-b/file.data;目录结构及文件分块信息(元数据)的管理由namenode节点承担&—&—-namenode是HDFS集群主节点,负责维护整个hdfs文件系统的目录树,以及每一个路径(文件)所对应的block块信息(block的id。及所在的datanode服务器);文件的各个block的存储管理由datanode节点承担&—&—&—&–namenode是HDFS集群从节点,每一个block都可以在多个dataname上存储多个副本(副本数量也可以通过参数设置dfs.replication);

HDFS是设计成适应一次写入,多次读出的场景,且不支持文件的修改(注:适合用来做数据分析,并不适合用来做网盘应用,因为,不便修改,延迟大,网络开销大,成本太高)。

HDFS原理篇

工作机制:

工作机制的学习主要是为加深对分布式系统的理解,以及增强遇到各种问题时的分析解决能力,形成一定的集群运维能力。注:很多不是真正理解hadoop技术体系的人会常常觉得HDFS可用于网盘类应用,但实际并非如此。要想将技术准确用在恰当的地方,必须对技术有深刻的理解。

1 概述

HDFS集群分为两大角色:NameNode、DataNodeNameNode负责管理整个文件系统的元数据DataNode负责管理用户的文件数据块文件会按照固定的大小(blocksize)切成若干块后分布式存储在若干台datanode上每一个文件块可以有多个副本,并存放在不同的datanode上DataNode会==定期==向NameNode汇报自身所保存的文件block信息,而namenode则会负责保持文件的副本数量HDFS的内部工作机制对客户端保持透明,客户端请求访问HDFS都是通过向namenode申请来进行

2 HDFS写数据流程

客户端要向HDFS写数据,首先要跟namenode通信以确认可以写文件并获得接收文件block的datanode,然后客户端按顺序将文件逐个block传递给相应datanode,并由接收到block的datanode负责向其他datanode复制block的副本。

这里说明文件的切割是在客户端实现的,而不是NameNode。文件的传输也是由客户端传到指定datanode上,副本由datanode传给其他datanode。?

详细步骤(重要):

跟namenode通信请求上传文件,==namenode检查目前文件是否已存在,父目录是否存在==namenode返回是否可以上传client请求第一个block该传输到哪些datanode服务器上(副本)namenode返回3个datanode服务器ABC(假如副 本数为3。优先找同机架的,其次不同机架,再其次是同机架的再一台机器。还会根据服务器的容量,)client请求3台datanode中的一台A上传数据==(本质上是一个RPC调用,建立pipeline)==,A收到请求会继续调用B,然后B调用C,将整个pipeline建立完成,逐级返回客户端client开始往A上传第一个block(先从磁盘读取数据放到一个本地内存缓存),以packet为单位,A收到一个packet就会传给B,B传给C;A每传一个packet会放入一个应答队列等待应答。当一个block传输完成之后,client再次请求namenode上传第二个block的服务器。

3. HDFS读数据流程

概述:

客户端将要读取的文件路径发给namenode,namenode获取文件的元信息(主要是block的存放位置信息)返回给客户端,客户端根据返回的信息找到相应datanode逐个获取文件的block并在客户端进行数据追加合并从而获得整个文件。

详细步骤解析:

跟namenode通信查询元数据,找到文件块所在的datanoede服务器挑选一台datanode(就近原则,然后随机)服务器,请求建立socket流datanode开始发送数据(从磁盘里面读取数据放入流,以packet为单位来做校验)客户端以packet为单位接收,先在本地缓存,然后写入目标文件。?

NAMENODE工作机制

学习目标:理解namenode的工作机制尤其是元数据管理机制,以增强对HDFS工作原理的理解,及培养hadoop集群运营中&”性能调优&”、&”namenode&”故障问题的分析解决能力

职责:

NAMENODE职责:负责客户端请求的响应元数据的管理(查询、修改)元数据管理:
namenode对数据的管理采用了三种存储形式:内存元数据(NameSystem)磁盘元数据镜像文件(fsimage)数据操作日志文件(edits.xml)可通过日志运算出元数据

元数据存储机制(重要):

A、内存中有一份完整的元数据(内存meta data)

B、磁盘有一个&”准完整&”的元数据镜像(fsimage)文件(在namenode的工作目录中)

?C、用于衔接内存metadata和持久化元数据镜像fsimage之间的操作日志(edits文件)

注:当客户端对hdfs中的文件进行新增或者修改操作,操作记录首先被记入edits日志文件中,当客户端操作完成后,相应的元数据会更新到内存meta.data中。

元数据手动查看

可通过hdfs的一个工具来查看edits中的信息hdfs oev -i edits -o edits.xmlhdfs oiv -i fsimage_0000000087 -p XML -o fsimage.xml

inputfile: 要查看的fsimage文件

   outputfile:

用于保存格式化之后的文件 process: 使用什么进程解码,XML|Web|&…

?Datanode工作职责:

存储管理用户的文件块数据定期向namenode汇报自身所持有的block信息(通过心跳信息上报)(这点很重要,因为当集群发生某些block副本失效时,集群如何恢复block初始副本数量的

“hadoop上传文件命令(hadoop菜鸟教程)” 的相关文章

ipad键盘分开了怎么办(ipad键盘分割及合并设置)

短信已经成为人们沟通的最快捷方法之一,但有一些技巧和窍门可以使这个过程更快更方便。创建一些快捷键你可以快速的在字母中插入符号,以下是用iPhone手机发送短信的...

wps分页符怎么设置显示(自动显示分页符的方法)

我们在利用WPS表格与Excel表格进行日常办公时,经常需要打印各种各样的文档,当我们打印文档的时候,有时候会分第一页第二页打印,那么,我们如何在打印的过程当中...

天津网站推广哪家公司好(天津做seo排名需要多少钱)

自古以来,任何行业做生意关于流量客源的竞争就从来没有停止过,那么就形成了一个定律:流量=金钱!那么天津本地SEO优化公司,天津品牌网站建设公司中科互通来给你好好...

mac键盘全部失灵怎么办,苹果电脑键盘失灵解决办法

现在很多朋友都会选择苹果笔记本电脑,也就是MacBook,虽然运行速度不错,但是再好的笔记本电脑也难免会出现各种问题。苹果电脑键盘失灵怎么办?下面是小编给你带来...

patch补丁怎么用(patch补丁使用方法)

编译自:https://opensource.com/article/18/8/diffs-patches作者:PhilEstes译者:DavidChenLia...

paypal中国官网登录(paypal代充平台)

继2019年12月收购了国付宝的70%的股权之后,由马斯克创立,有“美版支付宝”之称的PayPal入华又有了新动作。公开资料显示,第三方支付机构国付宝信息科技有...

大学生兼职可以做什么 ,推荐8个正规的大学生兼职

虽然说距离大学开学还是有一段时间,但相信很多学生都已经有一种迫不及待想要进入大学看一看的想法了。考入大学可以说是很多高三考生的执念,当然真的结束了之后反而会有一...

增值业务费是什么,揭秘增值业务费背后隐藏的套路

时下,手机作为通讯工具已成为人们日常生活必不可少的一部分,而随着近几年来智能手机行业的飞速发展,手机资费问题也成为消费者投诉的主要内容。没经机主同意却开通了一些...

2020年办公电脑租赁哪家好(口碑最好的租赁公司)

联合办公是2019年办公租赁的第二大驱动力。尽管去年WeWork尝试IPO失败,联合办公行业仍然稳定增长。2020年,联合办公租赁的数量较去年而言将有所增加。C...

sem数据分析,sem常用的数据分析方法有哪些

数据分析在SEM中是最为基础的技能,说得简单点,数据分析就是为了发现问题,并为解决问题提供数据参考。有经验的SEMer都知道,尽信数据则不如无数据。数据就躺在哪...