hadoop零散笔记-创新互联

查找有没有这个软件通过管道查询:sudo apt-cache search ssh | grep ssh

站在用户的角度思考问题,与客户深入沟通,找到邵武网站设计与邵武网站推广的解决方案,凭借多年的经验,让设计与互联网技术结合,创造个性化、用户体验好的作品,建站类型包括:成都网站制作、网站设计、企业官网、英文网站、手机端网站、网站推广、空间域名、网页空间、企业邮箱。业务覆盖邵武地区。

安装的话:sudo apt-get install xxxxx

安装ssh后要生成一个文件即执行:ssh-keygen -t rsa -P "" -f ~/.ssh/id_rsa

最后在soft/haoop/etc/hadoop目录下的三个文件中执行core-site.xml、hdfs-site.xml、mapred-site.xml中配置

-----------------------------------------------------

查看端口:netstat -lnpt netstat 或netstat -plut 。查看所有的端口:netstat -ano

--------------------------------------------------------------

把文件放到哪里用 hadoop fs -put xxxx /xxxx/xxxxx/xxx

往上面集群上放文件:hadoop --config /soft/hadoop/etc/hadoop_cluster fs -put /home/ubuntu/hell.txt /user/ubuntu/data/

在集群上下载文件是:hadoop --config /soft/hadoop/etc/hadoop_cluster fs -get /user/ubuntu/data/hello.txt bb.txt

查看文件的健康情况:hdfs --config /soft/hadoop/etc/hadoop/etc/hadoop_cluster fsck /user/ubuntu/data/hello.txt

通过scp远程复制 :scp -r /xxx/x

格式化文件系统:hdfs --config /soft/hadoop/etc/hadoop_cluster namenode -format

touch 是建一个文本文件

从一个虚拟机登录到另个虚拟机ssh s2 ,如果是ssh s2 ls ~ 的话就是显示一列列是的样子 。如果执行

ssh s2 ls ~ | xargs 是显示一横的内容

查看集群状况:hadoop --config /soft/hadoop/etc/hadoop_cluster fs -lsr /

把文件放到集群上面就是hadoop --config /soft/hadoop/etc/hadoop_cluster fs -put xxxxx  后面是加所放的路径位置

查看进程 ssh s2 jps  。ps -Af 也是查看进程  。杀死进程是kill -9 后面加进程的端口号

su root 根用户

--------------------------------------------------

HDFS概念:namenode & datanode

namenode:镜像文件+编辑日志,存放于本地磁盘,以及数据节点信息,不含block信息。block信息在cluster启动时由datanode重建

datanode:work节点,存储检索block定期向namenode发送block list

在usr/local/sbin下切换到su root 用户下建脚本,编写你想要的执行脚本

修改blocksize大小 ,默认是128m

它在[hdfs-site.xml]

dfs.blocksize = 8m  设置块大小是8M

1、测试方式 :put 文件  > 8m, 通过webui查看块大小

---------------------------------------------------------

hadoop:可靠、可伸缩、分布式的计算框架,开源软件

四大模块:1、common ----hadoop-commom-xxx.jar

 2、hdfs

     3、mapreduce

 4、yarn

hadoop完全分布式:

1、hdfs --->NameNode、Datanode、SecondaryNode(辅助名称节点)

2、Yarn---->ResourceManager(资源管理器)、NodeManager(节点管理器)

---------------------------------------------------

配置静态ip进入etc的network里面下编辑sudo nano interfaces:

# This file describes the network interfaces available on your system

# and how to activate them. For more information, see interfaces(5).

# The loopback network interface

auto lo

iface lo inet loopback

# The primary network interface

auto eth0

iface eth0 inet dhcp

iface eth0 inet static(设置为静态的ip)

address 192.168.92.148(客户机的ip)

netmask:255.255.255.0(客户机的)

gateway 192.168.92.2 (NAT网关地址)

dns-nameservers 192.168.92.2

最后是重启网卡:sudo /etc/init.d/networking restart

-------------------------------------------------

客户机关机命令:

1、sudo poweroff

2、sudo shutdown -h o

3、sudo halt

------------------------------

配置文本模式

进入到/boot/grub里面查看一下

再进入cd /etc/default里面执行gedit grub

在#GRUB_CMDLINE_LINUX_DEFAULT="quiet"的下面编写GRUB_CMDLINE_LINUX_DEFAULT="text"

在# Uncomment to disable graphical terminal (grub-pc only)下面编写:

GRUB_TERMINAL=console //打开注释

改后执行sudo update-grub最后执行重启sudo reboot

-----------------------------------------

启动所有的数据节点:

hadoop-daemons.sh start namenode //在名称节点服务器上执行启动名称节点

hadoop-daemons.sh start datanode //在指定的datanode上执行,启动所有的数据节点

hadoop-daemon.sh start secondsrynamenode //启动辅助名称节点

-------------------------------------------------------

hdfs getconf 能查看到节点配置信息。比如hdfs getconf -namenode 可以知道是在s1客户机上运行

-----------------------------------------------------------------

四大模块:

1、common

hadoop-coommon-xxx.jar

core-site.xml

core-default.xml

2、hdfs

hdfs-site.xml

hdfs-defailt.xml

3、mapreduce

mapre-site.xml

mapred-default.xml

4、yarn

yarn-site.xml

yarn-default.xml

----------------------------------

常用的端口:

1、namenode   rpc  //8020  webui  //50070

2、datanode   rpc  //8032  webui  //50075

3、2nn     webui  //50090

4、historyServer webui  //19888

5、resourcmanager webui//8088

--------------------------------------

dfs.hosts:决定能够连接namenode

dfs.hosts.exclude:决定不能连接namenode

dfs.hosts      dfs.hosts.exclude

---------------------------------------------

0 0 //不能连接

0 1 //不能连

1 0 //能连

1 1 //能连会退役

---------------------------------------------

安全模式

1、namenode启动时,合并p_w_picpath和edit成新的p_w_picpath,并产生新的edit log

2、整个智能safe模式下,客户端只能读取

3、查看nameode是否位于安全模式

hdfs dfsadmin -safemode get   //查看安全模式

hdfs dfsadmin -safemode enter   //进入安全模式

hdfs dfsadmin -safemode leave   //离开安全模式

hdfs dfsadmin -safemode wait   //等待安全模式

4、手动保存名字空间:dfsadmin -saveNamespace

5、手动保存镜像文件:hdfs dfsadmin -fetchImage

6、保存元数据:(保存在hadoop_home下即:hadoop /logs/下)hdfs dfsadmin -metasave xxx.dsds

7、start-balancer.sh :启动均衡器,目的让集群数据存储上更加平均,提高整个集群的性能(一般我们在增加节点的情况下才启动均衡器)

8、hadoop fs -count统计目录

--------------------------------------------------

Hadoop Snapshot快照:就是把当前的情况拍照保存起来。一般目录默认的情况是不能创建快照的。必须执行hdfs dfsadmin -allowSnapshot /user/ubuntu/data。允许创建快照,后面跟的是你想创建快照的地址路径。在这里允许创建快照后我们就可以执行hadoop fs -createSnapshot /user/ubuntu/data snap-1创建快照了。snap-1是你创建快照名。查看快照的话直接hadoop fs -ls -R /user/ubuntu/data/.snapshot/。还有你在创建快照的情况下是不能禁用快照的

1、创建快照hadoop fs [-createSnapshot []]

2、删除快照hadoop fs [-deleteSnapshot ]

3、重命名快照hadoop fs [-renameSnappshot ]

4、允许目录快照hadoop dfsadmin [-allowSnapshot ]

5、禁用目录快照hadoop dfsamdin[-disallowSnapshot]

------------------------------------------

回收站

1、默认是0秒,意味着禁用回收站

2、设置文件回收站的驻留时间[corep-site.xml] fs.trash.interval=1  //分钟数计算

3、通过shell命令删除的文件,会进入trash

4、每个用户都有自己的回收站(目录) 即:/user/ubuntu/.Trash

5、编程方式删除不进入回收站,立即删除,可以调用。moveToTrash()方法,返回false,说明禁用回收站或者已经在站中

回收站:hadoop默认的回收站是关闭的,时间单位:分钟对应当前用户文件夹的.Trash目录。rm时会将文件移动到该目录下

[core-site.xml]

  fs.trash.interval

  30

回收站:恢复文件。将.Trash目录的文件移动出即可:hadoop fs -mv /user/ubuntu/.Trash/xx/x/x data/

清空回收站:hadoop fs -expunge

测试删除回收站:hadoop fs -rm -R /user/ubuntu/.Trash

-----------------------------------

配额:quota

1、目录配额:hdfs dfsadmin -setQuota N /dir //N > 0 ,目录配额。1:表示空目录,不能放置任何元素

2、空间配额 :hdfs dfsadmin -setSpaceQuota

hadoop fs === hdfs dfs //文件系统的操作命令

-clsSpaceQuota //清除空间配额

-clsQuota //清除目录配额

---------------------------------------------------

oiv可以查看镜像文件内容 -i是输入文件 -o是输出文件。XML是处理器

具体操作:hdfs oiv -i fsp_w_picpath_000000000000000054 -o ~/a.xml -p XML

查看edit_xxx编辑日志文件:hdfs oev -i xxx_edit -o xxx.xml -p XML

镜像文件是不是在/hadoop/dfs/name/current 这里?

cat: fsp_w_picpath_0000000000000054

bg %是让软件在后台运行

-----------------------------------------------------------

刷新节点:hdfs dfsadmin -refreshNodes

-----------------------------------------

另外有需要云服务器可以了解下创新互联scvps.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。


网页名称:hadoop零散笔记-创新互联
文章出自:http://csdahua.cn/article/dppodd.html
扫二维码与项目经理沟通

我们在微信上24小时期待你的声音

解答本文疑问/技术咨询/运营咨询/技术建议/互联网交流