Hadoop调试源代码-创新互联

本节介绍两种调试Hadoop源代码的方法:利用Eclipse远程调试工具和打印调试日志。这两种方法均可以调试伪分布式工作模式和完全分布式工作模式下的Hadoop。本节主要介绍伪分布式工作模式下的Hadoop调试方法。

公司主营业务:网站建设、成都网站制作、移动网站开发等业务。帮助企业客户真正实现互联网宣传,提高企业的竞争能力。创新互联是一支青春激扬、勤奋敬业、活力青春激扬、勤奋敬业、活力澎湃、和谐高效的团队。公司秉承以“开放、自由、严谨、自律”为核心的企业文化,感谢他们对我们的高要求,感谢他们从不同领域给我们带来的挑战,让我们激情的团队有机会用头脑与智慧不断的给客户带来惊喜。创新互联推出临城免费做网站回馈大家。

(1)利用Eclipse进行远程调试

下面以调试ResourceManager为例,介绍利用Eclipse远程调试的基本方法,这可分两步进行。

步骤1 调试模式下启动Hadoop。

在Hadoop安装目录下运行如下的Shell脚本:

export YARN_NODEMANAGER_OPTS="-Xdebug -Xrunjdwp:transport=dt_socket,address=8788, server=y,suspend=y"

sbin/start-all.sh

运行了脚本后会看到Shell命令行终端显示如下信息:

Listening for transport dt_socket at address: 8788

此时表明ResourceManager处于监听状态,直到收到debug确认信息。

步骤2 设置断点。

在前面新建的Java工程“hadoop-2.0”中,找到ResourceManager相关代码,并在感兴趣的地方设置一些断点。

步骤3 在Eclipse中调试Hadoop程序。

在Eclipse的菜单栏中,依次选择 “Run”→“Debug Configurations”→“Remote Java Applications”,并按照要求填写远程调试器名称(自己定义一个即可),ResourceManager所在host以及监听端口号等信息,并选择Hadoop源代码工程,便可进入调试模式。

调试过程中,ResourceManager输出的信息被存储到日志文件夹下的yarn-XXX-resourcemanager-localhost.log文件(XXX为当前用户名)中,可通过以下命令查看调试过程中打印的日志:

tail -f logs/yarn-XXX-resourcemanager-localhost.log

(2)打印Hadoop调试日志

Hadoop使用了Apache log4j作为基本日志库,该日志库将日志分别5个级别,分别为DEBUG、INFO、WARN、ERROR和FATAL。这5个级别是有顺序的,即DEBUG < INFO < WARN < ERROR < FATAL,分别用来指定日志信息的重要程度。日志输出规则为:只输出级别不低于设定级别的日志信息,比如若级别设定为INFO,则INFO、WARN、ERROR和FATAL级别的日志信息都会输出,但级别比INFO低的DEBUG则不会输出。

在Hadoop源代码中,大部分Java文件中存在调试日志(DEBUG级别日志),但默认情况下,日志级别是INFO,为了查看更详细的运行状态,可采用以下几种方法打开DEBUG日志。

方法1 使用Hadoop Shell命令。

可使用Hadoop脚本中的daemonlog命令查看和修改某个类的日志级别,比如,可通过以下命令查看NodeManager类的日志级别:

bin/hadoop daemonlog -getlevel ${nodemanager-host}:8042 \

org.apache.hadoop.yarn.server.nodemanager.NodeManager

可通过以下命令将NodeManager类的日志级别修改为DEBUG:

bin/hadoop daemonlog -setlevel ${nodemanager-host}:8042 \

org.apache.hadoop.yarn.server.nodemanager.NodeManager DEBUG

其中,nodemanager-host为NodeManager服务所在的host,8042是NodeManager的HTTP端口号。

方法2 通过Web界面。

用户可以通过Web界面查看和修改某个类的日志级别,比如,可通过以下URL修改NodeManager类的日志级别:

http://${nodemanager-host}:8042/logLevel

方法3 修改log4j.properties文件。

以上两种方式只能暂时修改日志级别,当Hadoop重启后会被重置,如果要永久性改变日志级别,可在目标节点配置目录下的log4j.properties文件中添加以下配置选项:

log4j.logger.org.apache.hadoop.yarn.server.nodemanager.NodeManager=DEBUG

此外,有时为了专门调试某个Java文件,需要把该文件的相关日志输出到一个单独文件中,可在log4j.properties中添加以下内容:

#定义输出方式为自定义的TTOUT

log4j.logger. org.apache.hadoop.yarn.server.nodemanager.NodeManager=DEBUG,TTOUT

#设置TTOUT的输出方式为输出到文件

log4j.appender.TTOUT =org.apache.log4j.FileAppender

#设置文件路径

log4j.appender.TTOUT.File=${hadoop.log.dir}/NodeManager.log

#设置文件的布局

log4j.appender.TTOUT.layout=org.apache.log4j.PatternLayout

#设置文件的格式

log4j.appender.TTOUT.layout.ConversionPattern=%d{ISO8601} %p %c: %m%n

这些配置选项会把NodeManager.java中的DEBUG日志写到日志目录下的NodeManager.log文件中。

在阅读源代码的过程中,为了跟踪某个变量值的变化,读者可能需要自己添加一些DEBUG日志。在Hadoop源代码中,大部分类会定义一个日志打印对象,通过该对象可打印各个级别的日志。比如,在NodeManager中用以下代码定义对象LOG:

public static final Log LOG = LogFactory.getLog(NodeManager.class);

用户可使用LOG对象打印调试日志。比如,可在NodeManager的main函数首行添加以下代码:

LOG.debug("Start to lauch NodeManager...");

然后重新编译Hadoop源代码,并将org.apache.hadoop.yarn.server.nodemanager.NodeManager的调试级别修改为DEBUG,重新启动Hadoop后便可以看到该调试信息。

另外有需要云服务器可以了解下创新互联scvps.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。


文章标题:Hadoop调试源代码-创新互联
当前路径:http://csdahua.cn/article/dighpg.html
扫二维码与项目经理沟通

我们在微信上24小时期待你的声音

解答本文疑问/技术咨询/运营咨询/技术建议/互联网交流