扫二维码与项目经理沟通
我们在微信上24小时期待你的声音
解答本文疑问/技术咨询/运营咨询/技术建议/互联网交流
spark调优该怎么理解,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。
创新互联-专业网站定制、快速模板网站建设、高性价比淮上网站开发、企业建站全套包干低至880元,成熟完善的模板库,直接使用。一站式淮上网站制作公司更省心,省钱,快速模板网站建设找我们,业务覆盖淮上地区。费用合理售后完善,10余年实体公司更值得信赖。
Data Serialization
spark现在提供Java serialization和Kryo serialization库
Java serialization比较慢,Kryo serialization比较快
Memory Tuning
Determining Memory Consumption
衡量你的数据集消耗内存量最好的方式是创建RDD,并放入cache中,通过查看你的driver程序SparkContext logs来得出结论。
Tuning Data Structures
降低内存消耗的第一种方式是避免使用增加开销的java特性,例如基于指针的数据结构和封装的对象。有几种方法来避免:
1.将你的数据结构设计为对象的数组,或者原始类型,而不是java或者scala集合类(例如HashMap)
fastutil库提供原始数据类型的方便集合类,并且这些类与java标准库兼容。(http://fastutil.di.unimi.it/)
2.如果可以的话,避免使用有很多小对象的内嵌数据结构
3.考虑使用数字id或者枚举对象来代替string作为key
4.如果给spark使用的内存少于32g,设置JVM flag -XX:+UseCompressedOops来使指针的大小从原来的8个byte变成4个byte.
你可以在spark-env.sh里添加这个参数。
Serialized RDD Storage
当你的对象通过调优高效地存储后仍然很大,一个简单的减少内存使用的方式是以序列化格式的方式存储对象,使用 RDD persistence API中序列化的等级来指定,例如MEMORY_ONLY_SER。
spark将每个RDD块存储为一个大的byte数组。将存储的数据序列化唯一的缺点是访问时间变慢了,这应归于服务器一直在忙碌于每个对象的反序列化。
如果你想在内存中以序列化格式保存数据,我们极力地推荐使用Kryo库,因为这会产生比java序列化小很多的文件大小。(当然会比没有序列化的原生java object更小)
关于spark调优该怎么理解问题的解答就分享到这里了,希望以上内容可以对大家有一定的帮助,如果你还有很多疑惑没有解开,可以关注创新互联行业资讯频道了解更多相关知识。
我们在微信上24小时期待你的声音
解答本文疑问/技术咨询/运营咨询/技术建议/互联网交流