您现在的位置是:主页 > news > 昆明网站制作公司百度推广/最近疫情最新消息
昆明网站制作公司百度推广/最近疫情最新消息
admin2025/5/6 19:00:25【news】
简介昆明网站制作公司百度推广,最近疫情最新消息,北京海淀工商局网站,嘉兴seo报价本篇教程探讨了大数据技术之hadoop mapreduce输出数据压缩,希望阅读本篇文章以后大家有所收获,帮助大家对相关内容的理解更加深入。1、hadoop 输出数据压缩1.1、为什么要压缩?输出数据较大时,使用hadoop提供的压缩机制对数据进行压…
本篇教程探讨了大数据技术之hadoop mapreduce输出数据压缩,希望阅读本篇文章以后大家有所收获,帮助大家对相关内容的理解更加深入。
1、hadoop 输出数据压缩
1.1、为什么要压缩?输出数据较大时,使用hadoop提供的压缩机制对数据进行压缩,可以指定压缩的方式。减少网络传输带宽和存储的消耗;
可以对map的输出进行压缩(map输出到reduce输入的过程,可以shuffle过程中网络传输的数据量)
可以对reduce的输出结果进行压缩(最终保存到hdfs上的数据,主要是减少占用HDFS存储)
mapper和reduce程序都不需要更改,只需要在streaming程序运行中指定参数即可;-jobconf "mapred.compress.map.output=true" \-jobconf "mapred.map.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec" \-jobconf "mapred.output.compress=true" \-jobconf "mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec" \
1.2、 run_streaming程序#!/bin/bashHADOOP_CMD="/home/hadoop/app/hadoop/hadoop-2.6.0-cdh5.13.0/bin/hadoop"STREAM_JAR_PATH="/home/hadoop/app/hadoop/hadoop-2.6.0-cdh5.13.0/share/hadoop/tools/lib/hadoop-streaming-2.6.0-cdh5.13.0.jar"INPUT_FILE_PATH="/input/The_Man_of_Property"OUTPUT_FILE_PATH="/output/wordcount/CacheArchiveCompressFile"$HADOOP_CMD fs -rmr -skipTrash $OUTPUT_FILE_PATH$HADOOP_CMD jar $STREAM_JAR_PATH \ -input $INPUT_FILE_PATH \ -output $OUTPUT_FILE_PATH \ -jobconf "mapred.job.name=wordcount_wordwhite_cacheArchivefile_demo" \ -jobconf "mapred.compress.map.output=true" \ -jobconf "mapred.map.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec" \ -jobconf "mapred.output.compress=true" \ -jobconf "mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec" \ -mapper "python mapper.py WHF.gz" \ -reducer "python reducer.py" \ -cacheArchive "hdfs://localhost:9000/input/cachefile/wordwhite.tar.gz#WHF.gz" \ -file "./mapper.py" \ -file "./reducer.py"
1.3、 执行程序$ chmod +x run_streaming_compress.sh$ ./run_streaming_compress.sh... 中间输出省略 ...18/02/02 10:51:50 INFO streaming.StreamJob: Output directory: /output/wordcount/CacheArchiveCompressFile
1.4、 查看结果$ hadoop fs -ls /output/wordcount/CacheArchiveCompressFileFound 2 items-rw-r--r-- 1 hadoop supergroup 0 2018-02-02 10:51 /output/wordcount/CacheArchiveCompressFile/_SUCCESS-rw-r--r-- 1 hadoop supergroup 81 2018-02-02 10:51 /output/wordcount/CacheArchiveCompressFile/part-00000.gz$ hadoop fs -get /output/wordcount/CacheArchiveCompressFile/part-00000.gz ./$ gunzip part-00000.gz $ cat part-00000 and 2573had 1526have 350in 1694or 253the 5144this 412to 2782
本文由职坐标整理发布,学习更多的相关知识,请关注职坐标IT知识库!