hadoop读取 Sequence格式的文件的代码
来源:互联网 发布:考研英语单词书 知乎 编辑:程序博客网 时间:2024/06/11 23:13
import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.SequenceFile;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.ReflectionUtils;
import org.apache.mahout.fpm.pfpgrowth.convertors.string.TopKStringPatterns;
public class ReadSeqFile {
String uri = "/home/hadoop/fpdir/output/part-r-00000";
private static SequenceFile.Reader reader = null;
private static Configuration conf = new Configuration();
public static class ReadFileMapper extends
Mapper<LongWritable, Text, Text, Text> {
@Override
public void map(LongWritable key, Text value,Context context) {
Text text = (Text) ReflectionUtils.newInstance(reader.getKeyClass(), conf);
TopKStringPatterns k = (TopKStringPatterns)ReflectionUtils.newInstance(reader.getValueClass(), conf);
try {
while (reader.next(text, k)) {
//注意这里使用的是reader阅读器读取的内容,而不是使用map中的key和value
//System.out.printf("%s\t%s\n", text, k);
context.write(text, new Text(k.toString()));
}
} catch (IOException e1) {
e1.printStackTrace();
} catch (InterruptedException e) {
e.printStackTrace();
}
}
}
/**
* @param args
* @throws IOException
* @throws InterruptedException
* @throws ClassNotFoundException
*/
public static void main(String[] args) throws IOException, InterruptedException, ClassNotFoundException {
Job job = new Job(conf,"read seq file");
job.setJarByClass(ReadSeqFile.class);
job.setMapperClass(ReadFileMapper.class);
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(Text.class);
//System.out.printf("%s\t%s\n", text, k);
context.write(text, new Text(k.toString()));
}
} catch (IOException e1) {
e1.printStackTrace();
} catch (InterruptedException e) {
e.printStackTrace();
}
}
}
/**
* @param args
* @throws IOException
* @throws InterruptedException
* @throws ClassNotFoundException
*/
public static void main(String[] args) throws IOException, InterruptedException, ClassNotFoundException {
Job job = new Job(conf,"read seq file");
job.setJarByClass(ReadSeqFile.class);
job.setMapperClass(ReadFileMapper.class);
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(Text.class);
//设置输出格式
Path path = new Path("/home/hadoop/fpdir/output/part-r-00000");
FileSystem fs = FileSystem.get(conf);
reader = new SequenceFile.Reader(fs, path, conf);
FileInputFormat.addInputPath(job, path);
FileOutputFormat.setOutputPath(job, new Path("/home/hadoop/fpdir/testReadSeq"));
System.exit(job.waitForCompletion(true)?0:1);
}
}
Path path = new Path("/home/hadoop/fpdir/output/part-r-00000");
FileSystem fs = FileSystem.get(conf);
reader = new SequenceFile.Reader(fs, path, conf);
FileInputFormat.addInputPath(job, path);
FileOutputFormat.setOutputPath(job, new Path("/home/hadoop/fpdir/testReadSeq"));
System.exit(job.waitForCompletion(true)?0:1);
}
}
0 0
- 我的读取hadoop Sequence格式的文件的代码
- 读取hadoop Sequence格式的文件的代码
- hadoop读取 Sequence格式的文件的代码
- spark 读取hadoop 格式的文件
- Hadoop Sequence File 文件的读取和写入
- Hadoop Sequence File 文件的读取和写入
- hadoop用mutipleInputs实现map读取不同格式的文件
- hadoop单机模式读取sequence文件
- hadoop mapreduce模式读取sequence文件
- Hadoop的整文件读取
- 读取pbxproj格式的文件
- 读取其他格式的文件
- 读取文件的代码
- 如何让Hadoop读取以gz结尾的文本格式的文件
- Hadoop如何读取复杂格式的文件,例如XML、HTML、图像等,附源码
- hadoop用MultipleInputs/MultiInputFormat实现一个mapreduce job中读取不同格式的文件
- Hadoop的sequence File
- 读取xml格式的天气预报的代码
- Excel 里程 DK格式
- 浅析ASP.NET回车提交事件
- Java学习笔记之反射
- 通过PHP实现PNG转JPG
- apple watch 关于不同设备的尺寸调整
- hadoop读取 Sequence格式的文件的代码
- 关于Eclipse的Indigo和MyEclipse 2013版中文注释时字体太小的问题
- 分布式发布订阅消息系统 Kafka 架构设计
- Android4.0 开放Root权限
- VC6捕获鼠标事件(移动、单击等)的一些总结(MFC消息、DriectInput、钩子)
- apple 证书 账号 内购 详解
- 如何挂载 云磁盘
- identity(1,1)
- [小技巧] gdb 里数值轮换