欢迎投稿

今日深度:

Hadoop in aciton,

Hadoop in aciton, 背景: hadoop 应该是一个 mapreduce 框架,它封装了程序分布的细节,使开发者只关注最重要的应用,即 Map 和 reduce. 本文以单机为基础,略去了一些细节, 剖析了其主要流...(发布于2020-01-07 03:01:32)

Hadoop 表连接,

Hadoop 表连接, 连接不同来源的数据----------------------------------在真实的情况中,会出现从不同的源中获取数据.如:要知道某些国家引用的专利是否来自另一个国家.这时候就又要查看引用数...(发布于2020-01-07 03:01:28)

hadoop安装部署,

hadoop安装部署, 1.下载hadoop-0.20.2 wget http://mirror.bjtu.edu.cn/apache/hadoop/core/stable/hadoop-0.20.2.tar.gz 2.修改/etc/hosts文件,添加所有节点的ip-host映射 192.168.221.174 h1 192.168.221.175 h2 192.168.221.176 h3...(发布于2020-01-07 03:01:23)

hadoop笔记,

hadoop笔记, HDFS:上传文件流程 1、根namenode通信请求上传文件,namenode检查目标文件是否已存在,父目录是否存在  2、namenode返回是否可以上传  3、client会先对文件进行切分,比如一个...(发布于2020-01-07 03:01:20)

Hadoop的数据管理,

Hadoop的数据管理, 本文主要介绍Hadoop的数据管理,主要包括Hadoop的分布式文件系统HDFS、分布式数据库HBase和数据仓库工具Hive。 1 HDFS的数据管理 HDFS是分布式计算的存储基石,Hadoop分布...(发布于2020-01-07 03:01:15)

Hadoop源代码分析,

Hadoop源代码分析, 一个典型的 HDFS系统包括一个NameNode和多个DataNode。NameNode维护名字空间;而DataNode存储数据块。 DataNode负责存储数据,一个数据块在多个DataNode中有备份;而一个DataN...(发布于2020-01-07 03:01:11)

hadoop与eclipse,

hadoop与eclipse, 1)运行一个新项目要先run on  hadoop 在合并hadoop的文件为一个时,一直不出结果,调试时在查看listStutus出现: org.eclipse.debug.core.DebugException: com.sun.jdi.ClassNotLoadedException:...(发布于2020-01-07 03:01:07)

Hadoop的“全局变量”,

Hadoop的“全局变量”, 以前有做过在Hadoop编写程序时使用全局变量的想法,但是最后却没有实现,上网查才看到说Hadoop不支持全局变量。但是有时候编程的时候又会用到,比如编写k-...(发布于2020-01-07 03:01:03)

Hadoop Starting,

Hadoop Starting, Hadoop employs amaster/slave architecture for both distributed storage and distributedcomputation. The distributed storage system is called the Hadoop File System,or HDFS. The NameNode is the master of HDFS that directs t...(发布于2020-01-07 03:00:59)

hadoop简介,

hadoop简介,  什么是hadoop:              维基百科这样说:一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集...(发布于2020-01-07 03:00:49)

hadoop论坛,

hadoop论坛, http://bbs.hadoopor.com/...(发布于2020-01-06 00:28:35)

hadoop是什么?,

hadoop是什么?, hadoop是什么? 简单得说: 1、是一个文件系统。相比较WinXP,它可以同时利用多台机器。 2、装WinXP,1个WinXP系统你只能装在一台机器上。而1个Hadoop系统可以装在一台机...(发布于2020-01-06 00:28:31)

hadoop 生态圈,

hadoop 生态圈, Hadoop:用 hdfs 进行存储,用 MapReduce 进行计算; 所谓 hadoop 家族或 hadoop 生态圈,最根本的还是 hdfs(存储数据的文件系统)以及 MapReduce(用以操作操作数据)。hadoop 家族...(发布于2020-01-06 00:28:27)

Hadoop集群配置,

Hadoop集群配置, 折腾了好几个小时,终于搭建好了Hadoop集群环境。 主要参考了下面这篇博客(http://blog.csdn.net/flyqwang/article/details/7244552),表示感谢。 在按照这篇博客进行操作的过程...(发布于2020-01-06 00:28:23)

Hadoop Mapreduce,

Hadoop Mapreduce, Mapreduce :编程模型 编写MR: mapper类: package com.mao.hdfs.mr;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduc...(发布于2020-01-06 00:28:19)

hadoop 性能调优,

hadoop 性能调优, hadoop 性能调优 环境: 4台suse 各 4G 内存 1T硬盘 4核cpu 3台 redhat 各 2G内存 500G 硬盘 双核cpu 由于没有真正意义上的服务器,所以当运行大量map reduce任务的时候 map 运行速度...(发布于2020-01-06 00:28:15)

MultipleOutputs in Hadoop,

MultipleOutputs in Hadoop, MultipleOutputs,说白了就是你想在Reduce中,将结果写到不同的文件中去的时候,来用的。 看看Hadoop的官网的例子和解释: 我们的Driver代码中使用到了MultipleOutputs,并...(发布于2020-01-06 00:28:12)

hadoop倒排索引,

hadoop倒排索引, 看到很多的hadoop关于倒排索引的例子,但是我想写一个属于我自己的,加入了本人对于hadoop中mapreduce的理解。 有下面三篇文章: accident.txt CHENGDU - Death toll from a collier...(发布于2020-01-06 00:28:07)

hadoop基础知识,

hadoop基础知识, 1.hadoop流 hadoop流提供了一个API,允许用户使用任何脚本语言编写Map函数或Reduce函数,Hadoop流的关键是,它使用Unix标准流作为程序与Hadoop之间的接口。 2.hadoop join http://...(发布于2020-01-06 00:28:03)

hadoop 实践,

hadoop 实践, http://blog.csdn.net/dajuezhao/article/details/6591034 写的很好 保存留用~ 一、背景 Hadoop的集群使用也有些时候了,不过都是小集群的使用(数量小于30台)。在这个过程中不断的进行...(发布于2020-01-06 00:27:54)