Hadoop，

和通数据库htsjk.Com2019-10-07 23:28 来源:未知阅读:2356 评论 233 热度3

标签：

Hadoop，

1.Hive,操作hadoop数据，但是Hive的元数据一般存放在mysql中，测试可以使用自身的 Derby 数据库。
排序关键字SORT BY Set mapred.reduce.tasks=2;//可以同时在两个datanode上操作
Select sale_id,amount from t_orderSort by sale_id,amount;//指定的2 个reducer分发的数据可能各自排序
改进后：set mapred.reduce.tasks=2 Select sale_id,amount from t_order
Distribute by sale_id Sort by sale_id,amount;

2.当Mapper处理好数据后，需要使用Partitioner确定怎样合理地将Mapper输出分配到Reducer之中。

3.sqoop是将关系型数据库的数据导入Hadoop的HDFS中，也可以讲HDFS中的数据导入关系型数据库

4.pig,是一种编程语言

message= LOAD ‘messages’;
warns = FILTER messages BY $0 matches '.*WARN+.*';
STORE warns INTO 'warnings';

1.服务器集群是作为单一系统进行管理的一组独立的服务器用于实现更高的可用
性、可管理性和更优异的可伸缩性
服务器集群是作为单一系统进行管理的一组独立的服务器用于实现更高的可用
性、可管理性和更优异的可伸缩性
2.HA 与HPC
集群系统分为两类:
高可用(High Availability)集群,简称HA集群
性能计算(High Perfermance Computing)集群简称HPC集群
3.hadoop2.0官方提供了两种HDFS HA的解决方案，一种是NFS，另一种是QJM。
NFS（Network File System）即网络文件系统，是FreeBSD支持的文件系统中的一种，它允许网络中的计算机之间通过TCP/IP网络共享资源。在NFS的应用中，本地NFS的客户端应用可以透明地读写位于远端NFS服务器上的文件，就像访问本地文件一样。
这里我们使用简单的QJM。在该方案中，主备NameNode之间通过一组JournalNode同步元数据信息，一条数据只要成功写入多数JournalNode即认为写入成功，通常配置奇数个JournalNode。这里还配置了一个zookeeper集群，用于ZKFC（DFSZKFailoverController）故障转移，当Active NameNode挂掉了，会自动切换Standby NameNode为standby状态。
4.RPC（Remote Procedure Call Protocol）——远程过程调用协议，它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。

1.RAID与JBOD中后者更适合作为存储器

2.cat主要有三大功能：
1.一次显示整个文件。$ cat filename
2.从键盘创建一个文件。$ cat > filename只能创建新文件,不能编辑已有文件.
3.将几个文件合并为一个文件。$cat file1 file2 > filecat具体命令格式为 : cat [-AbeEnstTuv] [--help] [--version] fileName
说明：把档案串连接后传到基本输出(屏幕或加 > fileName 到另一个档案)
3.sudo是linux系统管理指令，是允许系统管理员让普通用户执行一些或者全部的root命令的一个工具，如halt，reboot，su等等

1.ping网络时如果ping不通可以carl+c退出退出VI编辑器使用先esc然后

2.HFDS--Namenode保存的是元数据metedata，包括fsimage镜像文件和edits日志文件，到有“写请求”到来时，namenode会首先写editlog到磁盘，即向edits文件中写日志，成功返回后，才会修改内存，并且向客户端返回。Secondary namenode就是用来合并fsimage和edits文件来更新NameNode的metedata的。
3.在mapreduce中，values的处理，IntWritable是一个对象，而如果想要用int参加计算，那么我们需要调用IntWritable对象的一个成员get()，这个函数返回int
4.<Key=该行的起始位置：LongWritable，Value=该行的内容的：Text>，我们需要将这个KeyValue对转化成我们想要的形式<Key=该行内容：IntWritable，Value=空字符串：Text>，
5.~代表主目录假设你登陆的用户明为user~ 就表示 /home/user
6.hadoop运行原理，精妙，见收藏！需要传到HDFS的数据被分成很多小块，如100M分成64M和36M，分别存在3台机器上，共6台机器，使用mapreduce读取时，map映射然后通过preduce归约在统计词频的例子里，map函数接受的键是文件名，值是文件的内容，map逐个遍历单词，每遇到一个单词w，就产生一个中间键值对<w, "1">，这表示单词w咱又找到了一个；MapReduce将键相同（都是单词w）的键值对传给reduce函数，这样reduce函数接受的键就是单词w，值是一串"1"（最基本的实现是这样，但可以优化），个数等于键为w的键值对的个数，然后将这些“1”累加就得到单词w的出现次数。最后这些单词的出现次数会被写到用户定义的位置，存储在底层的分布式存储系统（GFS或HDFS）。
7.DataNode默认备份3份，namenode选择不同的服务器，默认按n个64k的包！
namenode和datanode的数据都存储在current/目录下
8.MapReduce理解为，把一堆杂乱无章的数据按照某种特征归纳起来，然后处理并得到最后的结果。Map面对的是杂乱无章的互不相关的数据，它解析每个数据，从中提取出key和value，也就是提取了数据的特征。经过MapReduce的Shuffle阶段之后，在Reduce阶段看到的都是已经归纳好的数据了，在此基础上我们可以做进一步的处理以便得到结果。这就回到了最初，终于知道MapReduce为何要这样设计
9。yarn的老大是sourcemanager,小弟是nodemanager，hdfs老大是namenode,小弟是datanodeYarn中，JobTracker被分为两部分：ResourceManager（RM）和ApplicationMaster（AM）
10.Hbase包含两个部分：一部分是MemStore，一部分是StoreFiles，MemStore是Sorted Memory Buffer，用户写入的数据首先会放入MemStore，当MemStore满了以后会Flush成一个StoreFile（底层实现是HFile），当StoreFile文件数量增长到一定阈值，会触发Compact合并操作，将多个StoreFiles合并成一个StoreFile，合并过程中会进行版本合并和数据删除，因此可以看出HBase其实只有增加数据，所有的更新和删除操作都是在后续的compact过程中进行的，这使得用户的写操作只要进入内存中就可以立即返回，保证了HBase I/O的高性能。当StoreFilesCompact后，会逐步形成越来越大的StoreFile，当单个StoreFile大小超过一定阈值后，会触发Split操作，同时把当前Region Split成2个Region，父Region会下线，新Split出的2个孩子Region会被HMaster分配到相应的HRegionServer上，使得原先1个Region的压力得以分流到2个Region上。