Hadoop,
1.Hive,操作hadoop数据,但是Hive的元数据一般存放在mysql中,测试可以使用自身的 Derby 数据库。排序关键字SORT BY Set mapred.reduce.tasks=2;//可以同时在两个datanode上操作
Select sale_id,amount from t_orderSort by sale_id,amount;//指定的2 个reducer分发的数据可能各自排序
改进后:set mapred.reduce.tasks=2 Select sale_id,amount from t_order
Distribute by sale_id Sort by sale_id,amount;
2.当Mapper处理好数据后,需要使用Partitioner确定怎样合理地将Mapper输出分配到Reducer之中。
3.sqoop是将关系型数据库的数据导入Hadoop的HDFS中,也可以讲HDFS中的数据导入关系型数据库
4.pig,是一种编程语言
message= LOAD ‘messages’;warns = FILTER messages BY $0 matches '.*WARN+.*';
STORE warns INTO 'warnings';
1.服务器集群是作为单一系统进行管理的一组独立的服务器用于实现更高的可用
性、可管理性和更优异的可伸缩性
服务器集群是作为单一系统进行管理的一组独立的服务器用于实现更高的可用
性、可管理性和更优异的可伸缩性
2.HA 与HPC
集群系统分为两类:
高可用(High Availability)集群,简称HA集群
性能计算(High Perfermance Computing)集群简称HPC集群
3.hadoop2.0官方提供了两种HDFS HA的解决方案,一种是NFS,另一种是QJM。
NFS(Network File System)即网络文件系统,是FreeBSD支持的文件系统中的一种,它允许网络中的计算机之间通过TCP/IP网络共享资源。在NFS的应用中,本地NFS的客户端应用可以透明地读写位于远端NFS服务器上的文件,就像访问本地文件一样。
这里我们使用简单的QJM。在该方案中,主备NameNode之间通过一组JournalNode同步元数据信息,一条数据只要成功写入多数JournalNode即认为写入成功,通常配置奇数个JournalNode。这里还配置了一个zookeeper集群,用于ZKFC(DFSZKFailoverController)故障转移,当Active NameNode挂掉了,会自动切换Standby NameNode为standby状态。
4.RPC(Remote Procedure Call Protocol)——远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨越了传输层和应用层。
1.RAID与JBOD中后者更适合作为存储器
2.cat主要有三大功能:1.一次显示整个文件。$ cat filename
2.从键盘创建一个文件。$ cat > filename只能创建新文件,不能编辑已有文件.
3.将几个文件合并为一个文件。$cat file1 file2 > filecat具体命令格式为 : cat [-AbeEnstTuv] [--help] [--version] fileName
说明:把档案串连接后传到基本输出(屏幕或加 > fileName 到另一个档案)
3.sudo是linux系统管理指令,是允许系统管理员让普通用户执行一些或者全部的root命令的一个工具,如halt,reboot,su等等
1.ping网络时如果ping不通可以carl+c退出退出VI编辑器使用先esc然后
2.HFDS--Namenode保存的是元数据metedata,包括fsimage镜像文件和edits日志文件,到有“写请求”到来时,namenode会首先写editlog到磁盘,即向edits文件中写日志,成功返回后,才会修改内存,并且向客户端返回。Secondary namenode就是用来合并fsimage和edits文件来更新NameNode的metedata的。3.在mapreduce中,values的处理,IntWritable是一个对象,而如果想要用int参加计算,那么我们需要调用IntWritable对象的一个成员get(),这个函数返回int
4.<Key=该行的起始位置:LongWritable,Value=该行的内容的:Text>,我们需要将这个KeyValue对转化成我们想要的形式<Key=该行内容:IntWritable,Value=空字符串:Text>,
5.~代表主目录假设你登陆的用户明为user~ 就表示 /home/user
6.hadoop运行原理,精妙,见收藏!需要传到HDFS的数据被分成很多小块,如100M分成64M和36M,分别存在3台机器上,共6台机器,使用mapreduce读取时,map映射然后通过preduce归约在统计词频的例子里,map函数接受的键是文件名,值是文件的内容,map逐个遍历单词,每遇到一个单词w,就产生一个中间键值对<w, "1">,这表示单词w咱又找到了一个;MapReduce将键相同(都是单词w)的键值对传给reduce函数,这样reduce函数接受的键就是单词w,值是一串"1"(最基本的实现是这样,但可以优化),个数等于键为w的键值对的个数,然后将这些“1”累加就得到单词w的出现次数。最后这些单词的出现次数会被写到用户定义的位置,存储在底层的分布式存储系统(GFS或HDFS)。
7.DataNode默认备份3份,namenode选择不同的服务器,默认按n个64k的包!
namenode和datanode的数据都存储在current/目录下
8.MapReduce理解为,把一堆杂乱无章的数据按照某种特征归纳起来,然后处理并得到最后的结果。Map面对的是杂乱无章的互不相关的数据,它解析每个数据,从中提取出key和value,也就是提取了数据的特征。经过MapReduce的Shuffle阶段之后,在Reduce阶段看到的都是已经归纳好的数据了,在此基础上我们可以做进一步的处理以便得到结果。这就回到了最初,终于知道MapReduce为何要这样设计
9。yarn的老大是sourcemanager,小弟是nodemanager,hdfs老大是namenode,小弟是datanodeYarn中,JobTracker被分为两部分:ResourceManager(RM)和ApplicationMaster(AM)
10.Hbase包含两个部分:一部分是MemStore,一部分是StoreFiles,MemStore是Sorted Memory Buffer,用户写入的数据首先会放入MemStore,当MemStore满了以后会Flush成一个StoreFile(底层实现是HFile),当StoreFile文件数量增长到一定阈值,会触发Compact合并操作,将多个StoreFiles合并成一个StoreFile,合并过程中会进行版本合并和数据删除,因此可以看出HBase其实只有增加数据,所有的更新和删除操作都是在后续的compact过程中进行的,这使得用户的写操作只要进入内存中就可以立即返回,保证了HBase I/O的高性能。当StoreFilesCompact后,会逐步形成越来越大的StoreFile,当单个StoreFile大小超过一定阈值后,会触发Split操作,同时把当前Region Split成2个Region,父Region会下线,新Split出的2个孩子Region会被HMaster分配到相应的HRegionServer上,使得原先1个Region的压力得以分流到2个Region上。
本站文章为和通数据库网友分享或者投稿,欢迎任何形式的转载,但请务必注明出处.
同时文章内容如有侵犯了您的权益,请联系QQ:970679559,我们会在尽快处理。