MongoDB:Map-Reduce,mongodbmap-reduce
Map-reduce是一个考虑大型数据得到有用聚集结果的数据处理程式(paradigm).针对map-reduce操作,MongoDB提供来mapreduce命令.
考虑下面的map-reduce操作:
在这个map-reduce操作里,MongoDB为每个输入的文档(比如,集合中满足了查询条件的文档)应用了map操作.Map函数输入键值对.对拥有多个值的那些键,MongoDB采用reduce阶段,即收集和压缩聚集的数据.Mongo-DB然后把结果存在一个集合里面.Reduce函数的输出可以选择传递给一个finalize函数去进一步压缩或处理聚集结果.
在MongoDB中,所有的map-reduce函数都是javascript代码,都运行在mongod进程.Map-reduce操作接受一个集合的文档作为输入,并可以在map阶段之前执行任意排序和限制.mapreduce可以以一个文档的形式返回map-reduce操作的结果,或者可能往集合写入结果。输入和输出的集合可能是共享的。
注:
对大多数的聚集操作,聚集管道提供了更好的性能和更一致的接口。然而,map-reduce操作提供了在聚集管道所没有的灵活性。
Map-Reduce JavaScript 函数
在MongoDB,map-reduce操作使用自定义的函数去map,或者进行键和值的关联。如果一个键有多个值和它对应,则reduce操作将该键的值“减”到单一的对象(the operation reduces the values for the key to a single object)。
自定义的javascript函数给map-reduce带来了灵活性。举个例子,当处理一个文档,map函数产生多于一个的键值对匹配或者没有键值对匹配。Map-reduce函数也可以使用一个自定义的javascript函数在map和reduce函数操作结束时对结果进行最终的修改。
Map-Reduce 行为
在MongoDB,map-reduce函数能够联机往集合写入结果或返回结果。如果你将map-reduce的输出写入一个集合,你可以在相同的输入集合上执行随后的map-reduce操作,并会合并替代、合并,或者削减之前的结果。
当联机返回map-reduce操作的结果,结果文档必须在BSON Document Size限制内,目前是16M。
MongoDB支持在共享集合上的map-reduce操作,也能向共享集合输出结果。
map:可以理解成需要填充的数据。在sql中,很像是后面的where条件所需要筛选的部分;
reduce:可以理解成需要显示的字段;
因为mapreduce的使用对于初学者来说,在理解上非常的困难。建议先从简单的group方法入手进行学习;
另外一点,MapReduce的性能是非常低的,除非是做后台的统计操作,否则一定不要用MapReduce或给予它的查询作为前端的数据访问方式。
根据官方网站的描述,Mongo适合用于以下场景:
◆网站数据:Mongo非常适合实时的插入,更新与查询,并具备网站实时数据存储所需的复制及高度伸缩性。
◆缓存:由于性能很高,Mongo也适合作为信息基础设施的缓存层。在系统重启之后,由Mongo搭建的持久化缓存层可以避免下层的数据源过载。
◆大尺寸,低价值的数据:使用传统的关系型数据库存储一些数据时可能会比较昂贵,在此之前,很多时候程序员往往会选择传统的文件进行存储。
◆高伸缩性的场景:Mongo非常适合由数十或数百台服务器组成的数据库。Mongo的路线图中已经包含对MapReduce引擎的内置支持。
◆用于对象及JSON数据的存储:Mongo的BSON数据格式非常适合文档化格式的存储及查询。
自然,MongoDB的使用也会有一些限制,例如它不适合:
◆高度事务性的系统:例如银行或会计系统。传统的关系型数据库目前还是更适用于需要大量原子性复杂事务的应用程序。
◆传统的商业智能应用:针对特定问题的BI数据库会对产生高度优化的查询方式。对于此类应用,数据仓库可能是更合适的选择。