欢迎投稿

今日深度:

Cassandra中的word count的运行方法,cassandracount

Cassandra中的word count的运行方法,cassandracount


之前知道有这么一个word count的程序,但是不知道究竟做什么用,这几天看了一下,也跑了一下程序,做个小的总结。

 

在cassandra的wiki上说cassandra目前支持使用hadoop来读取数据,如果真是这样的话,那么cassandra的读取将能够借助于map reduce实现并行读取,速度必然能够成倍的提高,cassandra的性能将更加完善,首先在写方面已经实现了优化,其次在hadoop的帮助下,读也不再是其缺点,wiki上说可以通过word count看一下,下边说一下word count怎么运行。

 

其实方法很简单,但是难的是如果遇到了问题该怎么解决!

 

 首先下载0.7-beta2-src的源码,在ubuntu上解压:

 

word count程序就在contrib/word_count中,里边有一个ReadMe.txt

 

如果直接按照上边的步骤直接ant做的话就会出现下边步骤:

 

首先是ivy下载很多的jar包,在后来building source files时需要build two files,但是这里会出错,提示找不到jars的目录,那是因为没有对源码进行build,所以导致源码build/lib/jars为空,因此需要先在src的根目录执行ant先对cassandra源码编译下载相应的jars,之后再执行word_count里的ant即可,在编译完了之后并不一定就是可以执行的,需要保证word_count_setup源码中server和配置文件中的一致(修改word_count或者word_count_setup,需要重新ant编译),这个时候启动cassandra(bin/cassnadra即可),然后再执行word_count_setup,然后执行word_count即可完成测试。

 

 附:在编译上述文件的时候耐心等待,有可能会由于网速原因很慢,即使出现很多的。。。。也是正常的,这个时候的做法就是等。

 

word_count_setup:作用是创建相应的keyspace和columnfamily,并在其中插入一些column和value,另外也为word_count提供相应的连接方法。 如果你在执行word_count_setup的时候报keyspace已经存在的错误,不要着急,先在 cassandra中删除即可(使用cli中的drop keyspace或者修改word_count_setup为先检查是否存在,不存在的时候再建)。

 

word_count:这个是实现从cassandra中读取数据并实现并行计算的主程序,包括构建mapper和reducer以及如何构造job,具体细节可以查看文件。

www.htsjk.Com true http://www.htsjk.com/cassandra/35567.html NewsArticle Cassandra中的word count的运行方法,cassandracount 之前知道有这么一个word count的程序,但是不知道究竟做什么用,这几天看了一下,也跑了一下程序,做个小的总结。   在cassandra的wiki上说...
相关文章
    暂无相关文章
评论暂时关闭