Cassandra中的word count的运行方法，cassandracount

和通数据库htsjk.Com2019-09-18 23:09 来源:未知阅读:5982 评论 252 热度3

标签：

Cassandra中的word count的运行方法，cassandracount

之前知道有这么一个word count的程序，但是不知道究竟做什么用，这几天看了一下，也跑了一下程序，做个小的总结。

在cassandra的wiki上说cassandra目前支持使用hadoop来读取数据，如果真是这样的话，那么cassandra的读取将能够借助于map reduce实现并行读取，速度必然能够成倍的提高，cassandra的性能将更加完善，首先在写方面已经实现了优化，其次在hadoop的帮助下，读也不再是其缺点，wiki上说可以通过word count看一下，下边说一下word count怎么运行。

其实方法很简单，但是难的是如果遇到了问题该怎么解决！

首先下载0.7-beta2-src的源码，在ubuntu上解压：

word count程序就在contrib/word_count中，里边有一个ReadMe.txt

如果直接按照上边的步骤直接ant做的话就会出现下边步骤：

首先是ivy下载很多的jar包，在后来building source files时需要build two files，但是这里会出错，提示找不到jars的目录，那是因为没有对源码进行build，所以导致源码build/lib/jars为空，因此需要先在src的根目录执行ant先对cassandra源码编译下载相应的jars，之后再执行word_count里的ant即可，在编译完了之后并不一定就是可以执行的，需要保证word_count_setup源码中server和配置文件中的一致（修改word_count或者word_count_setup，需要重新ant编译），这个时候启动cassandra（bin/cassnadra即可），然后再执行word_count_setup，然后执行word_count即可完成测试。

附：在编译上述文件的时候耐心等待，有可能会由于网速原因很慢，即使出现很多的。。。。也是正常的，这个时候的做法就是等。

word_count_setup:作用是创建相应的keyspace和columnfamily，并在其中插入一些column和value，另外也为word_count提供相应的连接方法。如果你在执行word_count_setup的时候报keyspace已经存在的错误，不要着急，先在 cassandra中删除即可（使用cli中的drop keyspace或者修改word_count_setup为先检查是否存在，不存在的时候再建）。

word_count:这个是实现从cassandra中读取数据并实现并行计算的主程序，包括构建mapper和reducer以及如何构造job，具体细节可以查看文件。