欢迎投稿

今日深度:

美国国家安全局能利用“大数据”做些什么(1)(4)

神秘的社交图谱

颇为讽刺的是,几乎在同一时间,谷歌与雅虎等互联网公司开始着手部署计划、希望解决大数据的存储与分析难题。2006年11月,谷歌公司率先公布了BigTable数据库计划书,称其有能力对PB级别的网络数据进行索引,且支持谷歌地球及其它应用程序。雅虎也不甘示弱,在努力追赶谷歌GFS文件系统也就是BigTable的基础)的同时拿出了自己的成果——Hadoop。

BigTable与基于Hadoop的数据库为国家安全局指出了一条光明大道,使其真正有能力对获得的海量数据进行处理。但二者在服务情报工作方面还存在一大致命缺点:区分化安全或者说广义层面上的安全性缺失)。因此在2008年,安全局方面决定着手建立一套更为理想的BigTable版本,也就是目前归属于Apache基金会的Accumulo项目。

Accumulo是一套“NoSQL”数据库,以键值对为基础。其设计思路类似于谷歌的Big Table与Amazon的Dynamo DB,但Accumulo却拥有一部分由国家安全局亲自设计的特殊安全功能,例如多级安全访问机制。该项目利用开源Hadoop平台及其它Apache产品创建而来。

在众多功能当中,Column Visibility值得关注,该功能允许数据行中的个别项目拥有不同分类属性。这样一来,拥有不同数据访问权限的用户与应用程序就能在信息列中查看与其职责匹配的数据内容。访问权限较低的用户无法阅读当前列中级别较高的数据。

Accumulo还能够通过特定模式以几乎实时的方式生成数据报告。举例来说,该系统可以根据某个IP地址范围找到特定的关键词或者电子邮件信息;它还能够以某个目标电话号码为基础分析出其它号码与之关联的程度。经过甄别后,它会将有价值的电子邮件或者电话号码传出另一套数据库,以供安全局工作人员慢慢加以分析。

换句话来说,Accumulo为国家安全局带来与谷歌同样的电子邮件与网络搜索分析能力——互联网上的任意操作、通话过程中的全部内容,一切都在其掌控之中。

它的运行基于名为“迭代器”的特定服务器进程类型。这些代码会持续处理输入的信息并以新型模式生成反馈报告。由于查询PB级数据库并等待响应往往需要耗费大量时间,特别是不断有新数码加入进来的情况下,因此迭代器就像是一群不知疲倦的小蚂蚁、日夜帮助国家安全局进行数据处理工作。

Accumulo还只是安全局武器库中的成员之一。由Accumulo生成的融合数据会被传输至Palantir的分析数据库及其Graph应用程序当中,能利用这些工具完成分析。Graph能够根据属性、关系以及基于此类关系的搜索行为在不同“实体”之间建立虚拟化连接——这些关系从概念上讲类似于Facebook的Unicorn搜索与社交图谱、谷歌的KnowledgeGraph以及微软研究院的Satori。

Palantir这类工具只能与大数据库中的小型子集协作,例如MARINA电话数据库。不过由Accumulo实现的后端工作能从规模大到无法由分析工具管理的海量数据中抽取出数据集。由于安全局与其它社交网络相互连通,关系类数据还拥有另一种处理源头,这就是PRISM。


www.htsjk.Com true http://www.htsjk.com/shujukuaq/16694.html NewsArticle 神秘的社交图谱 颇为讽刺的是,几乎在同一时间,谷歌与雅虎等互联网公司开始着手部署计划、希望解决大数据的存储与分析难题。2006年11月,谷歌公司...
评论暂时关闭