ZDNET至顶网CIO与应用频道 04月19日 编译:对Twitter的研究与分析结果表明,在2012年内人们对于大数据的兴趣在迅速增长,但实际上,从Twitter留言的统计数字中还可以了解到更多深层次的内容,而这种研究本身其实就是一种“大数据”。
今年4月份,世界各地有很多以大数据为主题的会议或活动陆续召开,其中就包括Big Data Week组织的多项活动,而类似于这样的与社交媒体相关的活动似乎正在逐渐增多。DataSift公司是一家大数据服务供应商,该公司经常会追踪这些会议与论坛的动态信息,而DataSift最擅长的工作就是通过分析Twitter留言内容来预测未来的发展趋势。最近,来自DataSift的Tim Barker提供了一份信息图表,其中展示了DataSift于2012年在研究了大量Twitter留言之后的一些新发现,这些留言均包含关键字“大数据”。
分析结果中的最主要的一个信息点,就是整个世界仍然在学习与了解大数据,这很可能说明我们正处于大数据的早期采用者阶段,而并非处在炒作阶段的高峰时期。以下是对一些分析数据的简要说明:
· 关于大数据的Twitter留言数量,在2012年前两个季度几乎无明显变化,然而后两个季度却分别激增25%;
· 72%的内容包括网址链接的Twitter留言,表明这些会话主要是在谈论信息资源共享的问题;
· 2012年被分享次数最多的文章,大都是对“神话揭密”主题的解释与探索;
· 由于Hadoop的原因,Apache成为被提及次数最多的产品,但MongoDB developer 10gen绝对是竞争力非常强的亚军;
· IBM的动态内容营销战略确定无疑地帮助其在关键字提及次数上战胜了惠普、天睿、甲骨文以及EMC等公司;
· Splunk公司的首次公开募股集资大大提升了它的知名度。相反地,惠普因为陷入Autonomy事件的口水仗中,而得到了关于大数据的最消极的留言;
· 日本用户特别偏爱私有解决方案,这使得Cloudera公司在这一市场中的表现远远超过其他竞争对手;
· Splunk在美国最受关注,DataSift在英国最受关注,SAP在德国最受关注,IBM在法国最受关注。
除此之外,DataSift还声称全球最大的Hadoop集群在欧洲。
每条Twitter留言都会与平均72个与其相关联的数据项存储在一起,每天都有约4TB这样的数据生成。在DataSift的“2012大数据相关Twitter留言”分析数据中还发现,共有约1百万个Twitter用户发起过相关讨论,竟然吸引了超过2百万次其他Twitter用户进行互动。讨论最火热的时期,峰值曾达到每小时3000条留言发布,几乎是一秒一条。但是根据DataSift的监测来看,就算是一秒一条也只是大海里的一滴水而已——因为每秒还有8000多个数据项生成。