数据不等于信息,数据是全局的。说了很多的大数据究竟应用了多少呢?
大数据自从兴起后,便一直备受热捧,关于大数据的前景、应用和利弊的讨论也一直持续至今,而唯一不变的真理是:只有人才是核心,数据只是我们获取真理的途径。舍恩伯格在大数据时代中强调,数据不等于信息,数据是全局的。用信息论中的熵的概念,信息是对事件不确定性的度量,全局的数据如果我们认为是全知的话,那么它的不确定性为零,即不包含信息,唯有我们挖掘出来有适用价值的数据才可获得有效信息。另一个观点是信息不等于智慧,如何将信息转化为智慧呢,需要满足三个标准:可破译性,关联性和新颖性。
大数据冰山一角
有意思的是,著名信息技术研究和分析公司 Gartner 做了一项有关企业使用大数据的调查,调查显示 56% 的公司不知道如何从大数据中获取价值,41% 的公司不知道如何将大数据与公司战略结合,34% 的公司缺乏获取和处理数据的能力,甚至有 23% 的公司不明白大数据是何物……究竟大数据是什么,又如何与我们的生活产生关联呢,下面笔者将用两个自己做过的自然语言处理(NLP)项目为你揭开大数据的冰山一角。
1、热点话题探索
新浪微博是我们目前主要使用的一款社交网站,其鱼龙混杂程度已经令人叹为观止,里面充斥着各路大 V、水军、僵尸粉和我们这些宝贵的真实个人用户,也许你每天的生活就是随手刷刷微博,看看悄悄关注的女神发的微博又有哪个异性回复了,听听某意见领袖发表的最新观点,然后再默默的点一个赞。但你想过没有,国外是如何利用上亿量级的 tweet 内容成功预测股市的呢?
于是笔者默默的利用了一下去年八、九月份十万量级的微博内容,试着去分析了一下某些潜在的或已经发生的热点话题。可以看到效果还是有的,去年 9 月 10 日日本单方面无条件购岛引起广大爱国人士的激烈讨论,图中话题 7 即反映了十万微博中此话题权重较高的几个关键词;话题 8 的出现完全是意外之喜,原来小米在去年 8 月 16 日发布了新手机,雷军让小米也在互联网火了起来。更多出现的可能是话题 9 这种无意义的类别,如何更有效的滤除噪声,使真正有价值的热点较早凸显出来是笔者下一步打算实现的目标。
2、情感分析
是否会有这么一天,当你面试时HR只问你一句:你的新浪微博账号是多少?一分钟后他淡定的告诉你,对不起,经过测试,你的微博总体负面情绪过多,不符合我们企业阳光乐观积极向上的主题,出门左拐就有地铁站,慢走。我们不去具体分析这种事情的合理性,我们只看大数据带给我们的这种可能性,当你的喜怒哀乐所有情感都可以被一个百分比准确定义的时候,数据化的时代也许就真的到来了。
笔者采集了自己除转发外所有的原创微博,归类到高兴、悲伤和愤怒三个极性中,下图为情感极性比例,从图中可以看到超过 50% 的微博表现出高兴的情感趋向,大约 30% 的微博有悲伤的负面情感,10% 左右则表现出愤怒这一情感,估计又忧国忧民了吧…
上面的例子只是一些小的实验,从长远来看还是有很多用武之地的,比如对某品牌的产品售后评价进行分析监控,找到负面评价然后去解决产品中可能存在的缺陷。新闻媒体对一些报道的分析,舆情分析,金融机构预测走势等等,其实很多早已渗透到我们的生活中了。
数据网站和应用的渗入
微博高玩一定对下面这幅逼格超高的图片不会陌生,这是我自己使用一款名为围脖关键字的微博应用生成的图片,该应用由清华大学自然语言处理与社会人文计算实验室开发。它对用户所有的微博进行了分词,去停用词,计算关键词权重等几个步骤,从而生成了一幅个性化的用户标签集合。
也许从个人角度出发这只是一个很有意思的小应用,但如果商家获取了用户标签,也许将来的广告推荐会更有针对性;企业也能将此类标签当做面试者人格分析的一部分;更深入一点还将产生更好的针对特定机构和群体的行为分析等等。
大数据现在谁都能说上一点两点,但如何将其应用到现实中,如何提供更好的服务是我们需要真正解决的,不然空有「大」字,只是没有灵魂的空壳罢了。