雅安之声:汇集数据并分析灾区当地网友微博信息
知乎 发表于:13年04月27日 10:58 [来稿] 存储在线
雅安之声是基于新浪微博开放平台的救援信息查询工具,是由雅安本地人创造内容的原汁原味微博直播媒体。雅安之声汇集了两万多雅安本地网友实时发布的微博,救援人员和普通网友可以像阅读普通微博一样使用。
雅安之声解决的问题
救援人员点击“紧急”按钮查看被标注的微博,迅速找到求助信息及时救助。通过关键字如“帐篷”等搜索微博,精确找到物资缺乏的灾民,为救援物质调配起到查漏补缺的作用。
一线记者可以通过“给力”“气愤”两个按钮迅速获取新闻线索,帮助现场采访。未能到达灾区的记者,可以通过微博内容了解现场情况获取一手新闻素材。
网友可以观看原汁原味的微博直播。内容由雅安本地网友创造,未经媒体或微博大V加工,保持了原汁原味。这里有反应灾情的揪心内容,也有反应日常生活的普通内容,更加鲜活。
为什么做雅安之声
我创业的方向是微博运营和数据挖掘,雅安地震时,本能的反映是对雅安地区网友的微博进行数据分析。马上从库里找出所在地是雅安的一万多微博用户,调用新浪微博开放接口扫描数据。
每一条微博,都是一个悲惨的画面,我犹如置身雅安,心情沉重又无奈,不知道能为灾区同胞做点什么。
各大互联网公司行动迅速,但都一窝蜂的做寻人。寻人虽然是刚需,但我再做意义不大。
随着时间的推进,雅安多数地区电力、通讯逐步恢复,两天之后,雅安网友发布的微博数量逐渐增多,我的信息也越来越丰富。但是打开电视看直播,打开微博看大V发布的信息,却与我看到的视角完全不同。
大量的救灾信息淹没了雅安本地网友的内容,没有专用数据挖掘工具,在微博通过关键字搜索等很难找到。我想,也许有人需要这些信息,我应该发挥优势做个容易使用的产品,让普通网友能迅速找到这些信息。
产品开发
这些信息的第一用途肯定是救灾,如何让救援人员迅速找到重要信息,信息重要程度用神马参数衡量呢?
已经是22日中午了,黄金救援时间都过去60个小时了,我们没有时间去思考重要程度的算法,那需要大量时间不断的试错改进,而我现在最缺的就是时间,必须找到电风扇吹空肥皂盒这种笨拙但简单有效的方法。
我想到了众包,在微博下面设几个按钮,让普通网友看直播时捎带着标注重要性,于是便有了这张草图。
几天的积累,我们的雅安微博用户ID已经增长到一万八千个,用开放接口完整轮询一遍需要几个小时,信息更新速度太慢。与死神赛跑每一秒都要争取,这个时间是无法容忍的。
我们求助新浪官方,新浪免费给我们开通了开放平台之外的“订阅”接口。从开始沟通到正式开通,总共只用了58分钟,效率非常高。但是订阅接口也有数量限制且官方无法更改模块,依然不能满足我一万八千个ID的需求量,而且ID数量还在不断增加。
我用@勤娘纸 账号发了条微博,招募志愿者请求同行帮助。平时打的头破血流的竞争对手,迅速表态放下恩怨,共享资源解决难题。
开发人员连轴转,从画出草图到产品测试,只用了20个小时,晚上测试修改完毕第一版正式上线。
23日19:49微博发出链接,迅速被转发四百多次,我们收到网友评论和私信大量反馈。从反馈中发现,物资调配信息需求最强烈,因为黄金救援时间已过,救援队伍的主攻方向是发放帐篷等救援物资。
产品存在的问题集中在两点,第一、设定的按钮“重要”没有引起网友的重视,被标注的次数不多,导致重要信息没有筛选出来。第二、标注“重要”的微博是按照标注次数排序,这样排在最前面的反而是几个小时之前的信息。
24日凌晨一点,我们更新了第二版,将按钮改为“紧急”“给力”“气愤”三个,排序规则改为12小时内的微博按时间排序,12小时候后的按标注次数排序。并且添加了关键字搜索功能,方便救援人员根据物资情况精确查找。
三十多个小时的时间,我们更新了两个版本,改了四次算法,加上@独到网 的接口级别较高,微博同步延迟时间压缩到5分钟左右。
此时,雅安之声已经是一个有用、能用的产品了。
当你打开网站,就会看到两万多雅安网友五分钟之前的发的全部微博,可以很方便的找到你需要的信息。
只是网站不太好看,志愿者中没设计人员。
效果
根据北大可视化小组@晓如微博 标注的雅安微博用户分布图,我们的数据可以全面反映雅安情况,包括曾经被忽视的天全等县,以及一些偏远的乡镇。
宣传雅安之声的微博被转发489次,理论上净覆盖人数460万,@桔子水晶吴海 @酒红冰蓝 @丁来峰 @白玉峰 等关键人物参与了转发。
24日晚十点钟左右检查PV,发现这几天@独到网 的PV没有任何增长。大家一直忙着看用户反馈改产品,竟然没检查CNZZ的统计。 22:38分修复后,显示15分钟内119人在线,浏览次数为250次。第一微博宣传的四百多次转发是在23日,第二这个时间段不是高峰期,我们大致推断 24日PV在一万以上,23日PV在五万以上。
数据的意义
截止24日,2.1万雅安网友中的七千多人在地震后发出14万条微博,活跃用户高达35%,平均每个用户以每天4条的高频率发布微博。之前有微博活跃度下降,微信将取代微博,甚至微博已死等言论,但关键时刻还是微博顶上去了,微信似乎没帮上啥忙。
国外已经可以通过社交网络的数据挖掘预测流感趋势,监测灾难时期的民众恐慌情绪等。我们会对抓取的原始数据进行分析,期望能够为救灾工作总结经验教训。水平有限,不敢说一定能成功,但做一下探索,失败了也能让后来者避开陷阱少走弯路。
参与雅安之声的全部志愿者同意将数据无偿公开。有需要数据做研究的传播、心理等专业人士,告知@勤娘纸 分析维度等,她协调技术人员帮忙提取数据。需要原始数据的同行找@张文浩100 拷贝。