数据存储产业服务平台

大数据时代如何收集、分析数据

在数据收集和分析这一正在繁荣发展的行业中,Factual创始人、此外还对其他30多家创业公司进行投资的吉拉德-艾尔贝兹(Gilad Elbaz)可能是最具影响力的投资者。

在7岁大时,艾尔贝兹曾写道:“我希望成为一名富裕的、非常聪明的数学家。”原因是,那将帮助他“发明时间机器、机器人和能回答任何问题的机器之类的东西”。

此后的34年时间里,艾尔贝兹已经完成了许多的目标,他已创造了能穿越网络的软件机器人、为谷歌回答了一些非常重大的问题,并在这一过程中获得了远远超过百万富翁的财富。

但是,他的时间机器计划则已被抛弃,原因是其发现了更加重要的事情,那就是试图找出世界上的每一个事实,并将这些事实都容纳在被他称为Factual的公司中。

“世界是一个大数据的问题。”艾尔贝兹在这家公司的总部中说道,这是一间安静的办公室,比洛杉矶乡村俱乐部高14层楼。他身形纤瘦,说话温和,当有什么想法让他感到激动时,他会在椅子中不停地摇动身体。“如果能在一写下错误的东西时就能马上发现,那将会怎样的一种情况?Factual肯定会是改变商界的新事物,对计算来说也是一种宝贵的新工具。”

在“大数据”蓬勃发展的这个年代里,曾经是难以想象的数量庞大的信息正在汇聚起来,从而创造出足以改变世界的发明。而在这一领域中,艾尔贝兹可能是最具影响力的发明者和投资者。除了Factual以外,他还对30家创业公司进行了投资,其中包括旧金山的一个致力于“大数据”的企业孵化器。 Factual的总部位于星光大道的一幢高楼中,艾尔贝兹在这里主持召开研讨会,希望在洛杉矶地区培育一个数据社区。

艾尔贝兹还是其母校加州理工学院理事会的一员,同时还是X Prize Foundation基金的成员,这个基金会向在太空飞行、医药和基因科学等领域克服难题的团队提供现金奖金。艾尔贝兹出售给谷歌的公司Applied Semantics是谷歌旗下AdSense业务的基础,这项业务每年都能给谷歌带来接近100亿美元的营收。

虽然艾尔贝兹的投资额十分庞大,而且对前景的展望也很有价值,但他仍相对鲜为人知。他是如此的不爱出风头,以至于当最近他在参加一次有3000名数据科学家参加的会议时,仅有他投资的一家公司的几名职员认识他。他与曾经是联邦检察官的妻子和三名子女住在西好莱坞的一座乡间别墅中,一家人过着安静的生活。在个人兴趣方面,他喜欢在当地的一家运动俱乐部中打篮球。

艾尔贝兹说道,他的精神和金融资产就像是他需要分配的礼物,从而让世界变得更加美好。

“如果所有的数据都明晰无误,那么从世界扣掉价值的人就会减少很多,”他说道,“而为世界增添价值的人就会增加很多。”

创造明确的、可靠的数据还能让Factual成为一家规模很大的公司。

“艾尔贝兹远远领先于我们其他人,对于这位企业家所说的每件事情,我都要过几分钟才能理解。”通过麾下公司Andreessen Horowitz为Factual提供支持的风险资本家本-霍洛维茨(Ben Horowitz)说道。“在三年以前,他认为Factual是改变世界的最大机会。而随着时间的推移,世界已经朝着他所预料的方向发生了变化。”

自2008年创办以来,Factual已经吸收了大量的事实,用艾尔贝兹的话来说,就是“我们已经收集了数百上千亿的个体事实”。

Factual不仅向大公司提供数据,同时也面向规模较小的软件开发商,这些数据中包括可用的政府数据、以兆兆字节为计量单位的公司数据、以及全球 50个国家的6000多个地方的信息,每一条信息都有17到40条的相关描述。Factual用30种不同的方式对80多万个餐馆加以描述,其中包括地 址、所有权以及食客和卫生组织的评价等。此外,这些数据还包括5亿个网页的信息、一份美国高中列表以及美国180万名医疗保健专家的办公室所在地、特长和 保险偏好等,还包括1.4万种葡萄酒的列表、从1950年到1974年的军用飞机事故、以及大型庆典活动的参加人数等。艾尔贝兹指出,即使是奇特的事实也 会有用处。

在靠近Factual总部的地方,艾尔贝兹储存着500兆兆字节的数据,这大致相当于整个国会图书馆所需数据量的两倍。在亚马逊(微博)庞大的计算 机云内部,他还存储着更多的数据。他领导下的统计员们对大量的数据进行了收集和清理,用来说明很多事情,比如说卫生部门在对卫生设施进行评分时的差异性、 “中学”这个词汇在某个特别的镇上意味着两年还是三年的时间、以及原始数据及其副本之间是否存在修正等。

Factual的计划是,为相互之间联系紧密的数千个超计算云建立全球范围内最主要的参照点。到今年底为止,数字世界的数据总量预计将会达到2.7 泽字节(一泽字节相当于一万亿GB),大约相当于7000亿张DVD的数据容量。Factual目前的员工总数为50人,当世界开始增长,以及这些数据库开始互的情况下,这家公司的价值将被证明是极其庞大的。

Factual按浮动价格向公司和独立软件开发商出售数据,其依据是有多少信息被使用。小规模的数据提供是免费的,而最大型客户需要支付的费用则会达到成百上千万美元。在有些时候,Factual还会与其他公司进行数据交易,目的是扩大自身所占有的资源。

就目前而言,某些客户使用Factual的数据是为了向手机地图加入餐厅地址等信息,或者是为了规划销售战略等。但Factual的真实目的则要更 加广泛,直指当前时代一项重大业务的核心,那就是利用所有基于云的数据和算法,来找到自然和社会的模式,供科学家加以观察,同时供商界加以开拓。

“数据一直都仅被视为计算的副作用,一种当你工作时用来查阅的东西。”艾尔贝兹说道。“而我们将其视为一个完全独立的层面,是每个人在希望解决问题时都不得不去挖掘数据的层面,但你自己可能没有所需的完全可靠的数据。”

举例来说,一个餐饮连锁运营商可利用Factual来找出一个新的选址是否靠近竞争对手,以及当地人在社交点评网站Yelp上如何谈论这个地方。查 阅餐厅附近的加油站数据可以知道有多少辆汽车会从高速公路上开下来,运营商还可利用Factual来看看自己的餐厅在网络上的哪些地方被提及,或是纠正其 他人所说的有关餐厅的情况。

Factual拥有来自于多名硅谷明星级人物的2700万美元融资,目前仍是一家封闭式持股的公司,但却已经有了成千上万的客户。 Facebook、CitySearch、AT&T及其他一些公司都会使用Factual来获得有关某些地方的信息,《新闻周刊》则使用数据库来为美国最绿色的公司进行评级。

其他一些公司则利用Factual的数据来执行产品规划和客户关怀等任务。这家公司还没能实现盈利,艾尔贝兹正在聘用更多人才和建立更多数据集等领 域进行投资,公司团队已经包括高级数学家、来自于LinkedIn和谷歌的数据科学家、以及至少一名精通罗马后期考古学的专业人士。

在这个新兴的行业中,Factual的竞争对手包括微软(微博)等公司,后者称其Windows Azure Marketplace拥有“数万亿个数据点”和一个语言翻译器。此外,人们也可以向Azure出售数据集。Infochimps提供地理和社交数 据,Gnip和Datasift等公司提供来自于Twitter及其他社交网站的深度数据,由另一名数学家创立的Wolfram Alpha则拥有苹果Siri所使用的数据和计算。

一家名为ClearStory的年轻公司则正试图把所有这些公司都绑在一起,这家同样由Andreessen Horowitz提供融资的创业公司希望提供的是能让普通人使用的所谓“数据集市”。

其他几名数据专家(主要来自于谷歌)也已辞去了原来的工作,用新的方式来争夺大量的信息。原谷歌产品经理大卫-弗里德伯格(David Friedberg)开创了Climate Corporation,这家公司利用有关天气、土壤孔隙度以及小麦和大豆根部结构的政府数据来制作农作物保险合同。

艾尔贝兹还是Kaggle的投资者,这家公司为找到数据模式的人提供现金奖励。举例来说,NASA(美国国家航空航天局)利用它来找到更好的方式去 测量星系的形状;在竞赛开始的第一个周,一名专业为冰川绘图的博士生就发现了超过NASA的算法。艾尔贝兹还向ZestCash注入了资金,这家公司以低 于行业平均值的利率提供发薪日贷款,通过电话账单及申请者如何解读ZestCash网站等要素来判断风险。

ZestCash CEO道格拉斯-迈瑞尔(Douglas Merrill)曾是谷歌的内部信息系统负责人。

“我们绝对,一切数据都是信用数据,只不过我们还不知道如何使用它罢了。”他说道,“这就是我们所有人在谷歌学到的数学。一张纸的重要性在于上面写 着什么,还在于写的东西有多好的愈发,字体是什么,创作或编辑的时间是什么,诸如此类。艾尔贝兹正在做的事情也是一样的,是有关数据的问题。数据越多总是 越好。”

艾尔贝兹出生在华盛顿特区,在俄亥俄州、德克萨斯州和佛罗里达州长大成人。艾尔贝兹的父亲出生在摩洛哥,在以色列长大,曾担任一所学校的校长和希伯 来文学教授;母亲是一名新闻记者,在艾尔贝兹18岁时去世。在3岁时,他就开始在幼儿园中写重复的数字串,他喜欢读年鉴,喜欢看电视上的股价图表,试图从 中找出数据模式。

“他会去参加许多数学竞赛,然后拿三四个奖回来。”艾尔贝兹的父亲尼西姆-艾尔贝兹(Nissim Elbaz)说道。“在参加数学竞赛的间歇,他会去参加物理学比赛玩儿。当我跟他说他是一个大天才时,他就会摆出一副轻蔑的脸色给我看,所以后来我就学会了把这句话藏在心里。”

老艾尔贝兹说道,当他试图向儿子解释以色列与巴勒斯坦之间的矛盾冲突时,后者的回答是,如果双方能在事实上达成一致,那么这种仇恨就将终止。

从幼年开始,艾尔贝兹就喜欢做与数学相关的生意——比如说在德克萨斯州的厄尔巴索(El Paso)把一种品牌的棒球卡全部买光,然后在纪念大会上以三倍的钱转卖出去。

“我们会猜罐子中弹球的数量来玩博彩游戏。”艾尔贝兹的弟弟伊坦-艾尔贝兹(Eytan Elbaz)说道,他曾与哥哥共事,现在则拥有了自己的两家创业公司。“16岁时他举办了一次比赛,用摇快艇骰子的方式来进行比赛。他熬夜制作了一张试算表,来显示所有支出和我们能获得的收入。”艾尔贝兹的另一个兄弟诺姆-艾尔贝兹(Noam Elbaz)过去十年里一直都在以色列的一所高等学院中从事研究工作。

在加州理工学院就学时,艾尔贝兹的专业是应用科学和经济学家。当时他对垄断这一课题感兴趣,并因一篇论文而获奖,内容是判定公司会因想要垄断市场而承担财务上的损失。

艾尔贝兹曾在IBM供职两年,着眼于利用计算机来解决制造业的问题。然后他跳槽到数据库公司Skybase,那是在20世纪初期,IBM正在从大型计算机厂商向服务器和PC厂商转变。

艾尔贝兹的弟弟说道,他认为这段经历使其发生了改变。许多职员都“只是试图保住工作,而不是齐心协力为公司工作”,伊坦说道。他回忆道,由于担心员工私藏数据的缘故,艾尔贝兹曾“开始谈论如果人们分享数据,那么事情将会变好多少”。

随后艾尔贝兹加入了一家名为Microunity的半导体创业公司,并担任这家公司的顾问,在此期间他存钱炒股,为第一家自己的公司筹集了部分资 金。他的父亲给了1万美元来让他进行投资,而艾尔贝兹在18个月时间里将其变成了3万美元。当艾尔贝兹和加州理工学院的一个朋友决定在1998年成立公司 ——这家公司后来变成了Applied Semantics——他父亲让他把股市里赢到的钱投入到公司中去。

Applied Semantics的软件能迅速扫描成千上万更多网页,通过比较其内容的方式,这种软件能告诉公司哪种类型的广告将在某个页面上表现良好。这家公司拥有 45名员工,当谷歌在2003年以1.02亿美元的现金加IPO(首次公开募股)以前的股票对其进行收购时,该公司已经实现了盈利。

虽然艾尔贝兹并未透露他从这项交易中获得了多少收入,但他父亲来自于投资股市的3万美元最终变成了1800万美元。“毫无疑问,是他改变了我的退休生活。”尼西姆-艾尔贝兹说道。

艾尔贝兹随后曾在谷歌驻加利福尼亚州圣塔莫尼卡(Santa Monica)的工程办公室担任负责人,与其妻子伊莉莎(Elyssa)和三个儿子住在附近的处所。他为多个领域捐出了数百万美元,其中包括科学教育、环境措施以及帮助罗衫非营利机构的一个组织等。他还曾向Common Crawl捐款,这是一种谷歌类型的网络监测工具,研究者能通过亚马逊的电脑使用这种工具。

在2007年,艾尔贝兹从谷歌离职,开创了Factual。2009年,霍洛维茨和Andreessen Horowitz的运营者马克-安德森(Mark Andreessen)被邀请对这家公司进行投资。当时,霍洛维茨因一种想法而感到困惑,那就是艾尔贝兹已经很富有,为何还要努力开创另一家创业公司。但当艾尔贝兹对其搭建事实“宫殿”的想法进行描述以后,霍洛维茨称其认识到这是一位“忠实的信徒”。

“当时我问他:‘你如此富有,为何还要构建这家公司呢?’”霍洛维茨回忆道。“他给出的答案是我听过的最长、最深思熟虑的回答之一。他认为,这是一 个改变世界的机会,而这对他而言比金钱更重要。”霍洛维茨说道,艾尔贝兹告诉他,他需要拿钱来刺激工程师的工作动力,他需要在智力仍旧足够强大时实现自己 的目标。

“我终于认识到这并非‘太富而不会努力工作’的问题。”霍洛维茨说道。

Factual的其他投资者还包括罗恩-康威(Ron Conway)、埃斯特-戴森(Esther Dyson)、Index Ventures和Founder Collective等。

Factual还在上海和加利福尼亚州的帕罗奥多(Palo Alto)拥有办事处,在后一个地方,艾尔贝兹所希望的是从硅谷吸引更多人才。他在帕罗奥多聘用的前两名员工分别是蒂姆-什克洛夫斯基(Tim Chklovski)和泰勒-贝尔(Tyler Bell),前者拥有麻省理工学院人工智能博士学位,后者曾在牛津大学从事研究工作,随后供职于雅虎,负责地图相关事务。

对员工来说,一个难题是判定多少数据才够。“毫无疑问,我们希望获得全球每一个加油站的正确名称和位置,”贝尔说道,“而并非每个加油站的价格变动。”

“等一下,我倒是希望知道全球范围内环流的每一加仑汽油,”什克洛夫斯基插嘴道,“这可能需要20年时间,但很有意思。”

在大多数创业公司中,人们谈论的事情无非是越大越好,因此要花20年时间做什么事情看起来可能就像是妄想与空洞的结合。但艾尔贝兹和他的团队则表示,他们觉得这很有意义,因为把真实的事实告诉所有人至少是份终生的工作。

“最近,我一直都在想我们需要获得更多的个人数据。”艾尔贝兹说道。他所说的个人数据并非姓名和地址等等,而是其遗传信息、饮食习惯、锻炼身体的时 间和地点,诸如此类——理想的情况是搜集这个星球上所有人的数据,无论是现在还是永远。“我想要指出一条道路,”他说道,“让人们从数据走向科学。”

未经允许不得转载:存储在线-存储专业媒体 » 大数据时代如何收集、分析数据