你在数字方面很拿手?数据令你感到着迷?那么你听到的声音是机会正在敲门。因为“大数据时代”已经降临,在这一领域拥有专长的人士正面临着许多新的机会。李浩,作为一名刚刚从清华大学毕业的MBA,在今年年初被EMC抢聘,加入了该公司迅速增长中的数据顾问团队。EMC数据顾问的职责是帮助企业弄明白数据爆炸背后的意义——网络流量和社交网络评论,以及监控出货量、供应商和客户的软件和传感器等——用来指导决策、削减成本和提高销售额。
为了开发大数据,类似EMC这样的企业将需要许多象李浩一样的人。值得关注的是,这些IT新贵们——最初是在谷歌、IBM,现在是在Facebook、EMC——都精通于驾驭网络数据(网络搜索、帖子和信息等)与互联网广告之间的关系。这意味着,这些IT、互联网企业也面临着一些新的商业机会——大数据改变了数据行业的生态系统。
所谓大数据的生态系统,就是数据的生存周期。数据从产生,到处理,再到价值提取,最后被消费掉,这整个过程就构成了大数据的生态系统。在这个生态系统中,无论是数据的存储、数据的处理、数据的分享、数据的检索、数据的分析,还是数据的可视化,都存在着不同的商业需求。需求的出现必然会导致创新的产生。所以,在每个步骤都有不少初创公司在深耕自己所在的领域,试图通过新技术和新方法来实现新的商业模式。
百度:大数据时代的自主路线
数据充斥所带来的影响远远超出了预想。
“生命中的一天”(Day in the Life)系列摄影作品的创作人里克·斯莫兰(Rick Smolan)正计划在今年晚些时候推出一个新项目,这个名为“大数据的人类脸孔”(The Human Face of Big Data)的项目将记录数据的采集和使用。斯莫兰是一名狂热分子,他认为“大数据”有成为“人性仪表盘”的潜力,也就是一种能帮助人类与贫穷、犯罪和污染等现象展开斗争的智能工具。
事实上,数据不仅仅正在变得更加可用,同时也正在变得更加容易被计算机所理解。“大数据”发展趋势中所增加的大部分数据都是在自然环境下产生的,比如说网络言论、图片和视频等不受控制的东西,以及来自于传感器的数据等。这些是所谓的“非结构化数据”,通常不能为传统的数据库所用。但是,旨在从互联网时代非结构化数据的庞大“宝藏”中获得知识和洞察力的计算机工具正在迅速发展中。在这种工具发展的最前沿是迅速取得进步的人工智能(AI)技术,比如说自然语言处理、模式识别和机器学习等。
这些人工智能技术能应用于许多领域。举例来说,国内的搜索巨头百度,其搜索和广告业务及都利用了很多的人工智能技术。百度的这两项业务都让“大数据”时代的挑战变得真实起来,它们对数量庞大的数据进行分析,并作出瞬时的决策。
数据洪流
作为互联网公司,百度每天都要面对海量数据。其每天收集几千亿网页,系统每天都产生海量日志,其容量达到百PB级,需要数万台服务器存储,这还不算用户在使用百度产品中自己生成的内容(UGC)和百度客户的数据,这部分数据加起来就有几个PB,仅这些数据就比传统企业的大上成千上万倍。并且随着网页资源增加和搜索质量提升,网页和超链数据将随之急剧增加。
对此,百度技术总监陈尚义表示,百度数据呈现海量、高增长,结构化和非结构化大量并存,记录大小差距巨大,数据一致性强弱不一,数据冷热不均,突发事件常导致数据访问波峰等特点。与此同时,百度业务对数据存储和处理提出极高要求。要求数据高可用、高可靠、高通量、高时效、高并发、高可扩展(简称“六高”),要求百度的数据存储能力和处理能力必须以非常简单的方式获得扩容,以降低维护升级的代价。
按照陈尚义的说法,面对这些特点和要求,百度必须开发自己的大数据存储系统。不过,在百度最早上线数据存储系统时,类似Hadoop和HDFS等开源系统还没有发布,而且还由于开源系统的性能受限、无法充分利用机器的各种资源尤其是新硬件(flash/SSD)资源为特定的访问模式做优化、缺乏满足工业界的稳定性等诸多原因,百度不能使用开源系统。不仅开源系统的用不上,而且市场上也无现成商业化产品可供百度使用,因为任何一个厂商都没有如此海量、如此复杂的数据。
自主开发
百度一开始就自主开发了大数据存储系统,用于存储网页和超链、客户信息和用户产品、系统日志等海量数据,支持Table、Pipe、File和KV等数据类型,满足百度业务的流式和触发式计算、文件存储和访问、低延迟、高并发的需求。在此基础之上,百度还面向广大网民推出云存储系统,在前不久发布的百度易手机上,每个用户可拥有100G的免费存储空间。
陈尚义介绍,为了应对上百PB的数据,满足诸多近乎苛刻的要求,百度作出了巨大努力,“开发了网页更新模型,将对磁盘的随机写转化为批量的顺序写,大大提高了数据的写入速度,缩短了网页数据的更新周期,提高了搜索引擎等产品的时效性;对涉及数据存储和访问的各个方面进行了全局优化;定制Flash,使存储系统直接对Flash的多通道(Multiple Chanel)编程,既提高了并发性,又提高了存储资源的容量;采取多副本存储,以提高系统的可靠性和可用性;创造性地开发了自主知识产权的复制协议(Replication Protocol);采取数据分治策略,保证数据存储的各个部件可以水平扩展,即通过简单地增加服务器就可以达到扩展的目的;采用拆片存储技术,避免单机存储热点记录或大记录所带来的性能瓶颈;运用局部更新大记录的策略,对于大记录分块存储,只有修改了的块才被更新,而不是对整个大文件都重写;采用三层数据存储模型,将热点数据存放于内存,较热的数据存放于flash, “冷”数据存放于磁盘,针对数据访问的特性充分利用各种资源的优势。
陈尚义透露,未来,百度还将开发跨数据中心的存储系统,面临带宽、通信稳定性所带来的压力;在数据量、吞吐量急剧增大的背景下,不断提高时效性、一致性、减低延迟、提高并发;在新的Flash/SSD硬件和万M网络的引入、数据存储和处理瓶颈发生转移的情况下,百度原来积累的存储体系将面临变革。
亚马逊:创新者的机会
面对“大数据”的洪流, 亚马逊的成功不仅仅在于它的敏锐,更在于能够把商业机会变成商业现实。规模扩张之后,亚马逊还一次次在模式上“无中生有”,培育出新增长点;这家公司何以能有效创新?不断蜕变的幕后逻辑到底是什么?
数据改变了什么
一方面是,亚马逊是大数据技术的受益者,另一方面亚马逊把这种技术迅速产品化,并延伸成为了一系列服务的支撑力。
数据化运营是亚马逊成功的秘诀之一,已经得到了广泛的认同。事实证明,亚马逊会用数据来为平台上的商家提供服务,比如在某天某个时间段,监测到网球拍卖得不错,亚马逊会去搜索看哪些商家在卖网球拍,如果该商家还只是在线下,他们会主动去问,你需不需要把业务搬到亚马逊平台上去?亚马逊全球商户服务高级副总裁Sebastian说,亚马逊还会根据实时的销售数据,帮助商家制订未来销售计划。
当然,基于自身的特点创新,亚马逊还是大数据和云计算的先行者,它推出的S3云服务也早已成为云端存储的业界标准。通过易于使用的API,用户可以很方便地将各种数据对象放在云端,然后再像使用水电一般按用量收费。S3根据用户所占用的存储空间、请求数和数据流量进行阶梯定价收费。同时,S3还为对数据可靠性的要求并不高的用户提供了更为便宜的去冗余存储模式。S3服务是典型的付费服务商业模式,增长十分迅速。2010年四季度共有2620亿个对象储存在S3上,而2011年四季度这个数字已经翻了一倍,达到5660亿。更难得的是,Amazon S3的云服务真正让许多创业公司享受到了云计算带来的便捷。使用S3作为存储支持的文件分享服务Dropbox进行的最近一轮融资,估值高达80亿美元,每天上传的文件多达2亿个。
数据至上
有很多的轶事证据表明,数据至上的思考方式将带来很高的回报。沃尔玛(WMT)和Kohl’s等零售商也已经开始对销售额、定价以及经济学、人口统计学和天气数据进行分析,藉此在特定的连锁店中选择合适的上架产品,并基于这些分析来判定商品减价的时机。UPS等货运公司也正在对卡车交货时间和交通模式等相关数据进行分析,以此对其运输路线进行微调。
从另一个角度来看,大数据为云计算大规模与分布式的计算能力提供了应用的空间,解决了传统计算机无法解决的问题。同时这个领域的计算标准与软件均刚刚起步,为全世界新型软、硬件及应用创新提供了前所未有的机会。这一点,在宽带资本CEO田溯宁那里得到了印证,他表示,“数据中心正在成为新时代的‘信息电厂’,成为知识经济的基础设施。从海量数据中提取有价值的信息,数据分析使数据变得更有意义,并将影响政府、金融、零售、娱乐、媒体等各个领域,带来革命性的变化”。
亚马逊正在成为各种“信息电厂”链条上最重要的合作伙伴。最近,美国最大的共同基金公司Fidelity表示,他们将携手亚马逊在其网站上推出一个新的金融服务栏目,Fidelity将成为“主要”的内容赞助商。
亚马逊公司发言人Craig Berman表示,这项合作是亚马逊继续扩张其业务范围的一个举措。
核心关注:拓步ERP系统平台是覆盖了众多的业务领域、行业应用,蕴涵了丰富的ERP管理思想,集成了ERP软件业务管理理念,功能涉及供应链、成本、制造、CRM、HR等众多业务领域的管理,全面涵盖了企业关注ERP管理系统的核心领域,是众多中小企业信息化建设首选的ERP管理软件信赖品牌。
转载请注明出处:拓步ERP资讯网http://www.toberp.com/
本文标题:大数据下的生态系统
本文网址:http://www.toberp.com/html/consultation/1083936580.html