大数据已被提升到国家战略高度。美国启动了“大数据研究和发展计划”,动用美国国家科学基金、国家卫生研究院、能源部、国防部、国防部高级研究计划局和美国地质勘探局等6个联邦政府部门的资源,大力推动大数据相关收集、组织和分析工具及技术的研发,致力于开放型、共享型政府建设。
大数据已被定义为科学探索的第四范式。继几千年前的实验科学、数百年前的理论科学和数十年前的计算科学之后,当今的数据爆炸孕育了数据密集型科学,将理论、实验和计算仿真等范式统一起来。大数据已被誉为“非竞争性”生产要素。
大数据具有“取之不尽,用之不竭”的特性,在不断的再利用、重组和扩展中持续释放其潜在价值,在广泛的公开、共享中不断创造着新的财富。
然而,大数据的3V特征也好,4V特征也罢,仍然没有撇清与海量数据、超大规模数据的关系;为数不多的应用案例,依然难逃传统数据分析和数据挖掘的嫌疑;大数据的实时分析、产品的关联度分析,很难抹去精准营销、精益管理的传统思维定式。这更像是一种“新瓶装旧酒”的困局,一种“唐·吉诃德式”的悖论——越是强调大数据的实践应用,就越扼杀大数据的潜在价值。
为何如此?根源在于,大数据的价值在于预测未知领域、非特定因素的未来趋势,在于破解长期的、普遍的社会难题。而目前的大数据技术和应用,依然局限于历史和实时数据的关联分析,局限于满足短线的、特定的市场需求。
“解决我,不然我将吞掉你的体系”。正如当年罗素悖论试图颠覆现代数据基础——集合论一样,破解社会难题与苟安于市场需求的悖论正在向大数据宣战。解决悖论的过程,恰恰是理论和方法应运而生的过程。而人们试图解决悖论的努力,正好是大数据落地生根的推动力。
方法论缺位
大数据与海量数据、超大规模数据有何不同?如何跨越学术与产业、技术与应用的鸿沟?
自2008年《自然》杂志推出“大数据”专刊以来,大数据概念就从学术大讨论,转向了企业的数字化转型,进而上升到“开放政府数据”的战略布局。然而,单纯的数量上的规模庞大,并不能轻易地将大数据与以往的“海量数据”、“超大规模数据”等区别开,因为三者均没有设置数量级等门槛。
概念的模糊,没有影响到大数据概念的炒作,却着实影响到了大数据应用的推广。IBM对全球95个国家和地区、26个行业的144名业务人员或IT专业人士做了调研,该调研发现,大多数企业已经认识到大数据的决策价值和业务优化的潜能,但是他们对布局企业数据战略却束手无策,甚至多数企业不确定如何推进大数据应用。这一现象可以归因于企业管理者对于大规模投资大数据和高级分析工具,特别是对数据科学家等人才的需求,表示怀疑。因为他们还没有认识到从哪里获取数据,一些企业还没有抹去数据仓库与业务无法融合的阴影。
老生常谈的大数据3V或4V特征,更是让CEO们望而生畏。“大数据是指利用广泛信息源来推动实时决策的做法。”哈佛商学院客座教授托马斯·达文波特在接受媒体采访时的阐述可能曾让企业家们怦然心动,但他接下来的解释却与IT企业的说辞没太大区别。在达文波特看来,大数据的特征可以用3个'V'来描述:数量(Volume,大量数据)、速度(Velocity,数据变化很快)以及多样性(Variety,数据源内部的和外部的,系统的和散乱的)。有时还有第4个V:真实性(Veracity,反映数据质量)。加上IDC和Teradata给出的另一个V——价值性(Value,数据的使用价值和潜在价值),这些概念和定义均没有回答大数据与业务融合的问题。
方法论缺位是最大的障碍。大数据发展的核心动力源于人们测量、记录和分析世界的渴望,满足这些渴望需要数据、技术和思维三大要素。在计算技术、通信技术日益成熟的今天,在廉价的、便捷的数字化存储普及的当下,数据无处不在,技术正以标准化、商品化的方式提供,事实上思维和方法论才是决定大数据成败的关键。但目前来看,跨越学术与产业、技术与应用之间鸿沟的方法论依然不完善,以至于被大数据畅销书和大数据技术服务公司反复借用的大数据应用案例,均是一些蹩脚的例证。
预测能力待考
凭什么说大数据预测是准确的?有什么依据证明数据推动型战略有利于提升企业业绩?
“运用大数据做决策的那些行业前三名企业,比其竞争对手在产能上高5%,在利润上高6%。”这是麻省理工学院的数字商业中心最近完成的一个调查的数据。该调研还发现:越是自定义为数据驱动型的公司,越会客观地衡量公司的财务与运营结果。
的确,被誉为大数据应用楷模的谷歌、亚马逊等数据型公司在2013年第一季度确实取得了不俗的业绩。其中谷歌营业收入增长了31%,亚马逊增长了22%。但是,一些大数据技术和解决方案服务的公司并没有取得如此的业绩。比如IBM第一季度营业收入下滑5.1%,净利润下滑1.1%;微软第一季度营业收入下滑8%,净利润下滑22%;英特尔营业收入下滑2%,利润下滑25%。
“几家欢乐几家愁”的业绩表现,与大数据有关还是无关呢?这与大数据预测是否精准的问题同样难以回答。学术界、企业界都不会质疑大数据的预测功能。《大数据时代》一书的作者维克托·迈尔-舍恩伯格说,大数据的核心就是预测。它通常被视为人工智能的一部分,或者更确切地说,被视为一种机器学习。他认为,大数据大大解放了人们的分析能力。一是可以分析更多的数据,甚至是相关的所有数据,而不再依赖于随机抽样;二是研究数据如此之多,以至于我们不再热衷于追求精确度;三是不必拘泥于对因果关系的探究,而可以在相关关系中发现大数据的潜在价值。因此,当人们可以放弃寻找因果关系的传统偏好,开始挖掘相关关系的好处时,一个用数据预测的时代才会到来。
遗憾的是,无论是IBM的大数据接受程度调研,还是麻省理工学院的大数据战略效果评估,都是传统的随机抽样,甚至是结构性访谈,而非大数据的全体数据、模糊数据采集。被广泛引用的谷歌预测H1N1流感传播轨迹、沃尔玛将啤酒和尿布摆放在一起的故事,无非是产品和词汇的关联性分析。同样,《少数派报告》讲述的华盛顿特区警局预测犯罪的故事,也不过是电影的情节,而且与“无罪推定”、“犯罪的四个要件(犯罪主体、犯罪的主观方面、犯罪的客观方面、犯罪客体)”等常识相悖。
马克·吐温说:历史不会重演,但自有其规律。技术的进步让人类揭示历史规律更加便捷和更有可能,大数据技术的进步就是其中之一。因此,与其说大数据的核心价值是对未来的预测,不如说是对过去沉睡的规律的揭示。在“自证预言”等复杂因素的作用下,大数据对社会的一些预测和判断,很可能到后来只是“事实证明”。
数据并非万能
怎样做决策?谁来做决策?这样的问题只能由企业家回答,大数据充其量是“用数据说话”的旁证。
数据之于信息社会就如燃料之于工业革命,是人们进行创新的力量源泉。没有大量鲜活的数据和健全的服务市场,这些创新就实现不了。这是维克托·迈尔-舍恩伯格的观点。一些学者更进一步,将大数据视作第三次工业革命的战略资源。
不可否认,大数据标志着人类在寻求量化和认识世界的道路上前进了一步。这是计算技术的进步,是人类决策工具的进步。但正如《哈佛商业评论》所批评的:“高管们明明还是按照传统的方式做决定,以那些高薪人士的意见为主,却拿出一份香艳的数据报告证明自己的决定是多么英明。其实那不过是吩咐下属四处寻找的专为这个决定做辩护的一堆数字。”这些所谓的“伪大数据决策”也许是一种常态,“高价智囊请闭嘴”、“让数据做主”很可能只是大数据倡导者的理想。
《点球成金》的故事经常被大数据概念的倡导者拿来佐证“专家的消亡和数据科学家的崛起”。改编自迈克尔·刘易斯的《魔球:逆境中制胜的智慧》的影片《点球成金》,讲述了一个真实的故事,介绍了奥克兰运动家棒球队总经理比利·比恩的经营哲学,描述了他抛弃几百年延续的选择球员的惯常做法,采用了一种依靠电脑程序和数学模型分析比赛数据来选择球员的方法。比利·比恩的成功称得上是对球探们经验决策的颠覆,是让数据说话的成功范例。但是,其所分析的数据根本称不上大数据,甚至连海量数据也够不上。比利·比恩成功的关键不在于“让数据说话”,而是为“球队为赢球而建,不是为球星而建”的经营常识找到了数据注脚。
正如维克托·迈尔-舍恩伯格将大数据视为人工智能的一部分,视为机器学习的一种应用一样,数据决策和数据旁证的博弈其实是人和机器的博弈。熟稔经营之道的企业家们并不情愿轻易将决策权交给大数据、放任服务器。而且,数据有时候也可能是企业管理的“绊脚石”。
直觉主义让位于数据分析,专家决策让位于群众智慧,只能是大数据倡导者的一厢情愿。一个折中的办法是,数据做分析,专家做判断,数据给答案,专家做选择。但对企业家而言,专家可以找,思想家必须自己做。从数据战略的构建,到群体智慧的萃取;从社会关系网络的解析,到复杂的自组织系统的发现,均依赖于企业家的智慧,而不能完全依赖于机器。即便是有一将难求的数据科学家的协助,大数据决策依然是辅助系统。
核心关注:拓步ERP系统平台是覆盖了众多的业务领域、行业应用,蕴涵了丰富的ERP管理思想,集成了ERP软件业务管理理念,功能涉及供应链、成本、制造、CRM、HR等众多业务领域的管理,全面涵盖了企业关注ERP管理系统的核心领域,是众多中小企业信息化建设首选的ERP管理软件信赖品牌。
转载请注明出处:拓步ERP资讯网http://www.toberp.com/
本文标题:中国计算机报观察:大数据五大悖论