预计阅读本页时间:-
定义大数据
在对大数据的混淆中,很大一部分从大数据的定义开始。为了了解我们的调研受访者对该术语的定义,我们让每个受访者选出大数据的两个特征。没有任何一个特征在选择中具有明确的主导优势,相反,受访者对于当前更多的数据、数据和分析的新类型或者对更实时的信息分析的新要求的看法各异(图4.2)。
我们让受访者从以上选项中选出两种描述,说明他们的组织如何看待大数据。这些选项经过缩写,各项选择经过标准化处理,使总和等于100%。受访者总数=1144。
图4.2 受访者对大数据有不同的看法
这些结果与确定大数据的三个维度的有用方式相一致——即“3V”:数量(Volume)、多样性(Variety)和速度(Velocity)。尽管这些是涵盖大数据本身的关键属性,但我们认为,企业需要考虑一个重要的第四维度:精确性(Veracity)。将精确性作为大数据的第四个属性凸显了应对与管理某些类型数据中固有的不确定性的重要性(图4.3)。
广告:个人专属 VPN,独立 IP,无限流量,多机房切换,还可以屏蔽广告和恶意软件,每月最低仅 5 美元
图4.3 大数据的四个维度
涵盖这四个维度有助于定义和区分大数据:
数量 即数据量。数量也许是与大数据最相关的特征,指企业为了改进企业中的决策而试图利用的大量数据。数据量持续以前所未有的速度增加。然而,真正造成数据量“巨大”的原因在不同的行业和地区各有不同,而且没有达到通常引用的PB级(Petabyte)和ZB级(Zetabyte)。超过一半的受访者认为数据量达到Terabyte和Petabyte之间才称为大数据,而30%的受访者不知道“大”对于其组织应该有多大。所有受访者都同意,当前被认为“巨大的数量”在将来甚至会更大。
多样性 不同类型的数据和数据源。多样性是指管理多种数据类型的复杂性,包括结构化、半结构化和非结构化数据。企业需要整合并分析来自复杂的传统和非传统信息源的数据,包括企业内部和外部的数据。随着传感器、智能设备和社会协同技术的爆炸性增长,数据的类型无以计数,包括:文本、微博、传感器数据、音频、视频、点击流、日志文件等。
速度 数据在运动中。数据创建、处理和分析的速度持续在加快。加速的原因是数据创建的实时性天性,以及需要将流数据结合到业务流程和决策过程中的要求。速度影响数据时延——从数据创建或获取到数据可以访问的时间差。目前,数据以传统系统不可能达到的速度在产生、获取、存储和分析。对于对时间敏感的流程,例如实时欺诈监测或多渠道“即时”营销,某些类型的数据必须实时地分析,以对业务产生价值。
精确性 数据不确定性。精确性指与某些数据类型相关的可靠性。追求高数据质量是一项重要的大数据要求和挑战,但是,即使最优秀的数据清理方法也无法消除某些数据固有的不可预测性,例如天气、经济或者客户最终的购买决定。不确定性的确认和规划的需求是大数据的一个维度,这是随着高管需要更好地了解围绕他们身边的不确定性而引入的维度。2
精确性,第四个“V”
有些数据具有固有的不确定性,例如:人的感情和诚实性,曼哈顿摩天大楼上安装的GPS传感器,天气形势,经济因素,以及未来。在处理这些类型的数据时,数据清理无法修正这种不确定性。然而,尽管存在不确定性,数据仍然包含宝贵的信息。确认并接受这种不确定性的需求是大数据的特点。
不确定性在大数据中以多种形式体现。人类环境中创建的数据存在怀疑论,例如社交网络;对于未来如何呈现以及人、自然或不可见的市场推动力量如何影响世界的多样性的不可知。
这种不确定性的一个例子是能源制造,但公用事业公司仍然必须预测产量。在许多国家中,监管机构要求一定比例的产量来自可再生资源,而风或云都无法准确预测。那么,您如何做计划?
要管理不确定性,分析人员需要创建围绕数据的上下文信息。实现这一点的一种方式是通过数据融合,即通过结合多个可靠性较低的来源而创建更准确、更有用的数据点,例如与地理空间位置信息相关的社会评论。管理不确定性的另一种方式是通过先进的数学方法,例如鲁棒优化技术和模糊逻辑方法。
从本质来讲,人类不喜欢不确定性,但简单地忽略这一点可能产生比不确定性本身更多的问题。在大数据时代,高管需要以不同的方式处理不确定性的各个维度。他们需要承认、接受这一点,并确定如何充分利用这一点;对于不确定性,有一点是确定的,即它不会消失。
最后,大数据是这些特征的组合,为企业在当前的数字化市场中创造竞争优势提供了机会。它使企业能够转变与客户交互并满足客户需求的方式,并且使企业——甚至整个行业——能够实现自身的转型。并非每家企业都采用相同的方法培养其大数据能力。但是,利用新的大数据技术和分析方法改进决策和绩效的机会存在于每个行业中。