目录

前言:机遇与挑战

        统计学是一门古老的学科,在自然科学和人文社会科学的发展中起到了举足轻重的作用; 统计学又是一门生命力及其旺盛的学科,他海纳百川又博采众长,随着各门具体学科的发展不断壮大。大数据时代的到来,给统计学科带来了发展壮大机会的同时,也使得统计学科面临着重大的挑战。

        统计学(Statistics)通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。其中用到了大量的数学及其它学科的专业知识,它的使用范围几乎覆盖了社会科学和自然科学的各个领域。

        统计学是从事各类科学研究工作所必须掌握的知识,是人们认识未知世界的有效工具。随着计算机技术的迅猛发展和普及,大量数据的处理技术变得很容易实现,这就使得很多统计方法在现实中的应用也变为可能。目前,统计学技术方法日益渗透到数据挖掘、计算机技术以及专业研究领域,实践应用对统计学理论方法提出更多新要求。

        大数据时代,各个科学领域都在大量地获取数据。自然科学领域收集着从宏观的天文数据到微观的基因数据。经济、金融和人文社会科学收集着大量的观察和调查数据。一些人们在通宵达旦地制造和收集数据,他们相信这些数据会对别人有用。也有一些人们脱离了实验室,仅依靠网络数据从事研究。另一方面人们在被动地囤积数据。随着计算机互联网、搜索引擎、电子商务、多种传感器和多媒体技术的发展和广泛使用,各种形式的数据如江河流水般地涌来。当今数据的获取和规模发生了根本的变化,统计学有待处理的数据发生了巨变。

什么是数据

        数据(data)在拉丁文里是“已知”的意思,在英文中的一个解释是“一组事实的集合,从中可以分析出结论”。笼统地说,凡是用某种载体记录下来的、能反映自然界和人类社会某种信息的,就可称之为数据。古人“结绳记事”,打了结的绳子就是数据。步入现代社会,信息的种类和数量越来越丰富,载体也越来越多。数字是数据,文字是数据,图像、音频、视频等都是数据。

什么是大数据

        量的增多,是人们对大数据的第一个认识。大数据区别于数据,还在于数据的多样性。从数据到大数据,不仅是量的积累,更是质的飞跃,海量的、不同来源、不同形式、包含不同信息的数据可以容易地被整合、分析,原本孤立的数据变得互相联通。这使得人们通过数据分析,能发现小数据时代很难发现的新知识,创造新的价值。

大数据时代,统计学时数据分析的灵魂

        大数据告知信息但不解释信息。打个比方,大数据是“原油”而不是“汽油”,不能被直接拿来使用。大数据时代,统计学依然是数据分析的灵魂。正如美国加州大学伯克利分校迈克尔·乔丹教授指出的,“没有系统的数据科学作为指导的大数据研究,就如同不利用工程科学的知识来建造桥梁,很多桥梁可能会坍塌,并带来严重的后果。事物的发展充满了不确定性,而统计学,既研究如何从数据中把信息和规律提取出来,找出最优化的方案;也研究如何把数据当中的不确定性量化出来。

大数据对样本和总体的影响

        统计利用大数据的目的是为了推断经济总体或社会总体,经济或社会指标的平均数或分位数等情况。统计学强调的是样本的代表性,而代表性这一要求一般是通过概率抽样来满足的。大数据虽然有着海量的样本量,能够提供丰富的信息,但是严格来说,大数据并不是一个抽样样本,相反大数据样本会存在缺乏代表性、信息冗余、存在噪声等诸多问题,这种情况下很容易带来分析结果的系统偏差。

        统计利用大数据的目的是为了推断经济总体或社会总体,经济或社会指标的平均数或分位数等情况。统计学强调的是样本的代表性,而代表性这一要求一般是通过概率抽样来满足的。大数据虽然有着海量的样本量,能够提供丰富的信息,但是严格来说,大数据并不是一个抽样样本,相反大数据样本会存在缺乏代表性、信息冗余、存在噪声等诸多问题,这种情况下很容易带来分析结果的系统偏差。

        如果说,传统统计研究的数据是有意收集的结构化的样本数据,那么现在我们面对的数据则是一切可以记录和存储、源源不断扩充、超大容量的各种类型的数据。样本数据与大数据的这种区别,具有什么样的统计学意义? 我们知道,样本数据是按照特定研究目的、依据抽样方案获得的格式化的数据,不仅数据量有限,而且如果过程偏离方案,数据就不能满足要求。基于样本数据所进行的分析,其空间十分有陿–通常无法满足多层次、多角度的需要,若遇到抽样方案事先未曾考虑到的问题,数据的不可扩充性缺点就暴露无疑。而大数据是一切可以通过现代信息技术记录和量化的数据,不仅所蕴含的信息量巨大,而且不受各种框框的限刿–任何种类的数据都来者不拒、也无法抵拒。不难发现,大数据相比于样本数据的最大优点是,具有巨大的数据选择空间,可以进行多维、多角度的数据分析。更为重要的是,由于大数据的大体量与多样性,样本不足以呈现的某些规律,大数据可以体现; 样本不足以捕捉的某些弱小信息,大数据可以覆盖; 样本中被认为异常的值,大数据得以认可。这将极大地提高我们认识现象的能力,避免丢失很多重要的信息,避免失去很多决策选择的机会。所以说,在大数据时代下,大数据既是样本,也是总体。

相关分析的变化

        大数据时代的到来使得相关分析需要达到的要求更高,针对传统统计分析中的相关测量法存在的缺陷,大数据时代的相关分析首先满足“通用性”和“均等性”两个准则,相关分析的结果应该只与变量之间连动性的紧密程度有关,而不应受变量间相关形式的影响。

        新兴的相关分析方法在最近几年涌现,一方面是由于国内外学者看到了大数据分析中传统统计相关分析存在的缺陷,运用传统统计方法已经无法满足大数据时代数据分析的需求;更重要的在于,国内外学者们都看到了大数据时代相关分析思维的重要性,看到了相关分析在特征选择、变量依赖关系识别中的实用性。大数据时代,相关分析的运用范围之广、重 要性之大是我们不能忽略的,也是传统相关分析所面临的巨大机遇。如何以相关分析思路为起点探究新的分析方法,使统计相关分析方法能够更顺应时代的变化,体现出传统统计思维的经典与先进,在大数据下能够发挥作用,即是传统相关分析面临的挑战也是机遇。随着大数据时代的到来,对于数据的分析发生了很大的变化,从原来的注重因果分析到如今对相关分析的看重。人们不再过多的关注“为什么”。而更加的想知道“是什么。

大数据时代统计学面临的机遇

        一个新生事物的出现将必定导致传统观念和技术的革命。数码照相机的出现导致传统相片胶卷和影像业的已近消亡。如果大数据包含了所有父亲和儿子的身高数据,只要计算给定的父亲身高下所有儿子的平均身高就可以预测其儿子身高了。模型不再重要,当年统计学最得意的回归预测方法将被淘汰。大数据的到来将对传统的统计方法进行考验。统计学会不会象科学哲学那样,只佩戴着历史的光环,而不再主导和引领人们分析和利用大数据资源。现在其他学科和行业涌入大数据的热潮,如果统计学不抓紧参与的话,将面临着被边缘化的危险。

        现今统计学的目标是通过获取数据和分析数据发现真实总体的参数和性质,统计方法和理论对数据有过高的要求。而大数据充满了各种随机的、非随机的误差和偏倚,不能满足这些苛刻的要求。按照波普的科学划界准则,只要我们能从大数据中提炼出具有可证真伪的结论,那么这个结论还是科学的,可以用于知识积累。这些可证真伪的大数据结论可作为进一步科学研究的假说,以数据驱动研究。

大数据时代统计学面临的挑战

        大数据时代并不会自动生成,总是需要不断地提出和解决大数据发展所遇到的问题和矛盾,才会有切实的进步。事物发展的不同阶段有不同的“时务”,需要不同的应对。统计数据的搜集方面,传统的统计抽样调查不再适用,这需要我们结合大数据的来源来搜集数据;数据整理方面,不再是传统的计算机所能运行的,它需要更大的存储以及计算机处理数据的能力;数据分析方面,很多传统的统计方法不再有效,利用这些方法对数据进行分析,未必能得到我们想要的结果,这就需要我们对统计方法的创新与发展做进一步的努力。

        对统计工作者而言,这种改变不仅意味着拓宽了统计研究的范畴“丰富了统计研究的内容”增强了统计学的生命力,还意味着统计工作及统计研究的四个转变:

转变统计研究过程

        传统的统计研究过程包括统计设计、收集数据、整理与分析和统计资料的积累、开发与应用等四个基本环节。大数据时代,由于数据规模巨大、数据结构复杂等特点,以及整理数据可能损坏原有数据中有价值信息,针对大数据的统计研究过程仅包括数据整理与分析和数据的积累、开发与应用两个基本环节。进一步的分析表明,大数据整理与分析过程仅指数据储存工作。总的说来,大数据统计研究过程包括数据储存和数据的积累、开发与应用两个环节;

转变统计研究方法

        传统的统计研究过程包括统计设计、收集数据、整理与分析和统计资料的积累、开发与应用等四个基本环节。大数据时代,由于数据规模巨大、数据结构复杂等特点,以及整理数据可能损坏原有数据中有价值信息,针对大数据的统计研究过程仅包括数据整理与分析和数据的积累、开发与应用两个基本环节。进一步的分析表明,大数据整理与分析过程仅指数据储存工作。总的说来,大数据统计研究过程包括数据储存和数据的积累、开发与应用两个环节;

转变统计研究目的

        传统的统计研究过程包括统计设计、收集数据、整理与分析和统计资料的积累、开发与应用等四个基本环节。大数据时代,由于数据规模巨大、数据结构复杂等特点,以及整理数据可能损坏原有数据中有价值信息,针对大数据的统计研究过程仅包括数据整理与分析和数据的积累、开发与应用两个基本环节。进一步的分析表明,大数据整理与分析过程仅指数据储存工作。总的说来,大数据统计研究过程包括数据储存和数据的积累、开发与应用两个环节;

转变统计研究工作思想

        传统统计研究工作中,由于计算技术的限制,总是希望用尽量少的数据和相对复杂的模型尽量获取有价值的信息。传统的统计抽样调查方法虽然在小数据时代有助于节省费用、了解总体信息,但可能存在抽样框不稳定、调查样本片面、调查结果经不起细分以及纠偏成本高昂的缺陷。在大数据时代,样本即总体,由于计算机超前的数据处理能力,可以通过分析处理大数据了解总体各方面的信息。另外,还需将传统统计质量管理控制中的事后检验转变为事先预测,以及转变尽量利用复杂模型的思想为巧用简单模型的思想。

        从统计学角度定义,大数据不是基于人工设计、借助传统方法而获得的有限、固定、不连续、不可扩充的结构型数据,而是基于现代信息技术与工具可以自动记录、储存和连续扩充的、大大超出传统统计记录与储存能力的一切类型的数据。大数据时代下,统计学发生了很多的变化,传统的统计学方法已经不能够很好的处理大数据问题。这要求我们必须改变传统的统计学分析思维,从数据获取、处理、分析方面找到更加适合大数据的一套完整的统计分析方法。对于每一位统计工作者来说,这既是机遇,有是挑战。机遇在于,在大数据时代下,统计学的地位不容忽视,它是处理大数据问题的有效途径。挑战在于,要得到一套适合大数据的统计分析方法实属不易,这需要我们每一位统计学者和工作者的不懈努力。