统计数据是统计工作活动过程中所取得的反映国民经济和社会现象的数字资料以及与之相联系的其他资料的总称。统计研究客观事物的数量方面,离不开统计数据,统计数据对客观现象进行计量的结果。
        在信息时代,凡是人们用某种载体记录下来的、能反映自然界和人类社会某种信息的,就可称之为统计数据。步入现代社会,信息的种类和数量越来越丰富,载体也越来越多。数字是数据,文字是数据,图像、音频、视频等都是数据,统计数据的含义已经大大超出传统范畴,统计理论、方法、手段日新月异。
        统计数据是采用某种计量尺度对事物进行计量的结果,采用不同的计量尺度会得到不同类型的统计数据。对统计数据的属性、特征进行分类、标示和计算,称为统计计量或统计量度。例如,对工业企业经济效益的统计,对居民生活水平的统计,也可以说是对工业企业经济效益的计量,对居民生活水平的计量,如此等等。由于客观事物有的比较简单,有的比较复杂,有的特征和属性是可见的(如人的外貌体征),有的则是不可见的(如人的偏好和信仰),有的表现为数量差异,有的表现为品质差异。因此,统计计量也就有定性计量和定量计量的区别,并且可分不同的层次。美国社会学家、统计学家史蒂文斯(S.S.Stevens)1968年按照变量的性质和数学运算的功能特点,将统计计量划分为四个层次或四种计量尺度:
定类尺度
        表现为类别,但不区分顺序,是由定类尺度计量形成的。将数字作为现象总体中不同类别或不同组别的代码,这是最低层次的尺度。在这种情况下,不同的数字仅表示不同类(组)别的品质差别,而不表示它们之间量的顺序或量的大小。定类尺度的主要数学特征是“=”或 “≠”。例如将国民经济按其经济类型,可以分为国有经济、集体经济、私营经济、个体经济等类,并用(01)代码表示国有经济,(02)表示集体经济,(03)表示私营经济,(04)表示个体经济。并且用(011)代表国有经济中的国有企业,(012)代表国有联营企业;用(021)表示集体经济中集体企业,(022)表示集体联营企业;用(031)表示私营经济中的私营独资企业,(032)表示私人合伙企业,(033)表示私营有限责任公司;用(041)表示个体经济中的个体工商户,(042)表示个人合伙等等。其中两位代码表示经济大类,而三位代码则表示各类中的构成。不同代码反映同一水平的各类(组)别,并不反映其大小顺序。各类中虽然可以计算它的单位数,但不能反映第一类的一个单位可以相当于第二类的几个单位等等。
定序尺度
        表现为类别,但有顺序,是由定序尺度计量形成的。可以用数表示量的不同类(组)别,而且也反映量的大小顺序关系,从而可以列出各单位、各类(组)的次序。定序尺度的主要数学特征是“>”或“<”。在统计的变量数列中可以确定其中位数、分位数等指标的位置。例如对合格产品按其性能和好坏,分成优等品、一等品、合格品等等。这种尺度虽然也不能表明一个单位一等品等于几个单位二等品,但却明确表示一等品性能高于二等品,而二等品性能又高于三等品等等。定序尺度除了用于分类(组)外,在变量数列分析中还可以确定中位数、四分位数、众数等指标的位置。
定距尺度
        表现为数值,可进行加、减运算,是由定距尺度计量形成的。也称间隔尺度,是对事物类别或次序之间间距的计量,它通常使用自然或度量衡单位作为计量尺度。定距尺度是比定序尺度高一层次的计量尺度。它不仅能将事物区分为不同类型并进行排序,而且可以准确地指出类别之间的差距是多少。定距尺度的主要数学特征是“+”或“-”。定距尺度在统计数据中,占据重要的低位,统计中的#REDIRECT总量指标就是运用定距尺度为计量尺度的。例如,学生某门课程的考分,可以从高到低分类排序,形成90分、80分、70分,直到零分的序列。它们不仅有明确的高低之分,而且可以计算差距,90分比80分高10分,比70分高20分等等。定距尺度的计量结果表现为数值,可以进行加或减的运算,但却不能进行乘或除的运算,其原因是在等级序列中没有固定的、有确定意义的“零”位。例如,学生甲得分90分,学生乙得0分,可以说甲比乙多得90分,却不能说甲的成绩是乙的90倍或无穷大。因为“0”分在这里不是一个绝对的标准,并不意味着乙学生毫无知识。恰如我们不能说40℃比20℃暖和2倍一样。没有确定的标准的“零”位,但有基本的确定的测量单位,如学生成绩的测量单位是1分,质量价差的测量单位量1元,温度的测量单位是1℃等等,这是定距尺度的显著特点。
定比尺度
        表现为数值,可进行加、减、乘、除运算,是由定比尺度计量形成的。定比尺度是在定距尺度的基础上,确定可以作为比较的基数,将两种相关的数加以对比,而形成新的相对数,用以反映现象的构成、比重、速度、密度等数量关系。由于它是在比较基数上形成的尺度,所以能够显示更加深刻的意义。定比尺度的主要数学特征是“÷”或“×”。在统计的对比分析中,广泛地运用定比尺度进行计量。例如将某地区人口数和土地面积对比计算人口密度指标,说明人口相对的密集程度。甲地区人口可能比乙地区多,但甲地区的土地更广阔,用人口密度指标就可以说明相对说来甲地区人口不是多了,而是少了。又如将一个国家(地区)的国内生产总值与该国(地区)居民对比。计算人均国内生产总值,可以反映国家(地区)的综合经济能力。1998年我国国内生产总值约占世界生产总值的12%,排列世界第七位,堪称世界经济大国,但我国人口占世界总人口的21.2%,如果按人均国内生产总值计算,在世界各国中又居于比较落后的位次,说明我国仍属于发展中国家。
        上述四种计量尺度对事物的计量层次是由低级到高级、由粗略到精确逐步递进的。高层次的计量尺度具有低层次计量尺度的全部特性,但不能反过来。显然,我们可以很容易地将高层次计量尺度的测量结果转化为低层次计量尺度的测量结果,比如将考试成绩的百分制转化为五等级分制。在统计分析中,一般要求测量的层次越高越好,因为高层次的计量尺度包含更多的数学特性,所运用的统计分析方法越多,分析时也就越方便,因此应尽可能使用高层次的计量尺度。
        根据网络统计学的特点,统计数据必须便于计算机软硬件在线或离线进行存储、处理、交换和展示。为此,网络统计数据分为三类:
数量型
        统计中一个很重要的任务是是探索数据的内在数量规律性。数量指标(绝对数、相对数和平均数)是统计数据的最重要组成部分。从数据存储和处理角度看,为了节省存储空间,可进一步将数量型分为整型(整数)、单精度型(单精度实数在内存中占32bit 有效数字为6~7位,它的范围在负数的时候是从 -3.402823E38 到 -1.401298E-45,而在正数的时候是从 1.401298E-45 到 3.402823E38)、双精度双数据(双精度实数占内存单元为64bit 有效数字为15~16位,可表示的正数范围是:
4.94065645841247*10^-324
~1.79769313486232*10^308,
可表示的负数范围是:
-1.79769313486232*10^308
~-4.94065645841247*10^-324。
双精度型数据最多可以有15位有效数字)。
字符型
        除了数量型数据,统计数据还需要大量文字性描述,即字符型数据。同样,为了节省数据存储空间和提高数据处理效率,在数据库中一般将字符型数据分为文本型(最大长度255个字符)和备注型(备注型字段来存放长度不定的文本数据。这些文本数据既可以是一条简短的注释,又可以是一片较长的文章。备注型数据多采用二进制方式,又成二进制备注型)。
日期和时间型
        统计学中时间序列分析占有重要位置。将数据按年、月、日或季记录保存,统计学称为时间序列,一般计算机软件称为日期型数据(日期表现形式不同)。有时,数据需要按小时、分、秒来记录,这时统计学仍然称为时间序列,一般计算机软件称为时间型数据。为了数据处理方便,网络统计学中采用日期和时间型数据分类。
        根据网络统计学的特点,统计数据必须便于计算机软硬件在线或离线进行存储、处理、交换和展示。为此,网络统计数据分为:
    格式化字符串
        将统计数据按指定特殊字符进行有规律地标记分割,使得计算机容易识别和转换。列如某种商品价格和销售量统计数据如下表:
价格(元) | 87 | 76 | 86 | 69 | 85 | 70 | 78 | 83 | 88 | 78 |
销量(台) | 23 | 34 | 20 | 25 | 21 | 28 | 21 | 23 | 19 | 24 |
        表1中的价格和销售量数据可以按格式组合书写为:
        "87,76,86,69,85,70,78,83,88,78|
        23,34,20,25,21,28,21,23,19,24"
        这里我们分别采用“,”为表格数据列分割符、“|”为表格数据行分割符。
    数组
        所谓数组,就是相同数据类型的元素按一定顺序排列的集合,就是把有限个类型相同的变量用一个名字命名,然后用编号区分他们的变量的集合,这个名字称为数组名,编号称为下标。组成数组的各个变量称为数组的分量,也称为数组的元素,有时也称为下标变量。数组是在程序设计中,为了处理方便, 把具有相同类型的若干变量按有序的形式组织起来的一种形式。这些按序排列的同类数据元素的集合称为数组。
        以流行的网页设计脚本语言JavaScript(JS)为列,表1中价格数据可以用一维数组表示:
            “var myArray=[87,76,86,69,85,70,78,83,88,78];”。
        在JS代码片段中,“[ ]”为数组标记,意思是把价格数据作为数组赋值给变量myArray。 表1中价格和销售量数据可以用二维数组表示:
            “var myArray=[[87,76,86,69,85,70,78,83,88,78],[23,34,20,25,21,28,21,23,19,24]];”。
        文本字符也可以用数组表示,但文本要用单引号或双引号括起来,如:
            "var myText=['中国','美国','英国','法国','德国'];"。
    JSON(JavaScript Object Notation)
        一种轻量级的数据交换格式,JSON采用完全独立于语言的文本格式,但是也使用了类似于C语言家族的习惯(包括C、C++、C#、Java、JavaScript、Perl、Python等)。这些特性使JSON成为理想的数据交换语言。 易于人阅读和编写,同时也易于机器解析和生成(网络传输速率)。从结构上看,所有的数据(data)最终都可以分解成三种类型:
        数据构成的最小单位原来如此简单!在编程语言中,只要有了数组(array)和对象(object)就能够储存一切数据了。21世纪初,Douglas Crockford寻找一种简便的数据交换格式,能够在服务器之间交换数据。当时通用的数据交换语言是XML,但是Douglas Crockford觉得XML的生成和解析都太麻烦,所以他提出了一种简化格式,也就是JSON。
        一种轻量级的数据交换格式,JSON采用完全独立于语言的文本格式,但是也使用了类似于C语言家族的习惯(包括C、C++、C#、Java、JavaScript、Perl、Python等)。这些特性使JSON成为理想的数据交换语言。 易于人阅读和编写,同时也易于机器解析和生成(网络传输速率)。从结构上看,所有的数据(data)最终都可以分解成三种类型:
        Json的规格非常简单,只用一个页面几百个字就能说清楚,而且Douglas Crockford声称这个规格永远不必升级,因为该规定的都规定了。
        上面四条规则,就是Json格式的所有内容。比如,下面这句话:
        "北京市的面积为16800平方公里,常住人口1600万人。上海市的面积为6400平方公里,常住人口1800万。"
        写成json格式就是这样:
        如果事先知道数据的结构,上面的写法还可以进一步简化:
        由此可以看到,json非常易学易用。所以,在短短几年中,它就取代xml,成为了互联网上最受欢迎的数据交换格式。
    XML(Extensible Markup Language)
        可扩展标记语言(XML),是一种用于标记电子文件使其具有结构性的标记语言。在电子计算机中,标记指计算机所能理解的信息符号,通过此种标记,计算机之间可以处理包含各种的信息比如文章等。它可以用来标记数据、定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言。可扩展标记语言可以对文档和数据进行结构化处理,从而能够在部门、客户和供应商之间进行交换,实现动态内容生成,企业集成和应用开发。XML可以使我们能够更准确的搜索,更方便的传送软件组件,更好的描述一些事物。例如电子商务交易等。
        XML基本语法规则:
        XML文档片段:
姓名 | 学习成绩 | |
---|---|---|
语文 | 数学 | |
郭家豪 | 83 | 98 |
赵悦芬 | 62 | 90 |
张雯琪 | 87 | 72 |
黄华梅 | 68 | 70 |
梁婧懿 | 65 | 77 |
孙秦霞 | 63 | 86 |
平均成绩 | 71 | 82 |