统计统计一词起源于国情调查,最早意为国情学。一般来说,统计包括三个含义:统计工作、统计资料和统计科学。

统计工作

        指利用科学的方法搜集、整理和分析和提供关于社会经济现象数量资料的工作的总称,是统计的基础。也称统计实践,或统计活动,是在一定统计理论指导下,采用科学的方法,搜集、整理、分析统计资料的一系列活动过程。它是随着人类社会的发展、治国和管理的需要而产生和发展起来的,至今已有四五千年的历史。现实生活中,统计工作作为一种认识社会经济现象总体和自然现象总体的实践过程,一般包括统计设计、统计调查、统计整理和统计分析四个环节。

统计资料

        指通过统计工作取得的、用来反映社会经济现象的数据资料的总称。统计工作所取得的各项数字资料及有关文字资料,一般反映在统计表、统计图、统计手册、统计年鉴、统计资料汇编和统计分析报告中。也称统计信息,是反映一定社会经济现象总体或自然现象总体的特征或规律的数字资料、文字资料、图表资料及其他相关资料的总称。包括刚刚调查取得的原始资料和经过一定程度整理、加工的次级资料,其形式有:统计表、统计图、统计年鉴、统计公报、统计报告和其他有关统计信息的载体。

统计科学

        也称统计学,是统计工作经验的总结和理论概括,是系统化的知识体系。指研究如何搜集、整理和分析统计资料的理论与方法。统计学是应用数学的一个分支,主要通过利用概率论建立数学模型,收集所观察系统的数据,进行量化的分析、总结,并进而进行推断和预测,为相关决策提供依据和参考。它被广泛的应用在各门学科之上,从物理和社会科学到人文科学,甚至被用来工商业及政府的情报决策之上。

        统计工作、统计资料、统计科学三者之间的关系是:统计工作的成果是统计资料,统计资料和统计科学的基础是统计工作,统计科学既是统计工作经验的理论概括,又是指导统计工作的原理、原则和方法。原始的统计工作即人们收集数据的原始形态已经有几千年的历史,而它作为一门科学,是从17世纪开始。英语中统计学家和统计员是同一个单词,但统计学并不是直接产生于统计工作的经验总结。每一门科学都有其建立、发展和客观条件,统计科学则是统计工作经验、社会经济理论、计量经济方法融合、提炼、发展而来的一种边缘性学科。

统计学(Statistics)

        是一门收集、整理、展示和分析数据的科学,其目的是探索数据的内在数量规律性,以达到对客观事物的正确认识。 随着因特网(Internet) 的日益普及, 网络化的浪潮正冲击着社会生活的各个角落。面对网络时代的浪潮, 统计学必将向着电子化、自动化、网络化的方向发展, 网络统计必将应运而生。

网络统计学(Network Statistics)

        是在计算机网络和相关软件支持下收集、整理、储存、传递、显示、分析和解释数据,从而反映和揭示自然、社会现象数量特征和数量规律的方法论科学。 在分析手段和技术方法上,既重视和继承传统的统计分析方法,更突出现代计算机网络条件下的不同分析手段和技术。 网络统计的分析手段和技术涉及面非常广泛,包括网络通信技术、网络数据输入、传递和保存技术、网上调查技术、网上信息处理和网上信息发布技术,同时还包括诸如人工智能、 数据库技术、数据挖掘技术和数据导航等等其他技术。网络统计学研究如何将这些技术与传统统计分析方法相融合,形成网络统计学所特有的分析手段和技术。

网络统计学的特点

  • 数据载体不同

            统计数据的基本载体不再是“纸张“,而是“磁盘“。在网络环境下,统计数据的主要载体为网站服务器以及U盘、光盘和云盘等;

  • 数据传输方式不同

            统计数据的基本载体不再是“纸张“,而是“磁盘“。在网络环境下,统计数据的主要载体为网站服务器以及U盘、光盘和云盘等;

  • 数据输入、输出方式不同

            网络统计学在处理数据时应可以“读懂“(数据导入、输入)服务器端和客户上传的各种数据,经过处理后的统计数据也必须以特定的格式传递(数据导出、输出)给用户终端。根据统计学的特点,采用人们广泛接受的格式化数据,让“网页”能“读懂“它们,从而实现数据的“自动”输入、输出。为了网络数据传输、为了在处理数据时自动导入数据和输出结果,建立“网络统计学格式化数据标准“至关重要”;

  • 数据处理方式不同

            网络统计学必须有强大的统计函数库或统计软件来处理和计算格式化的标准数据。网络统计学不只是展示和传递数据,还必须有强大的数据处理能力和计算能力,只有如此才能实现数据输入(从服务器下载、用户终端递交或不同数据载体读入)、处理(统计函数库或统计软件)和展示(经过处理后的格式化数据即时传送和展示给用户终端)一体化。银河统计网络平台实现数据输入、处理、展示一体化基于统计软件R语言、d3.js(一个非常流行的数据可视化库)和Galaxy.js(银河统计工作组编写的数据处理和计算函数库)。

统计学的分类

  • 理论统计学

            统计学的一个分支,它是把研究对象一般化、抽象化、以概率论为基础,从纯理论的角度,对统计方法加以推导论证,中心的内容是统计推断问题,实质是以归纳方法研究随机变量的一般规律。分为:

            描述统计学(descriptive statistics):是研究如何取得反映客观现象的数据,并通过图表形式对所搜集的数据进行加工处理和显示,进而通过综合概括与分析得出反映客观现象的规律性数量特征的一门学科。描述统计是来描绘或总结观察量的基本情况的统计总称。它研究如何取得反映客观现象的数据,并通过图表形式对所收集的数据进行加工处理和显示,进而通过综合概括与分析得出反映客观现象的规律性数量特征。通过对数据资料进行图像化处理,将资料摘要变为图表,以直观了解整体资料分布的情况。通常会使用的工具是频数分布表与图示法,如直方图、饼图、散点图、趋势图等。为了解各统计观察值集中与分散的情况,描述统计运用的工具有:集中量数,如平均数、中位数、众数、几何平均数、调和平均数。与变异量数,如全距、平均差、标准差、相对差、四分差等。

            推断统计学(inferential statistic):是研究如何根据样本数据去推断总体数量特征的方法,它是在对样本数据进行描述的基础上,对统计总体的未知数量特征做出以概率形式表述的推断。统计推断根据带随机性的观测数据(样本)以及问题的条件和假定(模型),而对未知事物作出的,以概率形式表述的推断。在统计学中,统计推断问题常表述为如下形式:所研究的问题有一个确定的总体,其总体分布未知或部分未知,通过从该总体中抽取的样本(观测数据)作出与未知分布有关的某种结论。例如,某一群人的身高构成一个总体,通常认为身高是服从正态分布的,但不知道这个总体的均值,随机抽部分人,测得身高的值,用这些数据来估计这群人的平均身高,这就是一种统计推断形式,即参数估计。如感兴趣的问题是“平均身高是否超过1.7(米)”,就需要通过样本检验此命题是否成立,这也是一种推断形式,即假设检验。由于统计推断是由部分(样本)推断整体(总体),因此根据样本对总体所作的推断,不可能是完全精确和可靠的,其结论要以概率的形式表达。统计推断的目的,是利用问题的基本假定及包含在观测数据中的信息,作出尽量精确和可靠的结论。统计推断是从总体中抽取部分样本,通过对抽取部分所得到的带有随机性的数据进行合理的分析,进而对总体作出科学的判断,它是伴随着一定概率的推测,特点是:由样本推断总体,统计推断是数理统计的核心部分,统计推断的基本问题可以分为两大类:一类是参数估计问题;另一类是假设检验问题。

            描述统计学和推断统计学的划分,一方面反映了统计方法发展的前后两个阶段,同时也反映了应用统计方法探索客观事物数量规律性的不同过程。 统计研究过程的起点是统计数据,终点是探索出客观现象内在的数量规律性。在这一过程中,如果搜集到的是总体数据(如普查数据),则经过描述统计之后就可以达到认识总体数量规律性的目的了;如果所获得的只是研究总体的一部分数据(样本数据),要找到总体的数量规律性,则必须应用概率论的理论并根据样本信息对总体进行科学的推断。 显然,描述统计和推断统计是统计方法的两个组成部分。描述统计是整个统计学的基础,推断统计则是现代统计学的主要内容。由于在对现实问题的研究中,所获得的数据主要是样本数据,因此,推断统计在现代统计学中的地位和作用越来越重要,已成为统计学的核心内容。当然,这并不等于说描述统计不重要,如果没有描述统计收集可靠的统计数据并提供有效的样本信息,即使再科学的统计推断方法也难以得出切合实际的结论。从描述统计学发展到推断统计学,既反映了统计学发展的巨大成就,也是统计学发展成熟的重要标志。

  • 应用统计学

    研究的内容是运用于某一特定领域的统计问题

统计学的基本概念

  • 统计总体与总体单位

            统计总体:由客观存在的、在同一性质基础上结合起来的许多个别单位所形成的集合。具有大量性、同质性和变异性等特点。例如,

    • 大量性:所有的工业企业;
    • 同质性:在性质上每个工业企业的经济职能是相同的,都是从事工业活动的基本单位;
    • 变异性:每个工业企业从事的活动内容不同,企业法人不同,员工人数不同。

            总体单位:指构成总体的个体即每一个单位。总体由总体单位构成,要认识总体必须从总体单位开始,总体是统计认识的对象。总体或总体单位的区分不是固定的,同一个研究对象,在一种情况下是总体,在另一种情况下可能成了总体单位。如:对工业企业进行调查,全国工业企业是总体,每一个工业企业就是单位。若研究目的不同,总体和总体单位可以互换,总体有可能变成总体单位,总体单位有可能变成总体。

  • 标志与变量

            标志:指总体单位所具有的属性和特征,标志的具体表现称为标志值。(1)品质标志:是表明事物“质” 的特性的标志;数量标志:是表明事物“量” 的特性的标志。其中,可变的数量标志又被叫作变量 。统计研究是从登记标志开始,并通过对标志的综合来反映总体的数量特征,因此标志是统计研究的起点。(2)总体单位标志分为不变标志(标志表现无差异)和变异标志(标志表现有差异)

            举例说明,如果你想了解一个人,你可能需要知道他的姓名、性别、年龄、身高、体重等方面。从统计的角度来看,姓名、性别、年龄、身高、体重等都是用来表明一个人(总体单位)的属性或特征的,它们都是标志。在这些标志中,姓名、性别只能用文字来表现,是品质标志。而年龄、身高、体重的表现是数字,是数量标志。品质标志和数量标志的区别就在于标志的表现是文字还是数字。所谓的“标志表现”是就标志的“具体体现”,比如某人性别为女、年龄23岁,这里的“女”、“23岁”就是标志表现。其中“女”是文字,所以它对应的标志“性别”就是品质标志,“23岁”是数字(“岁”是数字单位),它对应的标志“年龄”是数量标志。

    变量的种类:

    • 确定性变量:指受确定性因素影响的变量;
    • 随机变量:指受随机因素影响的变量;
    • 连续型变量:在一个区间内可以连续不断取值的变量;
    • 离散型变量:其一切可能取值都以整数形式出现,并可以一一列举的变量。

  • 指标与指标体系

    • 统计指标:反映社会经济现象总体数量特征的概念及其具体数值。构成要素:时间限制、空间限制、指标名称、具体数值、计量单位。性质:数量性、具体性、综合性。
    • 标志与指标的联系与区别:
      • 联系:标志是总体指标的来源和基础,指标则是标志的综合;数量标志与指标之间存在着变换关系。
      • 区别:标志是说明总体单位特征的,指标则是说明统计总体数量特征的;有的标志用数值表示,有的标志用文字表示,而指标都是用数值表示的。
    • 统计指标的分类:
      • 按表现形式分:总量指标、相对指标、平均指标。
      • 按内容特征分:数量指标、质量指标。数量指标:反映的是所研究总体的规模和水平,其大小取决于总体单位数目的多少及其标志水平的高低;质量指标:反映的是与总体单位数相对应的标志的平均水平或其它数量对比关系。
      • 按计量单位分:实物指标、价值指标(价值指标是货币单位表示的反映社会经济现象某一方面数量和质量情况的总量指标,如工农业总产值、劳动生产率等)、劳动指标(如出勤工日、实际工时、定额工时等)。
      • 按时间特征分:时期指标(反映的是总体现象在一定时期内的累计总量水平的指标)、时点指标(时点指标是反映社会经济现象在某一时刻或某一时点上的状况的总量指标。如我国首次基本单位普查显示1996年底我国共有各类法人单位440.2万个,有产业活动单位635.1万个)。
    • 统计指标体系:具有某种内在联系的一系列统计指标所构成的整体。其作用是全面、综合地对客观事物进行描述、分析。
    • 样本:由总体的部分单位组成的集合。为了使样本能够正确反映总体情况,对总体要有明确的规定;总体内所有观察单位必须是同质的;在抽取样本的过程中,必须遵守随机化原则;样本的观察单位还要有足够的数量。又称“子样”。按照一定的抽样规则从总体中取出的一部分个体。样本中个体的数目称为“样本容量”。

        统计学是应用数学的一个分支,主要通过利用概率论建立数学模型,收集所观察系统的数据,进行量化的分析、总结,并进而进行推断和预测,为相关决策提供依据和参考。统计学主要分为描述统计学和推断统计学。给定一组数据,统计学可以摘要并且描述这份数据,这个用法称作为描述统计学。另外,观察者以数据的形态建立出一个用以解释其随机性和不确定性的数学模型,以之来推论研究中的步骤及母体,这种用法被称做推论统计学。它被广泛的应用在各门学科之上,从物理和社会科学到人文科学,甚至被用来工商业及政府的情报决策之上。 统计学是一门研究随机现象,以推断为特征的方法论科学,“由部分推及全体”的思想贯穿于统计学的始终。具体地说,它是研究如何搜集、整理、分析反映事物总体信息的数字资料,并以此为依据,对总体特征进行推断的原理和方法。 用统计来认识事物的步骤是:研究设计—>抽样调查—>统计推断—>结论。这里,研究设计就是制定调查研究和实验研究的计划,抽样调查是搜集资料的过程,统计推断是分析资料的过程。显然统计的主要功能是推断,而推断的方法是一种不完全归纳法,因为是用部分资料来推断总体。统计学是通过数据来进行分析和推断的。因此,统计研究的基础是数据。这些数据的特点是,对于每一个数据而言,都具有不确定性,我们需要抽取一定数量的数据,才可能从中获取信息。因此,统计学的研究依赖于对数的感悟,甚至是对一堆看似杂乱无章的数的感悟。通过对数据的归纳整理、分析判断,可以发现其中隐藏的规律。