【#文档大全网# 导语】以下是®文档大全网的小编为您整理的《大数据与统计分析综述》,欢迎阅读!
大数据与统计分析综述
摘要:随着信息技术的发展越来越快,普及程度越来越高,大数据对生活各领域的影响也越来越大。许多领域的发展不得不进行改革,以适应大数据时代。统计学也受到了一定的影响。大数据具有规模大、种类多、更新速度快的特点,这要求统计的方式必须随之改进,这样才能有效的工作。本文就大数据与统计进行了分析探讨,以供参阅。
关键词:大数据;统计分析 引言
要想对大数据的概念内容展开分析,需要根据不同行业、不同领域的区别展开较为深入的研究。从传统意义上来分析,对于数据这一概念内容的理解,多是通过实验、统计、检验等方法获得相应的数值信息、记录信息等,这些内容具有固定、有限和不可扩充的特性。而针对大数据,概念上却是不尽相同的。从统计学的角度进行分析,大数据不仅仅是量大,同时也具备了多样、高速化的特征。在当下的时代发展过程中,大数据已然成为了人们所共同关注的重要话题,本文通过对大数据和统计新思维的内容展开探究,希望能起到一些积极的参考作用。 1大数据的内涵
“大数据”是近几年来比较流行的一个词汇,在生活中出现的频率非常高,尤其是在研究领域。对于这个词,不同领域的人有不同的理解。从统计学的角度来解读,大数据就是建立在现代信息技术和手段基础上,连续的、扩充的数据形式。这种数据的存储能力和记录能力比传统数据要高出许多,其突出特点是数据量的规模十分庞大;记录的信息涵盖的范围很广,几乎无所不及;信息的内容质量参差不齐,鱼龙混杂。同时,信息的更新速度非常快,有利用价值的信息可能很快就被淹没,需要及时的捕捉。简单的说,大数据就是所有可记录信息的集合体。 2大数据背景下统计思维的变化 2.1数据认识上的改变
从数据来源的方面进行观察,可以发现以往样本数据是按照某种方法来进行收集的,但是大数据的内容主要是来源于网络,数据库内的信息记录不带有目的性,所以这也就导致大数据在来源上难以追溯。还有,大部分样本数据的类型都属于是结构型,而大数据的类型则是半结构、半结构和异构性的特点;最后就是之前的样本数据可靠性相关的理论基础,对于一些结构型的数据可以实施量化的处理,但是由于大数据的复杂性特点,所以量化方式也要做出适当的改变。 2.2数据思维收集上的改变
传统的数据收集是需要先有收集的目的和原因,然后才开始进行收集数据的,在收集过程中是需要进行调查的,还要经审设计收集的方式,因此传统的数据收集所消耗的时间和精力都很大,但是在大数据以后,统计的思路就需要进行改变,人们在收集数据上的选择就更多,在种类和体量上,统计分析的对象的选择权更多,因此统计分析的转变方向就是怎样利用好大数据,为统计分析服务,只要做好选择和比较的功课就行。但是统计分析,依据大数据的多样性,和增加速度之快,还存在一定的课题需要攻破,那就是存储能力、分析能力以及数据鉴别能力等,因为大数据的数据库的存储能力需要不断的更新和扩大,随着存储的数据的增多,而保存数据也是需要一个地方,一旦保存数据丢失,就会产生严重的后果,同时影响大数据的运用。 2.3数据分析上的改变
以往的数据分析上,统计思维主要是按照“定性—定量—再定性”的内容来进行,其中定性的目的是为了确定定量分析的大方向,然后借助相关的工作经验,做出有效的判断来,这种方法在数据缺失运算受限的情况下十分的重要。当前的分析判断主要来自于数据,根据这些内容找出定量回应的工作内容,寻找出数量管理的内宽容,进而可以做出最终的决断;还有,以往的统计思维实证需要分析。根据数据的研究目的,做出相应的假设来,然后收集、分析数据,判断该项假设是否成立,这种方法很容易会受到假设条件所带来的限制,出现指标选择不当的问题;最后就是传统统计思维是根据数据分布理论,按照一定概率来做出保障,推断评判的标准和样本内容之间不存在关系,其推断结果的准确性,直接取决于样本的质量。
3大数据背景下统计新思维的发展方向
(1)增加对统计人才的培养。在现代社会,不管是企业还是事业单位,对统计人才的需求量都很大,更多时候是为了适应信息时代的发展,增加自己的竞争力,同时也是统计系统电子化的数据的需要,所以就需要培养很多的统计思维的管理人才,同时对这些人才进行系统的培训和管理,并且鼓励这些人才发挥自己的能力服务社会,加强各部门之间的沟通,同时在自己的本职工作基础上进行工作创新,促进人才的培养。(2)加强科学的推算。对于统计数量的推算工作,传统的统计推算是否准确,是统计质量决定的,但是在大数据的背景下,统计的推算是要依赖于原始的数据准确性和信息化的工具来推算的,所以要充分研究和分析原始数据,促进统计推算结果的准确。(3)协调统计新思维和信息发展之间的关系。由于统计工作中大部分都是数据,大数据环境下,这些数据量会极具猛增,为了能够更好的利用实现统计的正确性,提高工作效率,调整好统计新思维与信息发展之间的关系是非常重要的,而信息技术是促进统计新思维的前提基础,反过来统计新思维有能够有效的促进信息技术的进步与完善,因此,统计工作者必须明确认识到这两点,从而更好的促进统计工作的开展。(4)提高数据信息共享性。现阶段我国大部分的统计工作中,对于各种数据的共享程度不够,也就是说数据库的更新速度与新数据实际产生的速度不一致,这样一来,数据库中的资源重复性以滞后性很大,资源的利用率不高。大数据环境下,信息的同享性非常关键,提高数据信息的共享,必然能够促进不同的信息获得者拥有与自己需求相对应的资源,从而是信息资源实现其拥有的价值。 4积极应对大数据的策略
首先,在大数据时代背景下,我们需要改变总体、个体和样本的传统内涵。传统统计分析首先要有总体,然后才有数据和样本。但是在大数据时代这种情况发生了逆转,我们首先拥有了数据,然后才有的总体。大数据并无事先定义的总体目标,只有和各个时点对应的一些事后总体,主要原因在于大数据之中的个体是在不断变化着的,是难以用事先的名录库对其进行归纳和总结的。在统计分析之后对事后个体进行识别也是相当困难的,因为在大数据中一个个体可能有多个不同的称呼和表达方式,在不同网络体系中的相同称呼或者表达方式也不一定就是同一个个体,所以,在大数据中我们见到的往往都是数据外形,但是对数据个体却不识庐山真面目,但是这不意味着我们对大数据的分析可以忽略总体口径上的问题,我们依然需要对数据个体的身份进行识别。尽管总体和个体的内涵并没有发生变化,但是我们依然需要改变总体和个体的定义方法。与此同时,当我们从大数据中提出样本的时候,样本的定义方式也随之发生变化。鉴于大数据本身具有极强的流动变化性,其在任何一个时点的总体都可以被视为一个截面样本。
本文来源:https://www.wddqxz.cn/03e0727af31dc281e53a580216fc700abb685235.html