基于分布式数据流的大数据分类模型和算法

2023-02-06 10:47:16   文档大全网     [ 字体: ] [ 阅读: ]

#文档大全网# 导语】以下是®文档大全网的小编为您整理的《基于分布式数据流的大数据分类模型和算法》,欢迎阅读!
数据流,分布式,算法,模型,基于
龙源期刊网 http://www.qikan.com.cn

基于分布式数据流的大数据分类模型和算法

作者:丁纪祥

来源:《大东方》2018年第12

要:大数据在目前的社会生活中被广泛的应用,但是随着数据的急剧膨胀,已有的技术在数据分析方面已经具有了局限性,所以需要研究新的方法和技术实现对大数据的分析。从当前的研究分析来看,大数据应用的两个主要技术特征是分布式和流动性,所以以分布式数据流为数据表达载体,在此基础上设计对应的大数据分类模型和挖掘算子,这样可以有效的构建解决问题的对应算法,解决现实数据分析中的难题。文章基于分布式数据流做大数据分类模型和算法的研究,旨在为大数据分析提供指导和帮助。 关键词:分布式数据流;大数据;分类模型;算法

大数据在当前的生活中利用非常广泛,其在各行各业的发展中起到的积极的作用,所以就大数据的分析和应用,各个国家都十分的重视。我国就大数据进行了分析和研究,使得大数据在产业结构调整方面发挥出了积极的效用,但是因为现阶段的数据急剧膨胀,原有的数据算法和处理技术难以满足实际需要,因此需要对大数据的具体利用做创新。基于此,讨论分布式数据流的大数据分类模型和算法有较为显著的现实意义。 一、大数据的分类模型

从具体的分析来看,具有分布式和流动性为主要技术特征的大数据分类模型可以定义为M=,其中的T指的是收集数据的时间点序列,D是依据T在局部节点上收集的N条局部数据流组成的分布式数据流。是数据挖掘的数据源。O是对D的操作算子集,P则是全局分类器。依据此定义,大数据的分类模型可以通过两个步骤进行构建:其一是利用局部挖掘器进行数据微簇集的挖掘。其二是做全局挖掘器的利用。通过这两步的进行可以构建大数据的基础分类模型,有了明确的分类模型,数据计算会更加的准确。 二、算法设计和分析

基于大数据的分类模型做具体的算法设计和分析,这样会更加准确的理解算法设计的理念,从而在实际运用中更好的利用算法进行数据分析。 (一)局部节点的微簇抽取算法

首先,基于大数据的分类模型所设计的第一种算法为局部节点的微簇抽取算法。此算法具体指的是当一个局部节点的当前数据块被收集完成后,接下来的工作就是对其进行微簇挖掘。整个挖掘的过程有两步:其一是对当前的数据块进行微簇划分。在划分的过程中需要对大数据的分类挖掘特点进行考虑。如果分类过程中出现了类别标识不明显的情况,可以采用比较经典的无监督学习算法实现数据的聚类。其二是对聚类得到的数据微簇抽取,这个工作的具体进行


龙源期刊网 http://www.qikan.com.cn

需要对每个类簇的数据做相应的统计值抽取。通过上述的两个步骤实现对局部节点数据的计算,这样可以就大数据的具体利用提供依据。 (二)局部节点的增量式微簇抽取算法

其次是局部节点的增量式微簇抽取算法。从具体的分析来看,在挖掘时间点不断变化的情况下,一个局部节点维护的微簇集合需要做及时的更新,这样,其才能够适应新数据的变化,依据现阶段利用的增量式方法,对局部节点的微簇进行维护意味着利用当前数据块获得的微簇集合对上次挖掘点维护的微簇集合进行增量式更新。需要注意的是,作为局部节点的局部模式,一个节点上所维护的微簇模式中的微簇数据必须要进行适当控制,不能使其在时间变化的情况下无限制的增长,至于具体的控制,可以做阈值参数的设置,利用参数做控制,微簇的数据量能够保证在可控范围内。 (三)中心节点的样本重构算法

最后是中心节点的样本重构算法。对数据挖掘的流程做具体的分析可知,在一个挖掘点上,当一个局部节点的微簇模式被更新完成后,其会通过网络传输到中心节点上,当所有局部节点的当前微簇模式都被传送到中心节点的缓冲迟之后,中心节点会启动全局模式进行挖掘工作。为了对全局模式的预测能力和抗干扰性先进性提升,可以利用集成分类器做全局模式。在这种模式下,微簇模式不能够作为直接的学习样本被使用,所以需要对此问题做解决。从实际研究的结果来看,利用局部节点传送过来的微簇模式进行重构,以此达到全局学习样本的使用要求,这样,全局模式的使用难题得以解决。总之,利用中心节点的样本重构算法也能够实现对大数据的有效计算。 结束语

综上所述,在大数据利用实践中,随着数据信息的膨胀,现有的技术处理手段和方法已经不能满足于数据处理实践的需要,因此需要利用全新的技术和方法做大数据计算。基于大数据计算分布式和流动式的主要技术特征做大数据模型的具体分析,并在模型基础上讨论算法的设计,这可以为数据计算实践提供帮助。 参考文献

[1]谈海宇.面向大数据的流分类挖掘算法及其概念漂移应用研究[D].南京邮电大学,2016. [2]陆元福,彭天慈,季开洋,等.基于Storm平台的流挖掘算法及抵抗概念漂移系统的设计与实现[J].电脑知识与技术,2016129):11-13.

[3]李召希.基于MR的分布式数据流计算引擎研究与实现[D].中国科学院大学,2016.


龙源期刊网 http://www.qikan.com.cn

[4]韩德志.2016BIGDATA351大数据环境下的分布式数据流处理关键技术探析[J].计算机用,2016.

(作者单位:青岛酒店管理职业技术学院)


本文来源:https://www.wddqxz.cn/a29072a9cbaedd3383c4bb4cf7ec4afe04a1b1b3.html

相关推荐