- 文献综述(或调研报告):
大数据,指的是无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。通常认为,谷歌分别在2003年、2004年和2007年发表的三篇论文,标志着大数据时代的开始。这三篇论文分别阐述了Google File System、MapReduce和BigTable的设计思想,GFS通过对文件进行分布式存储,解决了大数据的存储问题,MapReduce是一个用于大规模数据计算的编程模型,为大数据并行处理提供了巨大的帮助,BigTable是基于GFS的分布式结构化存储系统,满足了高适用性、高性能和高可用性等需求。这三篇论文解决了大数据的存储、计算等问题,为大数据的发展奠定了理论基础。
近些年来,大数据发展迅速,数据规模不断增大,数据类型也愈加复杂,越来越多的企业将大数据上升到战略维度,大数据开始向社会的各个领域渗透。对企业来说,大数据不仅可以促进各生产过程的信息化,辅助领导层决策,还可以辅助分析市场情况,为业务发展和市场营销提供数据支持。在企业对大数据的应用中,数据仓库的建立是不可或缺的一部分。数据仓库,是一个面向主题的、集成的、随时间变化却又相对稳定的数据的集合,它将不同业务系统的数据通过ETL过程,最终转换成可直接应用的结果。
数据仓库建立的主要步骤就是ETL。ETL指的是数据抽取、数据转换、数据清洗和数据加载。数据抽取指的是从不同的数据源、不同的数据格式、不同的应用中抽取数据的过程。数据抽取有着全量抽取和增量抽取的区别,全量抽取是将数据源中的数据全部抽取到数据仓库中,类似于数据迁移,而增量抽取是利用时间戳等方式,只抽取源数据上次抽取以来发生改变的部分。一般数据仓库的建立采用全量抽取和增量抽取相结合的方式。数据转换是对数据的转化、计算、汇总等。一般包括两部分:数据单位及格式的统一,数据粒度的转换等和对字段进行组合分割等操作,计算出源数据中不存在的数据。数据清洗指的是对“脏数据”进行处理。部分文献认为,数据清洗是数据转化的一部分。大数据处理流程中,由于数据量较大,相关程序的运行会不可避免的产生拼写错误,数据缺失等情况,直接使用这种数据会大大地降低数据的质量,从而降低数据的价值。因此,数据清洗是ETL中不可或缺的部分。数据加载指的是将结果数据加载到目标数据仓库中,跨平台和跨网络等异构问题是数据加载所面临的挑战。
在企业大数据应用中,最主要用到的是Hadoop框架。Hadoop是一个由Apache基金会开发的分布式系统基础架构,它以谷歌的三篇论文作为理论基础,具有高可靠性、高扩展性、高效性、高容错性和低成本的特点。Hadoop框架的核心是HDFS(Hadoop分布式文件系统)和MapReduce。HDFS作为Hadoop系统的分布式文件系统基础,容错率高且能检测和处理硬件故障。HDFS的主从结构包括一个NameNode主节点和多个与之相连的DataNode节点。NameNode节点负责文件系统名称空间的管理和外部客户机访问的控制,DataNode节点主要处理具体的数据读写任务。较大的数据集会被分成多个数据块,每个数据块都存在存放在不同DataNode上的多个备份。每个DataNode都会定期向NameNode发送心跳信息,通过心跳信息NameNode可以判断出DataNode的工作情况,如果DataNode出现故障,则NameNode将采取修复措施,从其他节点复制该节点丢失的块。这就保证了低成本的硬件水平下,集群的可靠性。在数据仓库工具的选择上,Hive得到了广大企业的青睐。Hive是一种底层封装了Hadoop的数据仓库工具。与传统关系型数据库的区别是,它直接将数据存储于HDFS中。Hive还支持类似SQL的查询,将用户的HQL语句解析、编译、优化并在默认配置下最终生成MapReduce任务。因此,Hive的查询延迟相对较高。Hive的出现大大减少了直接使用Hadoop框架的学习成本,避免了开发人员直接面对复杂的MapReduce的编写,降低了大数据处理的开发时间与成本,被各大企业广泛应用。
现如今,大数据的发展已经深入到各行各业中。越来越多的企业开始意识到,数据将会成为这个时代下企业的重要竞争力。Hadoop和Hive等工具的出现,也大大降低了企业大数据应用的门槛。但仍有一些传统企业由于成本等因素的影响,没有对大数据进行充分地利用。企业大数据处理也还存在着速度慢,流程复杂等问题。如何进一步地优化企业大数据的处理方式,将会是接下来一个重要的课题。
参考文献:
[1]朱孔村.大数据发展现状与未来发展趋势研究[J].大众科技,2019,21(01):115-118.
[2]李和仙.大数据分析时代对市场营销的影响[J].现代营销(下旬刊),2020(02):62-63.
[3]阿迎萍,任小伟,董玉霞.企业营销管理系统中数据仓库的设计与构建[J].廊坊师范学院学报(自然科学版),2016,16(04):10-15 19.
[4]卫倩平.基于大数据的卷烟工业企业数据仓库建设[J].电子技术与软件工程,2017(03):183.
课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。