您好,欢迎来到吉趣旅游网。
搜索
您的当前位置:首页统计学在大数据领域发展思考

统计学在大数据领域发展思考

来源:吉趣旅游网
ISSN1009-3044ComputerKnowledgeand年Technology第16卷第3期(20201月)电脑知识与技术Vol.16,No.3,January.2020E-mail:wltx@dnzs.net.cnComputerhttpKnowledgeandTechnology电脑知识与技术://www.dnzs.net.cnTel:+86-551-65690963656909统计学在大数据领域发展思考王贺超(中国银行软件中心,北京10000)摘要:伴随互联网技术的突飞猛进,大数据领域发展迅猛。门户网站、电子商务、社交网络、影视游戏等应用中产生了海量数据,这些数据需要统计学发挥作用来挖掘其中的价值。统计学作为交叉性、实用性很强的方科学,面对大数据这一新兴事物,需要积极变革,发展新的统计方法和工具。一方面帮助大数据领域有效地处理数据,另一方面借助大数据技术推动统计学的不断进步。在大数据时代,统计学要正视严峻的挑战,研究切实有用的方法,抓住新时代的发展机遇。关键词:统计学;大数据;互联网技术中图分类号:TP393文献标识码:A开放科学(资源服务)标识码(OSID):文章编号:1009-3044(2020)03-0007-021统计学需要在大数据领域发展统计学能够提供很多有效的工具和手段帮助大数据领域挖掘数据价值。大数据技术包含数据采集技术、数据存储技术、数据处理技术,其中至关重要的就是数据处理技术中的挖掘数据价值。传统IT数据所产生的数据量级小、单位价值高,可以看作是在黑土地上精耕细作。大数据时代的数据量级大、单位价值低,可以看作是在沙漠中淘金。在大数据领域经常需要分析某批数据的宏观特征、某批数据背后隐藏的要素相关性,传统IT的数据分析方法已经无法实现这些目标,这时就需要统计学发挥自己的特长,在不同时期、从不同角度挖掘数据价值。

统计学在解决大数据领域问题时会展示出统计工作的新生命力。统计作为一种古老的活动一直参与到生活、社会、经济领域中。起初统计服务于社会管理需要,搜集、整理有关历史、行政、科学、艺术、人口、资源、财富等社会和经济情况,并进行一定的分析和描述,展示数据的宏观特征。而后随着数据资料积累到一定规模,人们要求统计能够提供揭示事物内在规律的研究方法,以达到推断数据本质、甚至预测数据未来趋势的目的。在大数据时代,统计学需要面对更为庞大、更为丰富的数据,会产生新的统计方法,衍生出新的统计思路。

统计学在解决大数据问题过程中,借助大数据技术丰富和扩充统计工具。信息爆炸和互联网技术更新给大数据带来一系列的新技术,涵盖了数据采集、数据存储、数据处理。从数据采集上讲,传统统计经常使用统计报表、典型调查、电话访谈、调查问卷等方法,大数据领域有行为数据收集、内容数据记录等方式。从数据存储上讲,传统统计使用纸张文档、Excel表格、关系型数据库等载体,大数据领域有文件系统、日志系统、NoSQL数据库系统等工具。从数据处理上讲,传统统计使用人工分析、专用软件计算等方法,大数据领域有可视化分析、数据挖掘算法、语义引擎、流式计算等方式。这些技术能够被统计工作所吸收、采纳,推动统计学的发展。

大数据的意义不止于管理庞大的数据信息,更在于发现这

些数据背后的潜在价值,这就需要统计学的分析能力参与其

中,实现数据的增值。在大数据和统计学的合作过程中,后者也需要进行自我变革。

2大数据领域的特点大数据有很多种定义,获得广泛认可的是:大数据(bigda⁃ta),是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据的数量级巨大。根据国际数据公司(IDC)的研究报告得知,2018年全球产生的数据为33ZB(约33万亿GB)。市场研究机构SynergyResearch发布数据,2018年全球新增超大规模数据中心40个,每个超大规模数据中心一般拥有5万-10万服务器。腾讯董事局马化腾曾披露腾讯数据中心存储总量超过1000PB(约10亿GB),而且每天新增500TB(约50万GB)的数据;腾讯用户每天在微信朋友圈和QQ空间上传的图片达10亿张,腾讯视频(含微信公众号H5视频)每天播放量达20亿次,除夕当天红包支付超过25亿笔,每天移动支付超过5亿笔。由此可见,大数据时代的数据体量巨大,并且持续快速增长。

大数据的种类多样。传统的IT数据主要以数据库记录为主,这是一种规范的、层次分明的结构化数据。但是在大数据时代,数据不仅限于数据库记录,经常以行为日志、电子文档、语音视频、地图图片等形式存在,形成非结构化数据。

大数据的速度很快。这个“速度”包括数据的生成速度、数据的增长速度、数据的更新速度,从而要求数据的获取速度、数据的传输速度、数据的存储速度、数据的处理速度也要很快。进一步对数据的分析和解释速度提出了更高的要求。

大数据依赖互联网技术。大数据作为互联网发展的产物,其采集、存储、处理同互联网技术密不可分。数据采集是指将数据写入数据仓库,通常使用FlumeNG、NDC、Logstash等工具实现数据的收集。数据存储用于存放大量数据、同时给数据的处理提供便利,通常采用Hadoop、HBase等分布式存储方案实

收稿日期:2019-11-05本栏目责任编辑:王

数据库与信息管理

7

ComputerKnowledgeandTechnology电脑知识与技术现。数据处理是非常重要的环节,可以使用MapReduce、Oozie等技术实现数据的管理、计算,挖掘数据特性和价值。

统计工作者应该了解大数据领域的特点,掌握大数据的共性和特性。面对不同体量、不同形态、不同表现的数据,应该思考如何找到办法、工具将数据转化为可以进行统计研究的对象。在实际工作中,将统计工具同互联网技术相结合,采用合适的统计方法,分析和处理现实问题。

3统计学在大数据领域的具体实践统计学一直以数据作为研究对象,几百年来深入不同领域进行研究,逐步发展出成体系的收集和分析数据的方法,这些统计方法旨在发现事物特征,探索事物规律。在面对大数据,统计学继续发挥自己的作用,大数据的拥有者也在自发地进行统计工作。

3.1统计工作发掘大数据中的价值双十一购物节作为全网购物狂欢节,吸引了亿万消费者参

与其中,2019年全网成交额超过4000亿,消费数据背后隐藏着巨大的价值。

中国人民银行公布双十一期间网络支付业务数据:网联、银联共处理网络支付业务17.79亿笔、金额14820.70亿元,同比分别增长35.49%、162.60%。“17.79亿笔”指明了金融支付系统需要在双十一当天完成交易笔数,这对其电子支付系统提出了严峻的挑战。为此多家银行、支付机构提前扩充系统资源、准备应急方案,在统计数据的帮助下,实现电子支付系统平稳运行。

京东双十一购物节的数据显示:3000元以上价位段手机销量同比增长400%200%,牛奶成交额是去年同期四倍,,2000元以上高端美容器产品成交额同比增70英寸及以上电视成交额同比增长超过170%,有机6有机的食品,倍。由统计数据得知:更个性化的定制服务,中国消费者需要更高端的电子产品,定制旅产品成交额同比增长追求品质化的生活。商家更会倾向于提供更多的类似产品,消费者能够获得更丰富的产品。

根据国家邮政局的监测数据,双十一全天各邮政、快递企业共处理5.35亿快件,是二季度以来日常处理量的3倍,同比增长28.6%。通过这些数据,物流行业能够识别出物流压力,并寻找合适的办法抚平波动,充分利用社会资源,提高物流效率。

通过对数据的分类整理、定量计算,进行计数分析、分布特征分析、评价判定分析,结合实际应用场景,评估出数据统计特征背后的潜在价值。3.2统计工作探求事物规律百度地图发布了春运出行预测报告,基于铁路车次大数

据、高速公路信息大数据、地图定位大数据等历年春运出行数据的统计特征,对春运期间人口迁徙情况、交通拥堵进行了预测。通过统计分析得出了诸如:上海地区用车订单或将是平日两倍且易拥堵、泰国大皇宫热度较高等具有指导意义的预判。

阿里巴巴以阿里电商数据为核心,基于网站浏览量、浏览人次、供求产品数量、公司数量等指标统计计算得出阿里指数。经过统计分析后发布市场行情、热门行业的综合趋势,进一步提供产业内贸易联系、行业上下游关系。

通过对数据的估计推算分析、动态预测分析、关联关系分析、系统评审分析、数据挖掘分析,解释信息要素之间关系,发

8

数据库与信息管理

第16卷第3期(2020年1月)

现事物规律。

3.3统计工作使用大数据工具解释性脚本语言。由于Python是一种面向对象的计算机程序设计语言,Python简单易用、能够快速处理大数也是一种据,在大数据时代被广泛用作大数据处理工具,也成了统计分析的有力助手。第一,NumPy(够帮助研究人员快速进行数值分析。第二,数组处理)、SciPy(Python数值运算有专门的可算计算扩展库,)、matplotlib(用绘图功能Python可以写简)例如:等,能单爬虫,从而快速地获取大量网页数据,同时Python提供了简单的文档处理功能,可以通过极短的代码完成大部分文档的处理。

大数据虽然量级大、种类多,但仍然是一种数据,一种统计学研究的对象。统计学作为方科学,结合大数据领域现状,深入研究各类现实问题,形成一系列具有实际价值的实践。

4统计学在大数据领域面临的问题大数据领域给统计学带来了新发展的同时,也给其带来了更多的挑战。统计学需要认真思考如何处理大数据带来的问题,才能实现自我变革。

大数据和样本。有人持有一种观点:大数据不用随机分析法(抽样调查)这样传统的分析方法处理数据,而是对所有的数据进行分析处理,所以大数据是总体。虽然大数据量级大、大数据技术可以做到对全部数据进行处理,但是这并不意味着已经掌握的大数据就是总体。结合现实来讲,已有数据不完全等同于所有数据,采集大数据的过程,只是从某一方面、某一时间段从远远不断地信息流中抓取数据。大数据虽然大,但仍然是客观事实的一个样本。这就引发了一系列思考:采集的大数据能否具有充分代表性,通过对大数据(样本)的分析能否获得总体的特征。

非结构化数据和统计方法。在采集、记录数据时,往往不知道这些数据有何用途,通常是为了记录而记录数据,这就导致了非结构化数据的大量存在。按照传统统计方法,在获取数据之前已经能够明确目标数据的类型,统计方法的确定早于数据采集。在大数据领域,一方面统计工作通常晚于数据采集,另一方面需要从多个角度对大数据进行多种统计分析。如何处理非结构化数据对统计方法有很大影响。

大数据技术和统计工作者。大数据时代的来临离不开信息技术的发展,传统的统计工具不足以实现大数据的分析处理。统计工作者需要学习掌握大数据技术,结合统计方法,创造出大数据时代的统计工具,才能充分发掘大数据的价值。

5总结统计学作为一门综合学科,从社会、经济统计向多分支学科发展,统计的范畴已覆盖了社会生活的一切领域,几乎无所不包,成为通用的方科学。在互联网蓬勃发展的年代,大数据领域陡然出现,既帮助统计学收集、处理数据,也向统计学提出了新的要求。统计学应该及时开拓进取,进行自我变革,扩展统计学的应用领域,创造大数据时代的统计方法。

参考文献:[1]符一平展趋势[J]..浅谈统计学在大数据时代面临的机遇、中国管理信息化,2016,19(14):245-246.挑战及其发(下转第26页)

本栏目责任编辑:王力

ComputerKnowledgeandTechnology电脑知识与技术第16卷第3期(2020年1月)

演练初步认识进制,同时,学生可以根据自己的预习情况将遇到的问题留言,有助于教师课堂授课的精准性,了解所有学生的预习情况和对这个章节的知识接受程度。2.2课堂授课完成进行及时进行量化统计,长期保留测试结果,便于了解学生整个学年该课程的学习情况和学习质量,教师也能够了解到该门课程的教学成果,调整教学策略,精益求精。

3总结“互联网+”和网络技术的发展有效推进了课堂,给教学模式的改革、打造金课、淘汰水课等带来了新的契机。雨课堂在Access数据库课程的应用不仅增加了教师与学生之间的互动趣味性,调动学生的学习积极性,而且减轻了教师的负担,量化了学习质量,提升了教学质量。当然,雨课堂的应用,也给教师的教学带来了新的挑战,如教师自身的计算机技能、信息手机及辨别能力;要增加互动效果就必须花大量时间和精力提高教学课件的制作水平,全过程监控学生的学习过程和学习效果。而且雨课堂所有功能都是通过手机实现的,这也给有些学生提供了一个光明正大玩手机的机会,如何集中学生注意力、提高学生听课率、减少手机对课堂的干扰就给教师的教学工作带来了新的研究课题。所以因地制宜、充分利用、互动高效、节奏紧凑,才能有效发挥雨课堂混合教学模式的优越性和便捷性。

正式开启雨课堂上课后,学生可先通过扫码签到实时记录考勤时间,减少了教师人工点名的不确定性和时间的浪费。教师在讲解PPT时,学生在手机端也可以实时查看每页内容,如果该页知识点没有学懂弄透,可以点击“不懂”收藏,方便课后消化。如果该页PPT获得的“不懂”比例过高,雨课堂将会自动搜集该类“不懂”程度过高的知识点,教师接到反馈后也可以适时调整教学进度,对PPT上的知识点及时答疑解难,防止问题越积越多。教师还可以开启限时答题,第一时间掌握学生对知识点的理解情况,有效增强了学生的互动参与度。对于Access数据库中需要实践的部分,如表、记录、字段等,教师可以录制网络视频放在PPT中。也可以开启弹幕功能,在讲解、操作过程中有何疑问都可以随时在屏幕上显示,教师就可以随时了解到学生的学习状态,方便教师及时调整教学策略。甚至在某种程度上,弹幕可以增加学生们对知识点的深入理解或实时讨论,见贤思齐,降低课程的枯燥程度,提高教学趣味性。

课堂授课是雨课堂的重要创新之处,弹幕、投稿、随堂测验、课堂红包、随机点名、即时互动、随时反馈,大班教学也能实现人人都发言,将线下和线上有机统一起来,提高学生的参与度和积极性。2.3课后复习参考文献:[1]王大龙,秦琦.ACCESS数据库和SQLServer数据库的应用比较[J].科技资讯,2010,8(4):18.[2]庄丽君.基于Access数据库的应用与效果[J].电子技术与软件工程,2014(4):218.[3]陈燕,王芳,余晓宇《.计算机应用基础》课程的雨课堂教学改革[J].电脑知识与技术,2019,15(20):105-106.[4]卢行伟,田茂毅,李庆.基于微课和雨课堂的大学计算机混合实验教学模式[J].实验技术与管理,2018,35(6):203-206.[5]王宁宁,李楠,文雯,等.基于雨课堂的混合教学模式在操作系统原理课程的教学研究[J].智库时代,2019(27):199-200.【通联编辑:王力】

课后复习是掌握和巩固一门课程的必要步骤。针对AC⁃

CESS数据库这门教学练相结合的课程,课后复习是知识连贯性的“记忆棒”。但是传统的教学模式并不能及时、有效、客观、可靠的反映学生课后复习的情况,只能通过课后作业、测验等方式去实现。而课后作业这类学习约束力随着互联网的发展越来越小。雨课堂可以利用线上的优势,结合Access数据库课程的特点进行知识点、疑难点的总结推送。对课后作业布置与

(上接第8页)

[2]朱艳丽.大数据背景下对统计学课程建设的思考[J].科技经济导刊,2019(20):133-134.[3]徐延军,左宇晓,王茹川.大数据时代下的统计探讨[J].市场研究,2019(9):24-26.[4]赵博.基于大数据的战略预见研究[D].北京:党校,2016.[5]张燕南.大数据的教育领域应用之研究[D].上海:华东师范大学,2016.[6]李金昌.基于大数据思维的统计学若干理论问题[J].统计研究,2016,33(11):3-10.[7]胡前防,连鹏伟,陈乾坤.Python在统计数据处理中的应用[J].市场研究,2019(8):33-35.[8]齐慧.基于python的WEB数据挖掘技术实现与研究[J].软件工程,2019,22(8):21-23.[9]耿直.大数据时代统计学面临的机遇与挑战[J].统计研究,2014,31(1):5-9.[10]刘旭.探析大数据时代对传统统计学变革的思考[J].才智,2016(35):244.[11]朱建平,张悦涵.大数据时代对传统统计学变革的思考[J].统计研究,2016,33(2):3-9.[12]打造“智能教育云”平台标杆案例沪江与腾讯云达成战略合作.新华网[EB/OL].http://www.xinhuanet.com/itown/2017-04/28/c_136242662.htm.[13]透过“双十一”数据单消费市场新活力.人民网[EB/OL].http://finance.people.com.cn/n1/2019/1112/c1004-31450983.html.【通联编辑:唐一东】

26

数据库与信息管理本栏目责任编辑:王力

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- jqkq.cn 版权所有 赣ICP备2024042794号-4

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务