大数据有哪些
⑴ 大数据有哪些来源
大数据分析的数据来源有很多种,包括公司或者机构的内部来源和外部来源。分为以下几类:
1)交易数据。包括POS机数据、信用卡刷卡数据、电子商务数据、互联网点击数据、“企业资源规划”(ERP)系统数据、销售系统数据、客户关系管理(CRM)系统数据、公司的生产数据、库存数据、订单数据、供应链数据等。
2)移动通信数据。能够上网的智能手机等移动设备越来越普遍。移动通信设备记录的数据量和数据的立体完整度,常常优于各家互联网公司掌握的数据。移动设备上的软件能够追踪和沟通无数事件,从运用软件储存的交易数据(如搜索产品的记录事件)到个人信息资料或状态报告事件(如地点变更即报告一个新的地理编码)等。
3)人为数据。人为数据包括电子邮件、文档、图片、音频、视频,以及通过微信、博客、推特、维基、脸书、Linkedin等社交媒体产生的数据流。这些数据大多数为非结构性数据,需要用文本分析功能进行分析。
4)机器和传感器数据。来自感应器、量表和其他设施的数据、定位/GPS系统数据等。这包括功能设备会创建或生成的数据,例如智能温度控制器、智能电表、工厂机器和连接互联网的家用电器的数据。来自新兴的物联网(Io T)的数据是机器和传感器所产生的数据的例子之一。来自物联网的数据可以用于构建分析模型,连续监测预测性行为(如当传感器值表示有问题时进行识别),提供规定的指令(如警示技术人员在真正出问题之前检查设备)等。
5)互联网上的“开放数据”来源,如政府机构,非营利组织和企业免费提供的数据。
⑵ 大数据技术包括哪些
大数据技术包括数据收集、数据存取、基础架构、数据处理、统计分析、数据挖掘、模型预测、结果呈现。
1、数据收集:在大数据的生命周期中,数据采集处于第一个环节。根据MapRece产生数据的应用系统分类,大数据的采集主要有4种来源:管理信息系统、Web信息系统、物理信息系统、科学实验系统。
2、数据存取:大数据的存去采用不同的技术路线,大致可以分为3类。第1类主要面对的是大规模的结构化数据。第2类主要面对的是半结构化和非结构化数据。第3类面对的是结构化和非结构化混合的大数据,
3、基础架构:云存储、分布式文件存储等。
4、数据处理:对于采集到的不同的数据集,可能存在不同的结构和模式,如文件、XML 树、关系表等,表现为数据的异构性。对多个异构的数据集,需要做进一步集成处理或整合处理,将来自不同数据集的数据收集、整理、清洗、转换后,生成到一个新的数据集,为后续查询和分析处理提供统一的数据视图。
5、统计分析:假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等等。
6、数据挖掘:目前,还需要改进已有数据挖掘和机器学习技术;开发数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术;突破基于对象的数据连接、相似性连接等大数据融合技术;突破用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖掘技术。
7、模型预测:预测模型、机器学习、建模仿真。
8、结果呈现:云计算、标签云、关系图等。
⑶ 大数据有哪些类型
1、结构化数据
可以以固定格式存储,访问和处理的数据称为“结构化数据”。由于此数据采用类似的格式,因此企业可以通过执行分析来获得最大的收益。还发明了各种先进技术来从结构化数据中提取数据驱动的决策。但是,由于结构化数据的创建已经达到Zettabytes标记,因此世界正朝着这样一个程度发展。
2、非结构化数据
任何以未知形式或结构出现的数据都属于非结构化数据。处理非结构化数据并对其进行分析以获取数据驱动的答案是一项艰巨的任务,因为它们来自不同类别,将它们放在一起只会使情况变得更糟。包含简单文本文件,图像,视频等的组合的异构数据源是非结构化数据的示例。
3、半结构化数据
半结构化数据中同时具有结构化和非结构化数据。我们可以看到半结构化数据是形式化的结构,但实际上它不是在关系DBMS中用表定义来定义的。Web应用程序数据是半结构化数据的示例。它具有非结构化数据,例如日志文件,事务历史记录文件等。OLTP系统旨在与结构化数据一起工作,其中数据存储在关系中。
⑷ 大数据包括一些什么
大数据技术包括数据收集、数据存取、基础架构、数据处理、统计分析、数据挖掘、模型预测、结果呈现1、数据收集:在大数据的生命周期中,数据采集处于第一个环节。根据MapRece产生数据的应用系统分类,大数据的采集主要有4种来源:管理信息系统、Web信息系统、物理信息系统、科学实验系统。2、数据存取:大数据的存去采用不同的技术路线,大致可以分为3类。第1类主要面对的是大规模的结构化数据。第2类主要面对的是半结构化和非结构化数据。第3类面对的是结构化和非结构化混合的大数据,3、基础架构:云存储、分布式文件存储等。4、数据处理:对于采集到的不同的数据集,可能存在不同的结构和模式,如文件、XML 树、关系表等,表现为数据的异构性。对多个异构的数据集,需要做进一步集成处理或整合处理,将来自不同数据集的数据收集、整理、清洗、转换后,生成到一个新的数据集,为后续查询和分析处理提供统一的数据视图。5、统计分析:假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等等。6、数据挖掘:目前,还需要改进已有数据挖掘和机器学习技术;开发数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术;突破基于对象的数据连接、相似性连接等大数据融合技术;突破用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖掘技术。7、模型预测:预测模型、机器学习、建模仿真。8、结果呈现:云计算、标签云、关系图等。
⑸ 大数据有哪些常用的平台
大数据有三个主要部分,分别是数学,统计学和计算机等学科。大数据基础知识往往决定了开发人员未来的成长高度,所以要重视基础知识的学习。
大数据平台是对海量结构化、非结构化、半机构化数据进行采集、存储、计算、统计、分析处理的一系列技术平台。大数据平台处理的数据量通常是TB级,甚至是PB或EB级的数据,这是传统数据仓库工具无法处理完成的,其涉及的技术有分布式计算、高并发处理、高可用处理、集群、实时性计算等,汇集了当前IT领域热门流行的各类技术。
(5)大数据有哪些扩展阅读:
注意事项:
大数据的第一站就是收集和存储海量数据(公开/隐私)。现在每个人都是一个巨大的数据源,通过智能手机和个人笔记本释放出大量的个人行为信息。获取数据似乎已经变得越来越容易,数据收集这一模块最大的挑战在于获取海量数据的高速要求以及数据的全面性考虑。
传统商业智能在数据清洗处理的做法(ETL)是,把准确的数据放入定义好的格式中,通过基础的抽取统计生成高维度的数据,方便直接使用。然而大数据有个最突出的特征——数据非结构化或者半结构化。因为数据有可能是图片,二进制等等。数据清洗的最大挑战来了——如何转化处理大量非结构数据,便于分布式地计算分析。
⑹ 常见大数据应用有哪些
大数据早已成为流行词,但究竟何为大数据,却不是人人都能说清楚的。简而言之,大数据就是需要利用专业的处理工具进行分析,从而有利于做出更科学,更合理决策的信息资产。大数据的应用已深深嵌入到我们的日常生活中,影响着我们生活的方方面面,本文将列举几个方面,一起管中窥豹,让人们对大数据有更直观的认识。
一、购物营销
当我们打开淘宝,京东等购物APP时,总是会发现,这些APP比我们自己还懂自己,能够未卜先知地知道我们最近需要什么。
篮球迷在湖人赢了比赛的时候打开淘宝,会发现詹姆斯的球衣就在首页;
一个怀孕的妈妈,打开京东,发现进口的奶粉已经在召唤她购买;
一个经常听神曲的大妈,广场舞音响的推荐总在眼前。
这就是商家通过手机浏览的数据分析,知道我们近期的需求,之后精准地向我们进行推销。
如今人们网络购物的行为越来越频繁,网络购物的体验也越来越好。而影响网络购物体验的一个最重要的方面就是物流的速度。
双11十多年前就火爆中国,但人们记忆犹新的就是双11买的物品很长时间才能拿到,少则一周,多则半个月,严重影响购物者的体验。而如今双十一的成交量增加了上百倍,但送货的速度却提升了不少。很多物品能保证晚上下单,第二天就送达,即使购买的是新疆的葡萄干,也能在24小时到货。
速度提升的背后,离不开大数据的赋能。物流仓储与购物平台合作,通过分析用户的浏览数据,购物车,下定金情况,预知某一地区的购买量,进行提前备货。当用户付款之后,货物是从离用户100公里内的仓储中心发货,而不是千里之外的新疆发货。
通过大数据中心的调控,物流分拣系统能最科学合理的进行装车。在智慧系统的指引下,快递员也能按照最优的线路进行高效的配送。
二、交通出行
如今网络地图、高德地图已经成了我们出行必不可少的工具。没了地图,很多时候我们将寸步难行。有了地图,即使在九曲回肠的复杂道路中,也可以顺利的抵达我们想去的一个网红美食店。
手机地图能够做到精准的导航和实时的路况预测得益于大数据的分析。
一是地图公司有自己数据采集车,前期采集了海量的数据存储在数据库中。
二是每一个使用地图的用户,都共享了自己的位置,贡献了自己的数据。通过对同一时间段同一路段用户的使用情况进行分享,地图很容易就能得知哪里堵车,哪里畅通,提前告知使用者。
三、政务处理
大数据在助力政府的政务处理方面同样发挥着重要的作用。近年来精准扶贫是各级政府的首要工程,扶贫如何做到精准,考验着政府的执政能力。
精准扶贫首先要做到的就是精准,贫困户是不是真正的贫困户,这在过往是一件很难解决的难题。上级政府只有依靠下级政府的统计上报进行拨款,于是关系户成了贫困户,真正贫困的人却难以得到实质性的帮助。
现如今有了大数据的加持,政府通过建档立卡,通过网络数据分析,对每一个贫困户进行核实。家里老人的就医记录,子女的工资水平,养殖等副业的收入等等都将进行评估,以确保精准扶贫落实到位。
电信诈骗无孔不入,但当电信诈骗遇上大数据,诈骗分子也将插翅难逃。如今利用大数据分析,诈骗短信,诈骗网站很容易被识别拦截。通过分析诈骗分子的“伪基站”地址,登录网址等信息也能很快锁定诈骗分子的藏身之处。
四、信用体系
俗话说民无信不立,国无信不强。可见信用对于个人,对于国家都有非常重要的意义。但如何识别一个人是否有信用,却不是一件容易的事。
在熟人社会里,我们可以通过一个人过往的表现,言行来判断他的信用。但在陌生人社会里,想要判定一个人是否有信用就很难了。这也影响了整个社会的运行,例如信用系统不完善,个人去银行贷款很难,网络购物也难以发展。
但如今有了大数据,这些难题都迎刃而解了。例如支付宝的芝麻积分,就是通过分析用户的学历、存款、购物行为、交友特征、履约历史等等数据来赋予用户对应的分数,表示用户的信用等级,同时将特定的特权开放给对应等级的用户。
现在支付宝、微信等信用数据都已并入央行主导的国民信用体系里,成为国家队。中国也正式建立了自己的信用体系,真正实现了有信用走遍天下都不怕,无信用则寸步难行。
20世纪最重要的资源是石油,谁掌握了石油,谁就统治了世界。21世纪最重要的资产则是数据,谁能在数据这座金矿中挖出黄金,谁就能掌握话语权,造福社会,创造财富。
⑺ 大数据的应用领域有哪些
1.了解和定位客户
这是大数据目前最广为人知的应用领域。很多企业热衷于社交媒体数据、浏览器日志、文本挖掘等各类数据集,通过大数据技术创建预测模型,从而更全面地了解客户以及他们的行为、喜好。
利用大数据,美国零售商Target公司甚至能推测出客户何时会有Baby;电信公司可以更好地预测客户流失;沃尔玛可以更准确的预测产品销售情况;汽车保险公司能更真实的了解客户实际驾驶情况。
滑雪场利用大数据来追踪和锁定客户。如果你是一名狂热的滑雪者,想象一下,你会收到最喜欢的度假胜地的邀请;或者收到定制化服务的短信提醒;或者告知你最合适的滑行线路。。。。。。同时提供互动平台(网站、手机APP)记录每天的数据——多少次滑坡,多少次翻越等等,在社交媒体上分享这些信息,与家人和朋友相互评比和竞争。
除此之外,政府竞选活动也引入了大数据分析技术。一些人认为,奥巴马在2012年总统大选中获胜,归功于他们团队的大数据分析能力更加出众。
2.
改善医疗保健和公共卫生
大数据分析的能力可以在几分钟内解码整个DNA序列,有助于我们找到新的治疗方法,更好地理解和预测疾病模式。试想一下,当来自所有智能手表等可穿戴设备的数据,都可以应用于数百万人及其各种疾病时,未来的临床试验将不再局限于小样本,而是包括所有人!
苹果公司的一款健康APP ResearchKit有效将手机变成医学研究设备。通过收集用户的相关数据,可以追踪你一天走了多少步,或者提示你化疗后感觉如何,帕金森病进展如何等问题。研究人员希望这一过程变得更容易、更自动化,吸引更多的参与者,并提高数据的准确度。
大数据技术也开始用于监测早产儿和患病婴儿的身体状况。通过记录和分析每个婴儿的每一次心跳和呼吸模式,提前24小时预测出身体感染的症状,从而及早干预,拯救那些脆弱的随时可能生命危险的婴儿。
更重要的是,大数据分析有助于我们监测和预测流行性或传染性疾病的暴发时期,可以将医疗记录的数据与有些社交媒体的数据结合起来分析。比如,谷歌基于搜索流量预测流感爆发,尽管该预测模型在2014年并未奏效——因为你搜索“流感症状”并不意味着真正生病了,但是这种大数据分析的影响力越来越为人所知。
3.提供个性化服务
大数据不仅适用于公司和政府,也适用于我们每个人,比如从智能手表或智能手环等可穿戴设备采集的数据中获益。Jawbone的智能手环可以分析人们的卡路里消耗、活动量和睡眠质量等。Jawbone公司已经能够收集长达60年的睡眠数据,从中分析出一些独到的见解反馈给每个用户。从中受益的还有网络平台“寻找真爱”,大多数婚恋网站都使用大数据分析工具和算法为用户匹配最合适的对象。
4.
了解和优化业务流程
大数据也越来越多地应用于优化业务流程,比如供应链或配送路径优化。通过定位和识别系统来跟踪货物或运输车辆,并根据实时交通路况数据优化运输路线。
人力资源业务流程也在使用大数据进行优化。Sociometric Solutions公司通过在员工工牌里植入传感器,检测其工作场所及社交活动——员工在哪些工作场所走动,与谁交谈,甚至交流时的语气如何。美国银行在使用中发现呼叫中心表现最好的员工——他们制定了小组轮流休息制度,平均业绩提高了23%。
如果在手机、钥匙、眼镜等随身物品上粘贴RFID标签,万一不小心丢失就能迅速定位它们。假想一下未来可能创造出贴在任何东西上的智能标签。它们能告诉你的不仅是物体在哪里,还可以反馈温度,湿度,运动状态等等。这将打开一个全新的大数据时代,“大数据”领域寻求共性的信息和模式,那么孕育其中的“小数据”着重关注单个产品。
5.
改善城市和国家建设
大数据被用于改善我们城市和国家的方方面面。目前很多大城市致力于构建智慧交通。车辆、行人、道路基础设施、公共服务场所都被整合在智慧交通网络中,以提升资源运用的效率,优化城市管理和服务。
加州长滩市正在使用智能水表实时检测非法用水,帮助一些房主减少80%的用水量。洛杉矶利用磁性道路传感器和交通摄像头的数据来控制交通灯信号,从而优化城市的交通流量。据统计目前已经控制了全市4500个交通灯,将交通拥堵状况减少了约16%。
6.提升科学研究
大数据带来的无限可能性正在改变科学研究。欧洲核子研究中心(CERN)在全球遍布了150个数据中心,有65,000个处理器,能同时分析30pb的数据量,这样的计算能力影响着很多领域的科学研究。比如政府需要的人口普查数据、自然灾害数据等,变的更容易获取和分析,从而为我们的健康和社会发展创造更多的价值。
7.提升机械设备性能
大数据使机械设备更加智能化、自动化。例如,丰田普锐斯配备了摄像头、全球定位系统以及强大的计算机和传感器,在无人干预的条件下实现自动驾驶。Xcel Energy在科罗拉多州启动了“智能电网”的首批测试,在用户家中安装智能电表,然后登录网站就可实时查看用电情况。“智能电网”还能够预测使用情况,以便电力公司为未来的基础设施需求进行规划,并防止出现电力耗尽的情况。在爱尔兰,杂货连锁店Tescos的仓库员工佩戴专用臂带,追踪货架上的商品分配,甚至预测一项任务的完成时间。
8.强化安全和执法能力
大数据在改善安全和执法方面得到了广泛应用。美国国家安全局(NSA)利用大数据技术,检测和防止网络攻击(挫败恐怖分子的阴谋)。警察运用大数据来抓捕罪犯,预测犯罪活动。信用卡公司使用大数据来检测欺诈交易等等。
2014年2月,芝加哥警察局对大数据生成的“名单”——有可能犯罪的人员,进行通告和探访,目的是提前预防犯罪。
9.
提高体育运动技能
如今大多数顶尖的体育赛事都采用了大数据分析技术。用于网球比赛的IBM SlamTracker工具,通过视频分析跟踪足球落点或者棒球比赛中每个球员的表现。许多优秀的运动队也在训练之外跟踪运动员的营养和睡眠情况。NFL开发了专门的应用平台,帮助所有球队根据球场上的草地状况、天气状况、以及学习期间球员的个人表现做出最佳决策,以减少球员不必要的受伤。
还有一件非常酷的事情是智能瑜伽垫:嵌入在瑜伽垫中的传感器能对你的姿势进行反馈,为你的练习打分,甚至指导你在家如何练习。
10.金融交易
大数据在金融交易领域应用也比较广泛。大多数股票交易都是通过一定的算法模型进行决策的,如今这些算法的输入会考虑来自社交媒体、新闻网络的数据,以便更全面的做出买卖决策。同时根据客户的需求和愿望,这些算法模型也会随着市场的变化而变化。
更多精彩:14_spark体系之分布式计算课程Spark 集群搭建+S