大数据的特点主要包括哪些?
500
2024-04-26
4/4
数据来源
大数据分析的数据来源有很多种,包括公司或者机构的内部来源和外部来源。分为以下几类:
1.交易数据。包括POS机数据、信用卡刷卡数据、电子商务数据、互联网点击数据、“企业资源规划”(ERP)系统数据、销售系统数据、客户关系管理(CRM)系统数据、公司的生产数据、库存数据、订单数据、供应链数据等。
2.移动通信数据。能够上网的智能手机等移动设备越来越普遍。移动通信设备记录的数据量和数据的立体完整度,常常优于各家互联网公司掌握的数据。移动设备上的软件能够追踪和沟通无数事件,从运用软件储存的交易数据(如搜索产品的记录事件)到个人信息资料或状态报告事件(如地点变更即报告一个新的地理编码)等。
3.人为数据。人为数据包括电子邮件、文档、图片、音频、视频,以及通过微信、博客、推特、维基、脸书、Linkedin等社交媒体产生的数据流。这些数据大多数为非结构性数据,需要用文本分析功能进行分析。
4.机器和传感器数据。来自感应器、量表和其他设施的数据、定位/GPS系统数据等。这包括功能设备会创建或生成的数据,例如智能温度控制器、智能电表、工厂机器和连接互联网的家用电器的数据。来自新兴的物联网(Io T)的数据是机器和传感器所产生的数据的例子之一。来自物联网的数据可以用于构建分析模型,连续监测预测性行为(如当传感器值表示有问题时进行识别),提供规定的指令(如警示技术人员在真正出问题之前检查设备)等。
大数据的数据来源主要有三个渠道,分别是物联网系统、传统信息处理系统以及互联网应用(Web和App),所以要想获得大数据就要从这三个渠道来获取。
物联网系统产生的数据占据着大数据中的重要比例,物联网产生的数据多以非结构化数据为主,包括视频、音频、传感数据等等。物联网的应用领域众多,比如工业物联网、农业物联网、车联网、智慧城市等都会产生大量的数据,通常情况下这些数据的采集都是有严格要求的,是不能开放给个人的。如果个人要想获得这部分数据,一个比较可行的方案是跟数据采集者进行合作,比如做数据分析等业务。
传统信息系统涵盖的领域非常广泛,有政务系统、企业ERP、教育信息系统、医疗信息系统等等,传统信息系统涵盖的数据多以结构化数据为主,而且往往有较高的精确度和关联关系,这部分数据的价值密度也是相对比较高的。
但是传统信息系统涵盖的数据往往涉及到个人隐私、商业机密等内容,所以这部分内容通常是受到严密保护的。随着大数据技术的发展,业界对于政务系统的数据开放的呼声越来越高,经过脱敏的数据往往并不会对个人隐私构成侵犯,所以未来某些政务系统的大数据会陆续开放出来。
互联网应用也是产生大数据的重要基础之一,包括各种Web应用以及大量的App产品,这部分数据多以半结构化为主,数据内容也存在真假难辨的情况,但是由于这部分数据的价值密度相对还是比较高的,所以现在不少互联网公司就是基于这些数据对用户进行“画像”,从而进行多维度的分类。
医疗健康领域的大数据主要有四个来源:
1、制药企业/生命科学
2、临床决策支持及其他临床应用(包括诊断相关影像信息)
3、费用报销、利用率和欺诈监管
4、患者行为/社交网络也就是说,不管是来自制药企业的数据,还是来着临床、社保或是患者的数据都可被当作医疗健康大数据的来源。
大数据是通过以下几点来计算的:
1、自然资源大数据
自然资源部正式组建解决了数据共享的体制问题,以自然资源部为依托可以有效地将国土、海洋、森林、矿产等自然资源有关的数据相互整合。自然资源数据形式多样、分布分散、数据量巨大,有着极高的潜在商业价值。通过大数据技术可以将多种类型、不同来源的自然资源数据有效整合,并发掘海量的自然资源数据深层信息。
2、司法工作大数据
法院大数据平台显示,涉农地刑事一审审结案件量均呈增加趋势,且增速均变快。基于司法大数据,为如何建构适用于不同地区、不同时间的动态变化的社会治理框架提供参考。通过法院大数据平台的案件统计分析与裁判文书分析,将纠纷合理归因,从诉源的角度分析各种因素,将为深化矛盾纠纷多元化解、破解司法部门案多人少的困境提供重要的智力支撑。
3、网络环境大数据
大数据中的类型是极为复杂的,互联网在人们生活中广泛运用,使得数据的产生途径越来越多,大数据的多样化以及高速性的特点也导致数据在采集过程中的复杂程度。布隆过滤器在使用过程中,在存储空间以及插入或查询的时间都是常数,使得其简洁程度达到最大值。