大数据的特点主要包括哪些?
500
2024-04-26
根据不同的分类方法,可以将统计数据分为以下几种类型:
按计量层次分类
按照数据的计量层次,可以将统计数据分为定类数据、定序数据、定距数据与定比数据。
1.定类数据。这是数据的最低层。它将数据按照类别属性进行分类,各类别之间是平等并列关系。这种数据不带数量信息,并且不能在各类别间进行排序。例如,某商场将顾客所喜爱的服装颜色分为红色、白色、黄色等,红色、白色、黄色即为定类数据。又如,人类按性别分为男性和女性也属于定类数据。虽然定类数据表现为类别,但为了便于统计处理,可以对不同的类别用不同的数字或编码来表示。如1表示女性,2表示男性,但这些数码不代表着这些数字可以区分大小或进行数学运算。不论用何种编码,其所包含的信息都没有任何损失。对定类数据执行的主要数值运算是计算每一类别中的项目的频数和频率。[3]
2.定序数据。这时数据的中间级别。定序数据不仅可以将数据分成不同的类别,而且各类别之间还可以通过排序来比较优劣。也就是说,定序数据与定类数据最主要的区别是定序数据之间还是可以比较顺序的。例如,人的受教育程度就属于定序数据。我们仍可以采用数字编码表示不同的类别:文盲半文盲=1,小学=2,初中-3,高中=4,大学=5,硕士=6,博士=7.通过将编码进行排序,可以明显地表示出受教育程度之间的高低差异。虽然这种差异程度不能通过编码之间的差异进行准确的度量,但是可以确定其高低顺序,即可以通过编码数值进行不等式的运算。[3]
3.定距数据。定距数据是具有一定单位的实际测量值(如摄氏温度、考试成绩等)。此时不仅可以知道两个变量之间存在差异,还可以通过加、减法运算准确的计算出各变量之间的实际差距是多少。可以说,定距数据的精确性比定类数据和定序数据前进了一大步,它可以对事物类别或次序之间的实际距离进行测量。例如,甲的英语成绩为80分,乙的英语成绩为85分,可知乙的英语成绩比甲的高5分。[3]
4.定比数据。这是数据的最高等级。它的数据表现形式同定距数据一样,均为实际的测量值。定比数据与定距数据唯一的区别是:在定比数据中是存在绝对零点的,而定距数据中是不存在绝对零点的(零点是人为制定的)。因此定比数据间不仅可以比较大小,进行加、减运算,还可以进行乘、除运算。[3]
在统计分析中,区分数据的类型十分重要,不同测度类型的数据,扮演的角色是不一样的。[3]
按来源分类
数据的来源主要有两种渠道:一种是通过直接的调查获得的原始数据,一般称为第一手或直接的统计数据;另一种是别人调查的数据,并将这些数据进行加工和汇总后公布的数据,通常称之为第二手或间接的统计数据。[3]
按时间状况分类
1.时间序列数据。它是指在不同的时间上搜集到的数据,反映现象随时间变化的情况。
2.截面型数据。它是指在相同的或近似的时间点上搜集到的数据,描述现象在某一时刻的变化情况。
数据分类的基本原则如下:
1.稳定性:依据分类的目的,选择分类对象的最稳定的本质特性作为分类的基础和依据,以确保由此产生的分类结果最稳定。因此,在分类过程中,首先应明确界定分类对象最稳定、最本质的特征。
2.系统性:将选定的分类对象的特征(或特性)按其内在规律系统化进行排列,形成一个逻辑层次清晰、结构合理、类目明确的分类体系。
3.可扩充性:在类目的设置或层级的划分上,留有适当的余地,以保证分类对象增加时,不会打乱已经建立的分类体系。
4.综合实用性:从实际需求出发,综合各种因素来确定具体的分类原则,使得由此产生的分类结果总体是最优、符合需求、综合实用和便于操作。
5.兼容性:有相关的国家标准则应执行国家标准,若没有相关的国家标准,则执行相关的行业标准;若二者均不存在,则应参照相关的国际标准。这样,才能尽可能保证不同分类体系间的协调一致和转换。
统计数据按不同的分类规则可分为不同的类型,这里主要按三种分类规则分类。
(1)按照所采用的计量尺度不同,可以将统计数据分为分类数据、顺序数据和数值型数据。
(2)按照统计数据的收集方法,可以将其分为观测数据(observational data)和实验数据(experimental data)。
(3)按照被描述的对象与时间的关系,可以将统计数据分为截面数据和时间序列数据。
1、类目型2、计数型3、命名型4、顺序型5、等距型6、等比型1和3是一样的吧,至于2,我感觉应该是和4一样的
Series:一维数组,与Numpy中的一维array类似。二者与Python基本的数据结构List也很相近。Series如今能保存不同种数据类型,字符串、boolean值、数字等都能保存在Series中。
Time- Series:以时间为索引的Series。
DataFrame:二维的表格型数据结构。很多功能与R中的data.frame类似。可以将DataFrame理解为Series的容器。
Panel :三维的数组,可以理解为DataFrame的容器。
Panel4D:是像Panel一样的4维数据容器。
PanelND:拥有factory集合,可以创建像Panel4D一样N维命名容器的模块。
归纳起来可以按照以下方式进行分类:
(1)从大数据处理的过程来分:包括数据存储、数据挖掘分析、以及为完成高效分析挖掘而设计的计算平台,它们完成数据采集、ETL、存储、结构化处理、挖掘、 分析、预测、应用等功能。
(2)从大数据处理的数据类型来划分:可以分为针对关系型数据、非关系型数据(图数据、文本数据、网络型数据等)、半结构化数据、混合类型数据处理的技术平台。
(3)从大数据处理的方式来划分:可以分为批量处理、实时处理、综合处理。其中批量数据是对成批数据进行一次性处理,而实时处理(流处理)对处理的延时有严格的要求,综合处理是指同时具备批量处理和实时处理两种方式。
(4)从平台对数据的部署方式看:可以分为基于内存的、基于磁盘的。前者在分布式系统内部的数据交换是在内存中进行,后者则是通过磁盘文件的方式
以下是一些:1. 《数据挖掘概念与技术》:这本书涵盖了数据分类的各个方面,包括贝叶斯分类器、决策树、人工神经网络等。2. 《机器学习》:这本书是机器学习领域的经典著作,涵盖了包括聚类、分类、回归等在内的机器学习算法。3. 《数据科学实战》:这本书详细介绍了如何使用Python和R等语言进行数据分类,包括决策树、支持向量机等算法。4. 《大数据分析》:这本书涵盖了大数据分析的各个方面,包括数据预处理、数据分类等,同时也介绍了许多实际应用案例。5. 《数据挖掘导论》:这本书是数据挖掘领域的经典著作,详细介绍了各种数据挖掘算法,包括分类、聚类等。6. 《统计学》:这本书介绍了统计学的基本原理和方法,包括回归分析、方差分析等,这些方法在数据分类中都有应用。7. 《机器学习实战》:这本书通过多个案例介绍了如何将机器学习算法应用于实际问题中,包括分类问题。8. 《深度学习实战》:这本书介绍了深度学习算法的原理和应用,包括卷积神经网络、循环神经网络等,这些算法可以用于解决分类问题。9. 《数据分类技术》:这本书详细介绍了各种数据分类技术的原理和应用,包括决策树、贝叶斯分类器、支持向量机等。10. 《数据分析实战》:这本书通过多个案例介绍了如何将数据分析技术应用于实际问题中,包括分类问题。
GPRS DTU:利用公共运营商网络GPRS网络(又称G网络)为用户提供无线远程数据传输功能。嵌入式主要利用的是高性能工业级8/16/32位通信处理器和工业级无线模块。作为一个软件支撑平台,嵌入式实时操作系统提供RS232和RS485(或RS422)接口,可以直接连接到串口设备,实现透明的数据传输功能。
WIFI DTU:基于WIFI无线通信的无线数据传输产品,通过Tlink自由物联网平台远程管理,多种方式同步在线数据记录、分析、历史查询、微信、短信报警等功能。
CAN DTU:支持过程数据对象、业务数据对象、紧急消息对象、同步消息对象、网络配置对象等。
4G DTU:4G DTU功能相当丰富,因此用途也相对广泛。
本专题涉及化学分类的标准有91条。
国际标准分类中,化学分类涉及到茶、咖啡、可可、危险品防护、钢铁产品、涂料配料、分析化学、环境保护、职业安全、工业卫生、空气质量、事故和灾害控制、建筑材料、辐射防护、黑色金属、化工产品、防护设备、物理学、化学、管道部件和管道、电工器件、土质、土壤学、核能工程、医疗设备、电子元器件综合。
在中国标准分类中,化学分类涉及到茶叶制品、标志、包装、运输、贮存综合、钢铁产品综合、颜料基础标准与通用方法、染料基础标准与通用方法、卫生、安全、劳动保护、基础标准与通用方法、公共医疗设备、混凝土、集料、灰浆、砂浆、标志、包装、运输、贮存、劳动防护用品、防爆电器、合成树脂、塑料基础标准与通用方法、继电保护及自动装置、塑料型材、、实验室用玻璃、陶瓷、塑料器皿、陶瓷、玻璃综合、基础标准与通用方法。
1、定类数据——表现为类别,但不区分顺序,是由定类尺度计量形成的。
2、定序数据——表现为类别,但有顺序,是由定序尺度计量形成的。
3、定距数据——表现为数值,可进行加、减运算,是由定距尺度计量形成的。
4、定比数据——表现为数值,可进行加、减、乘、除运算,是由定比尺度计量形成的。