大数据的特点主要包括哪些?
500
2024-04-26
有人说大数据技术是第四次技术革命,这个说法其实不为过。
很多人只是听过大数据这个词或者是简单知道它是什么,那么它是什么呢,在这里就通俗点来说一下个人对大数据的理解。
大数据,很明显从字面上理解就是大量的数据,海量的数据。大,意思就是数据的量级很大,不上TB都不好意思说是大数据。数据,狭义上理解就是12345那么些数据,毕竟计算机底层是二进制来存的,那么在大数据领域,数据就不仅仅包括数字这些,它可以是所有格式的东西,比如日志,音频视频,文件等等。
所以,大数据从字面上理解就是海量的数据,技术上它包括这些海量数据的采集,过滤,清洗,存储,处理,查看等等部分,每一个部分包括一些大数据的相关技术框架来支持。
举个例子,淘宝双十一的总交易额的显示,后面就是大数据技术的支持,全国那么多淘宝用户的交易记录汇聚到一起,数据量很大,而且要做到实时的展现,就需要强有力的大数据技术来处理了。
数据量一大,那么得找地方来存,一个服务器硬盘可以挂多少,肯定满足不了这么大的数据量存储啊,所以,分布式的存储系统应运而生,那就是HDFS分布式文件系统。简单的说,就是把这么大的数据分开存在甚至几百甚至几千台服务器上,那么管理他们的系统就是HDFS文件系统,也是大数据技术的最基本的组件。
有地方存了,需要一些分布式的数据库来管理查询啊,那就有了Hbase等,还需要一些组件来计算分析这些数据啊,mapreduce是最基本的计算框架,其他的计算框架Spark和Storm可以完成实时的处理,其中HDFS和MapReduce组成了Hadoop1.
总之,一切都是数据。我们的历史,是不是都是大量的数据保存下来的,现在我们也是大数据的生活,天天有没有接到骚扰电话还知道你姓什么,你查话费什么的从几亿人的数据中查到你的信息,大数据生活。未来,大数据将更深刻的渗透到生活中。
大数据指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。通过大量的统计了解大家的喜好,想要的东西,从而得到他们想要的,比如精准营销,征信分析,消费分析等等
数据:未加工过的数字和事实,数据还包括了图片、音频和文字等。数据是可以从不同角度来用的。比如说有地方的GDP总量最大,但是没谈到人均GDP;有地方谈到人均GDP的总量最大,但是没谈人数总量是多少。那么我们是不能拿这些来做决策的。
信息:处理过的数据。“我去过一家企业,他们说自己是行业第一,我就会问他说第一的位置多久了?他说是 12 年,我接着说,那你增长吗?他说最近 5 年没有增长,我说那你这个定义有什么用呢?为什么要从数据过渡到信息?没有处理过的数据,是没有办法做价值判断的。”
知识:鉴别过的信息。“知识是信息被处理过后,再做鉴别产生的。当我了解一个城市 GDP 之后,还需要接着了解它的产业结构,然后才能做一个经济整体的价值判断,最后就拥有了这个城市的知识,并可以帮助这个城市作出选择。”陈老师谈到我们否拥有知识,需要做三件事:找到真实的来源、要做处理和加工、要去鉴别它。
大数据顾名思义就是海量的数据堆在一起,就现成了大数据,大数据分实时时间和历史数据,大数据又分it数据,ot数据,视频时间,图像数据,时空数据等多类型数据,大数据的目的就是实现更智慧,更智能。大数据不去挖掘分析就是一堆无用的数据,所以就必须各种行业应用专家去建模,去分析挖掘。因此在大数据面前,行业专家最吃香,码农一抓一大把,模型专家有几个。对于企业大数据分析挖掘可以为企业提高效率,提高品质,降低成本等等若干优点,越是规模大的企业,大数据挖掘价值越大,给你举2个例子,一个就是九江某石化公司,没有进行大数据挖掘优化前年年亏损,挖掘优化后,他的效率提高了,他的品质提供了,现在每年盈利20多个亿,在石化行业,产品分多个品质,提高几个百分点就是另外一个品质,价格差异很大,这些企业产量相当惊人,上升1个百分点都很厉害。再举个例子,滴滴优化分配问题,因为他们一段时间内产生数据量太大,没有优化前,为了解决实时性问题,用了几百万硬件堆叠,用硬件解决性能问题,优化后,一台笔记本解决,所以学好数学还是很关键的。
大数据(Big data)指的是规模巨大、多种类型来源且速度极快的数据集合,通常具有高度的复杂性和高度的异构性。这些数据集合的大小远远超出了传统数据库和数据处理工具的处理能力,需要新的技术手段进行存储、管理、处理和分析。大数据一般被用于挖掘潜在的商业价值、了解客户需求及行为、预测未来趋势、改进生产流程等等。
大数据主要有三个方面的特点:
1. 体量极大:大数据集合的容量通常以TB、PB甚至EB为单位计算,这些数据来自用户日常行为、社交媒体、传感器网络、医疗记录、科学研究等多个领域。
2. 多样化:大数据集合通常包含结构化、半结构化和非结构化数据,如文本、图片、视频、声音等。
3. 处理速度快:数据的增长速度非常快,需要快速的处理和实时的决策,从而帮助企业和机构更好地应对业务挑战和机遇。