联系我们

AI 101

什么是大数据?

mm

更新

 on

什么是大数据?

“大数据”是当今时代最常用的流行语之一,但它的真正含义是什么?

这是大数据的快速,简单定义。 大数据 是太大而又复杂的数据,无法通过传统的数据处理和存储方法来处理。尽管这是一个快速定义,您可以将其用作启发式方法,但对大数据有更深入,更完整的了解会有所帮助。让我们看一下大数据背后的一些概念,例如存储,结构和处理。

大数据有多大?

这不是说“ X大小的任何数据都是大数据”那样简单,处理数据的环境是一个非常重要的因素, 确定什么才是大数据。为了被视为大数据,数据所需的大小取决于上下文或正在使用数据的任务。在不同的上下文中,大小差异极大的两个数据集可以被视为“大数据”。

更具体地说,如果您尝试发送200 MB的文件作为电子邮件附件,则将无法发送。在这种情况下,可以将200兆字节的文件视为大数据。相反,将200 MB的文件复制到同一LAN内的另一台设备可能根本不需要任何时间,在这种情况下,它不会被视为大数据。

但是,假设需要对价值15 TB的视频进行预处理以用于培训 计算机视觉 应用程序。在这种情况下,视频文件占用了很大的空间,以至于一台功能强大的计算机都将花费很长时间来处理所有这些文件,因此,处理过程通常会分布在链接在一起的多台计算机上,以减少处理时间。这15 TB的视频数据绝对可以视为大数据。

大数据结构的类型

大数据分为三种不同的结构类别:非结构化数据,半结构化和结构化数据。

非结构化数据 是没有可定义结构的数据,这意味着数据实际上只是在一个大池中。非结构化数据的示例是充满了未标记图像的数据库。

半结构化数据是没有正式结构但存在于松散结构中的数据。例如,电子邮件数据可能算作半结构化数据,因为您可以引用单个电子邮件中包含的数据,但是尚未建立正式的数据模式。

结构化数据是具有形式结构的数据,数据点按不同的特征分类。结构化数据的一个示例是excel电子表格,其中包含联系人信息,例如姓名,电子邮件,电话号码和网站。

如果您想了解更多有关这些数据类型差异的信息,请单击此处的链接。

大数据评估指标

大数据可以从以下方面进行分析 三种不同的指标:音量,速度和变化。

卷是指数据的大小。数据集的平均大小通常在增加。例如,2006年最大的硬盘驱动器是750 GB硬盘驱动器。相比之下,Facebook被认为每天可生成500 TB以上的数据,而当今最大的消费类硬盘是16 TB硬盘。在一个时代中量化为大数据的东西可能不会在另一个时代中量化为大数据。今天,由于周围越来越多的物体配备了传感器,照相机,麦克风和其他数据收集设备,因此产生了更多的数据。

速度是指数据移动的速度,或者换句话说,就是在给定的时间段内生成了多少数据。社交媒体流每分钟生成数十万条帖子和评论,而您自己的电子邮件收件箱中的活动可能会少得多。大数据流是经常或多或少实时处理数十万或数百万个事件的流。这些数据流的示例是在线游戏平台和高频股票交易算法。

多样性是指数据集中包含的不同类型的数据。数据可以由许多不同的格式组成,例如音频,视频,文本,照片或序列号。通常,传统数据库的格式可以处理一种或几种数据类型。换句话说,传统数据库的结构是保存相当均质且具有一致的可预测结构的数据。随着应用程序变得越来越多样化,充满不同的功能并被越来越多的人使用,数据库必须发展为存储更多类型的数据。非结构化数据库非常适合保存大数据,因为它们可以保存彼此不相关的多种数据类型。

处理大数据的方法

有许多旨在简化大数据分析的平台和工具。需要对大数据池进行分析,以从数据中提取有意义的模式,而使用传统的数据分析工具证明这一任务非常具有挑战性。为了满足对分析大量数据的工具的需求,许多公司创建了大数据分析工具。大数据分析工具包括ZOHO Analytics,Cloudera和Microsoft BI等系统。

专门从事以下工作的Blogger和程序员 机器学习 深度学习 话题。 Daniel希望帮助他人将AI的力量用于社会公益。