联系我们

AI 101.

什么是大数据?

mm

更新

 on

什么是大数据?

“大数据”是我们当前时代的常用嗡嗡声之一,但它真的是什么意思?

这是一个快速,简单的大数据定义。 大数据 是过大而复杂的数据,可以通过传统的数据处理和存储方法处理。虽然这是一个快速定义,你可以用作启发式,但更深入,更完全了解大数据会很有帮助。让我们来看看一些基础的一些概念,如存储,结构和处理。

大数据有多大?

它与“尺寸”X'的任何数据表示是大数据的那么简单“,所处理数据的环境是一个非常重要的因素确定与大数据有关的资格。数据所需的大小是为了被视为大数据,依赖于上下文,或者数据正在使用的任务。在不同的上下文中可以被视为“大数据”。

要更具体,如果您尝试将200兆字节的文件发送为电子邮件附件,则无法执行此操作。在此上下文中,200兆字节文件可以被视为大数据。相比之下,将200兆字节的文件复制到同一LAN中的另一个设备可能根本不需要任何时间,并且在该上下文中,它不会被视为大数据。

但是,让我们假设需要预先处理15个数字视频以供培训使用计算机视觉 应用程序。在这种情况下,视频文件占用了如此多的空间,即使是强大的计算机也需要很长时间才能处理它们所有,因此处理通常会在链接在一起的多台计算机上分布,以便降低处理时间。这15个视频数据肯定会有资格作为大数据。

大数据结构的类型

大数据有三种不同类别的结构:无结构化数据,半结构化和结构化数据。

非结构化数据是没有可定义结构的数据,这意味着数据基本上只是在一个大型池中。非结构化数据的示例将是一个充满未标记图像的数据库。

半结构化数据是没有正式结构的数据,但在宽松的结构中确实存在。例如,电子邮件数据可能算作半结构化数据,因为您可以参考各个电子邮件中包含的数据,但尚未建立正式的数据模式。

结构化数据是具有正式结构的数据,数据点由不同的功能分类。结构化数据的一个示例是包含名称,电子邮件,电话号码和网站等联系信息的Excel电子表格。

如果您想了解更多有关这些数据类型中的差异的信息,请检查此处的链接。

评估大数据的指标

可以在型号方面进行分析大数据三种不同的指标:体积,速度和品种。

卷是指数据的大小。数据集的平均大小通常是越来越大。例如,2006年最大的硬盘驱动器是750 GB硬盘。相比之下,Facebook被认为在一天中产生超过500岁的数据,并且今天可用的最大消费者硬盘是一个16 terabyte硬盘。在一个时代中的大数据中量化的是另一个量化的东西可能不是另一个的大数据。今天生成了更多数据,因为我们周围的越来越多的物体配有传感器,摄像机,麦克风和其他数据收集设备。

速度是指数据的快速移动或放置另一种方式,在给定的时间段内产生多少数据。社交媒体流每分钟生成数十万个帖子和评论,而您自己的电子邮件收件箱可能会有更少的活动。大数据流是通常在或多或少的实时处理数十万或数百万个事件的流。这些数据流的示例是在线游戏平台和高频股票交易算法。

品种是指数据集中包含的不同类型的数据。数据可以由许多不同的格式组成,如音频,视频,文本,照片或序列号。通常,传统数据库格式化以处理一个,或只是几种类型的数据。为了使另一种方式,传统的数据库构建以保持相当均匀的数据和一致,可预测的结构的数据。随着应用程序变得更加多样化,充满不同的功能,并由更多人使用,数据库必须发展来存储更多类型的数据。非结构化数据库是持有大数据的理想选择,因为它们可以容纳与彼此无关的多种数据类型。

处理大数据的方法

有许多不同的平台和工具旨在促进对大数据的分析。需要分析大数据池以从数据中提取有意义的模式,这是一种可以与传统数据分析工具完全具有挑战性的任务。为了响应需要分析大量数据的工具,各种公司都创建了大数据分析工具。大数据分析工具包括Zoho Analytics,Cloudera和Microsoft Bi等系统。

Blogger和Programmer有专业的机器学习 深度学习 话题。丹尼尔希望帮助别人利用AI的力量来社交。