联系我们

AI 101.

什么是合成数据?

mm

更新

 on

什么是合成数据?

合成数据是一个很快扩大领域的趋势和新兴工具数据科学。什么是合成数据?简而言之的答案是合成数据由数据不是基于任何现实世界现象或事件的数据,而是通过计算机程序生成。然而为什么合成数据对数据科学变得如此重要?如何创建合成数据?让我们探索这些问题的答案。

什么是合成数据集?

随着术语“综合性”建议,通过计算机程序生成合成数据集,而不是通过现实世界事件的文档来组成。合成数据集的主要目的是通用和强大,足以用于培训机器学习楷模。

为了对机器学习分类器,合成数据有用 应该有一定的属性。虽然数据可以是分类的,二进制或数值的,但数据集的长度应该是任意的,并且应该随机生成数据。用于生成数据的随机过程应是可控的,并基于各种统计分布。随机噪声也可以放置在数据集中。

如果合成数据用于分类算法,则应可自定义类别分离的量,以便根据问题的要求更容易或更难的分类问题。同时,对于回归任务,可以采用非线性生成过程来生成数据。

为什么要使用合成数据?

由于像Tensorfflow和Pytorch这样的机器学习框架变得更易于使用和预先设计的型号计算机视觉自然语言处理变得更加普遍,强大,数据科学家必须面临的主要问题是数据的收集和处理。公司往往难以获得大量数据来在给定的时间范围内培训准确的模型。手绘数据是一种昂贵的,慢速获取数据。然而,生成和使用合成数据可以帮助数据科学家和公司克服这些障碍并开发可靠的机器学习模型更快。

使用合成数据有许多优点。合成数据福利数据科学的最明显的方式是它减少了捕获来自真实事件的数据的需要,因此可能会生成数据并比数据集更快地构造数据集现实世界活动。这意味着可以在短时间内产生大量数据。对于很少发生的事件,这尤其如此,因为如果在野外的事件很少发生,可以从一些真正的数据样本中嘲笑更多的数据。除此之外,数据可以自动标记为生成,大大减少标记数据所需的时间量。

合成数据对于获得边缘案例的训练数据也是有用的,这是可能不经常发生但对于您的AI成功至关重要的实例。边缘案例是与AI的主要目标非常相似的事件,但在重要的方式中不同。例如,在设计图像分类器时,仅部分视图的对象可以被视为边缘案例。

最后,合成数据集可以最大限度地减少隐私问题。匿名数据的尝试可能是无效的,因为即使从数据集中删除敏感/识别变量,其他变量也可以在组合时充当标识符。这不是合成数据的问题,因为它永远不会基于真人或真正的事件首先。

使用合成数据的案例

合成数据具有各种各样的用途,因为它可以应用于任何机器学习任务。常用案件对于合成数据包括自驾驶车辆,安全,机器人,欺诈保护和医疗保健。

合成数据的初始用例之一是自动驾驶汽车,因为合成数据用于在获得真实,路上训练数据的条件下为汽车创建训练数据是困难或危险的。合成数据对于创建用于训练图像识别系统的数据,如监视系统,比手动收集和标记一堆训练数据更有效地更有效。通过传统的数据收集和培训方法,机器人系统可以慢慢训练和开发。合成数据允许机器人公司通过模拟测试和工程机器人系统。欺诈保护系统可以从合成数据中受益,并且可以培训新的欺诈检测方法,并使用在使用合成数据时不断新的数据进行培训和测试。在医疗领域,合成数据可用于设计准确的健康分类器,但保留了人们的隐私,因为数据不会基于真实的人。

合成数据挑战

虽然合成数据的使用与它带来了许多优点,但它也带来了许多挑战。

创建合成数据时,通常缺少异常值。异常值自然地发生在数据中,虽然通常从训练数据集丢弃,但它们的存在可能是培训真正可靠的机器学习模型。除此之外,合成数据的质量可以是高度变化的。综合数据通常用输入或种子,数据生成,因此数据的质量可以取决于输入数据的质量。如果用于生成合成数据的数据偏置,则生成的数据可以延伸该偏差。合成数据还需要某种形式的输出/质量控制。需要针对人类注释的数据检查,或者其他形式的真实数据。

如何创建合成数据?

合成数据以机器学习技术以编程方式创建。可以使用古典机器学习技术,如决策树,尽可能深入学习技术。合成数据的要求将影响用于生成数据类型的算法。决策树和类似机器学习模型让公司创建非古典多模态数据分布,接受了实际数据示例。使用这些算法生成数据将提供与原始训练数据高度相关的数据。对于已知数据的典型分布的情况,公司可以通过使用蒙特卡罗方法来生成合成数据。

深度学习基于生成合成数据的方法通常使用变形式自动型器(VAE)或者一种生成的对抗性网络(GaN)。 VAE是无监督的机器学习模型,用于使用编码器和解码器。 VAE的编码器部分负责将数据压缩到原始数据集的更简单,紧凑的版本中,解码器然后分析并用来生成基本数据的表示。 VAE培训,目的是在输入数据和输出之间具有最佳关系,其中输入数据和输出数据非常相似。

谈到GaN模型时,由于GAN实际上是两个网络,它们被称为“对抗的”网络。发电机负责生成合成数据,而第二网络(鉴别器)通过将生成的数据与实际数据集进行比较,并尝试确定哪些数据是假的。当鉴别器捕获假数据时,将通知发电机,并使更改尝试并通过鉴别器获取新的数据批次。反过来,鉴别者在检测假货方面变得越来越好。这两个网络互相训练,假货一直变得更加逼真。

Blogger和Programmer有专业的机器学习深度学习话题。丹尼尔希望帮助别人利用AI的力量来社交。