联系我们

AI 101

什么是合成数据?

mm

更新

 on

什么是合成数据?

综合数据 是以下领域的快速发展趋势和新兴工具 数据科学。究竟什么是综合数据?简而言之,就是综合数据由 不基于任何现实现象或事件的数据,而是通过计算机程序生成的。但是,为什么合成数据对数据科学如此重要?如何创建综合数据?让我们探索这些问题的答案。

什么是综合数据集?

就像“合成”一词所暗示的那样,合成数据集是通过计算机程序生成的,而不是通过真实事件的文档来组成的。综合数据集的主要目的是具有足够的通用性和鲁棒性,可用于训练 机器学习 楷模。

为了对机器学习分类器有用,综合数据 应该具有某些属性。 尽管数据可以是分类的,二进制的或数字的,但数据集的长度应该是任意的,并且数据应该是随机生成的。用于生成数据的随机过程应该是可控的,并且应基于各种统计分布。随机噪声也可以放置在数据集中。

如果将合成数据用于分类算法,则应自定义类分离的数量,以便根据问题的要求使分类问题更容易或更难。同时,对于回归任务,可以使用非线性生成过程来生成数据。

为什么要使用合成数据?

随着像TensorfFlow和PyTorch这样的机器学习框架变得更易于使用和预先设计的模型 计算机视觉自然语言处理 变得无处不在且功能强大,数据科学家必须面对的主要问题是数据的收集和处理。公司通常难以获取大量数据以在给定的时间范围内训练准确的模型。手动标记数据是获取数据的昂贵,缓慢的方法。但是,生成和使用合成数据可以帮助数据科学家和公司克服这些障碍,并以更快的方式开发可靠的机器学习模型。

使用合成数据有许多优点。使用合成数据最有利的方式是数据科学,它减少了从现实事件中捕获数据的需求,因此,与依赖于数据集的数据集相比,生成数据和构建数据集的速度要快得多。真实事件。这意味着可以在短时间内生成大量数据。对于很少发生的事件尤其如此,好像某个事件很少在野外发生,可以从某些真实数据样本中模拟更多数据。除此之外,数据可以在生成时自动标记,从而大大减少了标记数据所需的时间。

综合数据还可以用于获取针对极端情况的训练数据,这些情况可能不经常发生,但对于AI成功与否至关重要。边缘案例是与AI的主要目标非常相似但在重要方面有所不同的事件。例如,在设计图像分类器时,可以将仅部分可见的对象视为边缘情况。

最后,合成数据集 可以最大程度地减少隐私问题。 尝试使数据匿名可能是无效的,因为即使从数据集中删除了敏感/识别变量,其他变量在组合时也可以充当标识符。对于合成数据而言,这不是问题,因为它从来没有基于真实的人或真实的事件。

合成数据用例

综合数据具有多种 用途 ,因为它几乎可以应用于任何机器学习任务。 常见用例 用于综合数据的包括自动驾驶汽车,安全性,机器人技术,欺诈保护和医疗保健。

综合数据的最初使用案例之一是自动驾驶汽车,因为综合数据用于在难以获得真实或路上训练数据或危险的情况下为汽车创建训练数据。合成数据对于创建用于训练图像识别系统(如监视系统)的数据也比手动收集和标记一堆训练数据要有效得多。使用传统的数据收集和培训方法,机器人系统的培训和开发速度可能很慢。合成数据允许机器人公司通过仿真来测试和设计机器人系统。欺诈保护系统可以从合成数据中受益,并且可以使用使用合​​成数据时不断更新的数据来训练和测试新的欺诈检测方法。在医疗保健领域,合成数据可用于设计准确的健康分类器,但可以保护人们的隐私,因为这些数据不会基于真实的人。

综合数据挑战

尽管使用综合数据带来了很多好处,但同时也带来了许多挑战。

创建综合数据时,它通常没有异常值。离群值自然出现在数据中,尽管经常从训练数据集中删除,但它们的存在对于训练真正可靠的机器学习模型可能是必需的。除此之外,合成数据的质量可能会高度可变。合成数据通常是使用输入或种子数据生成的,因此数据的质量可能取决于输入数据的质量。如果用于生成合成数据的数据存在偏差,则生成的数据可以使该偏差永久存在。合成数据还需要某种形式的输出/质量控制。需要对照人工注释的数据进行检查,否则真实数据是某种形式。

如何创建合成数据?

使用机器学习技术以编程方式创建合成数据。可以使用经典的机器学习技术(例如决策树), 深度学习技术也可以。对合成数据的要求将影响用于生成数据的算法类型。决策树和类似的机器学习模型使公司可以创建非经典,多模式的数据分布,并通过实际数据示例进行训练。使用这些算法生成数据将提供与原始训练数据高度相关的数据。在已知典型数据分布的情况下,公司可以使用蒙特卡洛方法生成综合数据。

深度学习生成合成数据的基于方法的方法通常使用 可变自动编码器(VAE) 要么 生成对抗网络(GAN)。 VAE是使用编码器和解码器的无监督机器学习模型。 VAE的编码器部分负责将数据压缩成原始数据集的简单,紧凑版本,然后由解码器进行分析并用于生成基本数据的表示形式。培训VAE的目标是在输入数据和输出之间具有最佳关系,其中输入数据和输出数据都极为相似。

当谈到GAN模型时,由于GAN实际上是两个相互竞争的网络,因此它们被称为“对抗”网络。生成器负责生成合成数据,而第二个网络(鉴别器)通过将生成的数据与真实数据集进行比较来运行,并尝试确定哪些数据是伪造的。当鉴别器捕获到虚假数据时,将通知生成器,并对其进行更改以尝试由鉴别器获取新的一批数据。反过来,鉴别器在检测伪造品方面变得越来越好。这两个网络经过相互训练,伪造品变得越来越栩栩如生。

专门从事以下工作的Blogger和程序员 机器学习 深度学习 话题。 Daniel希望帮助他人将AI的力量用于社会公益。