联系我们

采访

APEN的AI专家高级主任Judith Bishop博士– Interview Series

mm

更新

 on

Judith Bishop博士是AIS /美国地区的AI专家高级主任 申请。她正在领导和越来越多的高素质高度合格和经验丰富的语言学家,计算语言学家和人类沟通方式(言语,写作和手势)的专家,以提供具有无与伦比的质量和速度组合的AI培训数据。

什么最初吸引了语言学?

我第一次听说高中最喜欢的英语老师语言学。我是那些同样被外语和人文学科以及数学和科学科目的孩子之一。语言学是语言如何运作的科学,所以它为我带来了这些兴趣。就像这么多人一样,一旦我了解了它,我就完全迷上了。什么可能比我们如何互相传达我们的想法和感受更具魅力?语言学探讨了语言结构,因为对于声音和写入系统的所有差异,通常在表面下相似,因为一切都是我们普遍的人类存在的产品。

你能分享你在AI中找到自己如何工作的创世纪故事吗?

自2004年以来,我在Appen上工作支持语言技术产品和服务。在这段时间内,AI已成为模仿和延长人类通信,推理和感知的人类能力的全面框架,使命和愿景。 2019年,我的团队将自己作为AI专家重建,认识到我们的语言和语言知识对AI企业至关重要。我们的注释数据为人类与AI产品和服务的互动成功提供了基本支持。

你一直在AI工作了超过16年,你见过的一些最大的变化是什么?

主要转变一直是从核心技术开发到使用案例和应用的长尾的重点的多样化。对于我的大部分职业生涯而言,基于语言的AI的焦点是开发和改进模仿人类语音感知和生产,即语音识别,语音合成和和的核心模型集的核心模型集。 自然语言处理。数据集通常符合常见的标签和数据采样标准和约定,例如由SPEECON联盟开发的(消费者设备的语音驱动接口。)这些标准允许核心技术开发人员在普通数据结构上基准测试它们的性能并支持快速AI的演变。

然而,近年来,AI用例的普遍扩张已经提出了识别,即使用此数据构建的核心,通用AI模型在不进一步调谐的情况下无法充分工作。此外,已经开发出故意清洁和“标准”的数据,现在必须培训或更新这些模型,以了解和响应人类投入的所有多样性:所有方言,所有口音,所有种族,所有民族,以及所有的性别人类差异的其他维度。

你能讨论无偏的数据的重要性吗? 机器学习?

机器学习模型,无论是监督,无人监督还是 加强学习 模型将反映其培训数据中存在的偏差。 Alyssa Simpson Rochwerger和Wilson Pang在其最近的书中提供了这个问题的几个优秀的例子, 现实世界艾。如果培训数据没有足够的培训数据,则AI模型对该段的准确性不太准确。

在另一个常见的情况下,人口的代表可以满足,但如果培训数据包含反映世界的数据点之间的相关性,但在世界上的情况下,例如较低的妇女的充分就业率或更高的速度非洲裔美国人的监禁,由此产生的AI申请可以加强和延续这些条件。

语言中存在的关联可以在NLP应用中创建偏见,依赖于称为Word Embeddings的统计关系。如果'她'和'护士'更频繁地在所选择的培训数据中比“他们”或'他'和'护士'和'护士',那么由此产生的申请将在被迫选择一个单数代词时使用“她”护士。为了解决这个特定的问题,研究人员最近开发了一个常用的词嵌入算法,GN-手套的性别中性变体。

在敏感的应用中,偏差问题,如这些问题可以对用户产生毁灭性的影响,并可以消除商业投资。好消息是,除了开发新的,更透明和包容性的数据集,还有越来越多的 数据科学 正在开发应用程序来检查现有训练数据集和AI应用中的偏差。

申请最近推出了用于自然语言处理(NLP)计划的新多样化培训数据集。无论语言品种,方言,ethnolitect,口音,种族或性别如何,您可以分享有关这些数据集如何使最终用户能够获得相同体验的详细信息。

出于上述原因,除了用于培训未来系统的更多包容数据集之外,还需要数据集来纠正AI生产系统中的现有偏差。您提到的Appen DataSets将支持与种族和相关群集相关的偏见的纠正,例如非洲裔美国白话英语。他们将提供补充培训数据,以提高AI语言模型的这一人口的代表。

种族是在AI数据中明确标签的关键人口统计。语言学家指的是与特定种族相关的语言品种作为“ethnolite”。AI的AI数据提供者现在识别出在AI训练数据集中明确表示关键不同的和少数群体,除非在AI训练数据集中明确表示,我们无法确保所产生的系统对这些人群同样表现出同样良好的表现。

相同的性能意味着系统识别用户的单词和意图(他们的含义,或者他们想要完成的行动)和在某些情况下,情绪识别并且它以同样符合用户需求的方式响应,并且不会对实际或心理上的特定用户产生更负面影响。

长期的数据收集方法是专注于数据库中的地理位置和方言代表性的采样 - 假设这将确保该技术将概括为整个语言扬声器的人口。语言技术的表现相对较差,最近为非洲裔美国白话讲话者录取了这一议论者。在其他方面,各种各样的种族,种族,性别和口音中多样化的人口需要主动地包含在培训数据集中,以确保其声音由AI产品和服务听到并理解。 Appen的不同AI培训数据集满足此需求。

在AI之外,您也是一个诗人,其中几首诗歌赢得了不同的行业奖项。您对未来AI表现出这种创造力的观点是什么?包括写诗?

这是一个迷人的问题。诗歌和其他形式的人类创造力借鉴了我们的所有人力资源,感知,感觉和情感,以及语言和形象的结构和细微差别,产生了与当代关注的态度。 Emily Dickinson写道,“如果我读一本书,它让我的全身如此寒冷,没有火可以让我温暖我,我知道这是诗歌。如果我在身体上觉得就好像我的头顶被取消,我知道这是诗歌。“必须有感知,感官或情感认可的要素,但也是真正的惊喜。

高级AI模型,如GPT-3统计模型在不同类型中出现在一起的单词的可能性,包括诗歌。这意味着他们可以制作我们认识到“诗意”语言的东西,例如使用提升的词汇,押韵和意外或超现实的单词组合。但是这些生成语言模型缺乏上面提到的大部分资源,这需要产生一种艺术作品,以便在当前阐明它意味着人类的意味着。

在创造性背景下,我所做的关于AI的引人注目是它的潜力,以产生完全新的见解 - 熟悉的洞察力和超越任何单一人类思想的范围,甚至是最常见的或深受人类的思想。一旦AI一致地访问感官和感知数据,以分析广泛的人类域(视觉,触觉,听觉,生理,情感)没有知道我们将学到自己和世界的内容。 AI的分析能力可能会为创造性的人类勘探产生肥沃的新理由。

到目前为止你有一个惊人的职业生涯,在你看来,从加入词干和特别是ai回来的是什么是什么?

缺乏榜样可以是一个强大的因素(和恶性循环)。有真正的困难 - 在文化上,社会和实践上 - 闯入女性和其他多样化的人的地区,尚未有深刻的存在,以及我们可以贡献的尊重往往缺乏。我作为领导者的自己的经历表明了我的时间,再次又一次有弹性,创造性和成功的团队可以包括多样化的经历和方向。领导者需要在他们的招聘和勇敢的信心中冒险,以至于他们可以对他们的思维方式来应对各种观点来应对挑战,知道这种勇敢也被证明与金融和企业成功强烈相关。

还有什么您希望分享Appen或Ai的其他内容吗?

诸如APPEN的数据提供商通过提供包含包容性培训数据来影响AI结果的强大潜力。

但是,达到包容性AI的目标将要求每个人参加。数据买家还必须认识到他们的责任,明确地提出 - 并支付 - 对于将确保其在现实世界中所有用户的系统最佳性能的最佳数据。从提供AI开发数据的不同社区的不同社区必须能够相信它将被放置的用途。建立信任将需要在所有处理敏感数据的所有人员中都需要强大的透明度和道德惯例。

谢谢您的伟大采访,我喜欢更多地了解您对AI和语言学的看法。希望了解更多信息的读者应该访问 申请.

antoine tardif是一个 Futurist 谁对AI和机器人的未来充满热情。他是首席执行官 BlockVentures.com,并投资于超过50个AI和区块链项目。他是联合创始人 Securities.io 专注于数字资产,数字证券和投资的新闻网站。他是Unite.ai和A成员的创始合作伙伴 福布斯技术委员会。