联系我们

面试

Peter Staar,IBM科学家,COVID-19开放研究数据集– Interview Series

mm

已发表

 on

IBM科学家Peter Staar开发了一种 12博下载app工具 正在为COVID-19进行治疗或疫苗接种的300多名专家正在使用该工具。

帮助研究人员访问结构化和 非结构化数据 很快,IBM提供了基于云的12博下载app研究资源,该资源已经接受了白宫和一个联盟编写的COVID-19开放研究数据集(CORD-19)中包含的数千种超过45,000篇科学论文的培训。个研究小组以及来自DrugBank,Clinicaltrials.gov和GenBank的许可数据库。

Peter Staar博士加入了IBM Research–2015年7月在苏黎世实验室担任认知解决方案基金会项目的博士后研究员。这位比利时出生的科学家于2006年作为暑期学生首次来到IBM Research。

您首先加入了IBM Research–2015年7月,苏黎世实验室。您在IBM工作过哪些类型的项目?

我的最初研究专注于高性能计算的应用程序,并且是享有盛誉的ACM Gordon Bell奖获奖团队的一部分。

最近在2017年左右,我开始专注于12博下载app,2018年8月,我的团队在ACM知识发现和数据挖掘会议(KDD 2018)上发表了有关大规模可扩展文档提取系统的论文,我们称其为语料库转换服务。这个基于12博下载app的云工具每天能够提取100,000个PDF页面(甚至包括扫描的文档),其准确性超过97%,然后进行培训和应用高级 机器学习 以前所未有的规模从这些文档中提取内容的模型。我们现在正在应用相同的技术来帮助研究人员使用COVID-19。

IBM何时第一次遇到使用的想法 语料库转换服务 解决COVID-19流行病?

3月中旬,白宫牵头发布了有关冠状病毒和COVID-19的45,000多个文档。当我们看到语料库时,我们很快意识到我们的技术不仅可以使PDF可搜索,而且还可以将这些PDF中的知识与其他数据集相结合,从而为您提供帮助 药库, GenBankClinicaltrials.gov。我们在4月3日启用了该服务。

您如何最好地描述什么是语料库转换服务?

如同任何大量不同的数据源一样,很难以能够产生科学见解的方式有效地汇总和分析数据。我们使用知识图使发现这些数据源之间的联系潜在地产生新知识变得更加容易。

您能否讨论将数据从PDF格式提取为可搜索形式的主要挑战?

根据Adobe的说法,目前大约有2.5万亿可移植文档格式(PDF)文件在流通。考虑一下这些文件包含的知识:科学文章,技术文献等等。但是所有这些内容都是“黑暗的”或未使用的,因为到目前为止,我们还没有办法大规模摄取大量PDF文件并使它们的内容可用(或结构化)。

PDF文件通常包含矢量图形,文本和位图图形的组合,所有这些都使得定性和定量数据的提取非常困难。实际上,转换自动内容重建已经有十多年的历史了。尽管有许多文档转换解决方案可用,但它们都不能解决可伸缩性或应用12博下载app,这意味着它们需要依赖昂贵的基于人的维护和升级。

据我们所知,语料库转换服务是第一个在这种可扩展性级别上使用高级12博下载app的综合系统。现有解决方案一次只能将一个文档转换为所需的输出格式,而我们的工具可以提取整个集合,一组文档,并在此基础上构建机器学习的模型。

您如何不仅提取文档中包含的文本,还提取结构?

一个关键因素是,我们在系统中设计了人机交互功能,可以在没有任何计算机科学知识的情况下进行非常快速且大量的注释。与机器学习的这种交换为我们的服务提供了极大的灵活性,因为它可以快速适应某些文档模板,获得高度准确的结果,并最终消除传统的基于规则的算法的昂贵且费时的调整。

您能否讨论建立可扩展并快速响应数百个甚至潜在数千个并发用户的机器学习模型的挑战?

我们已经在诸如IBM Cloud上的OpenShift之类的最新云服务之上开发了语料库转换服务。这使我们能够随着需求的增加轻松地扩展应用程序。因此,我们应用的12博下载app模型可以同时被许多用户使用。

服务中已摄取多少文件?

我们有几个使用该工具的工业客户,所以我们不’因为每个文件都有自己的IBM Cloud实例,所以他们不知道要摄取多少个文档。但是对于COVID-19,我们从白宫摄取了全部45,826篇论文。

研究界对使用此12博下载app工具有何反应?

自从几周前我们宣布免费提供该工具以来,我们已有来自十几个国家的400多个用户,其中大多数是医生和教授。

关于Corpus转换服务和/或在COVID-19上下文中如何使用它,您还想分享其他信息吗?

我们的客户之一是意大利能源公司Eni,该公司正在将我们的技术用于碳氢化合物的勘探,这是一项复杂且知识密集的业务,涉及各种工程和科学学科。

在埃尼(Eni),知识基于对大量地质,物理和地球化学数据的处理,然后将其处理为知识图。然后,地球科学家可以使用12博下载app进行上下文描述并提供相关信息,这将有助于他们改进决策以及对可能的替代勘探方案的识别和验证。更具体地说,对于Eni而言,这意味着更真实,更精确地表示地质模型。

感谢您接受这次非常重要的采访,这将为研究人员节省大量时间。希望了解有关该技术的更多读者,请访问 语料库转换服务 网站。研究人员应访问 新冠肺炎 12博下载app工具 页。请注意,只有合格的研究人员才能访问该资源。 

安东尼·塔迪夫(Antoine Tardif)是 Futurist 他对12博下载app和机器人技术的未来充满热情。他是 BlockVentures.com并已投资了50多个12博下载app和区块链项目。他是的联合创始人 Securities.io 一个专注于数字证券的新闻网站,是unite.12博下载app的创始合伙人。他也是 福布斯技术委员会。