联系我们

AI 101.

什么是数据科学?

mm

更新

 on

数据科学领域似乎只是每天变得更大,更受欢迎。根据LinkedIn,数据科学是2017年增长最快的工作领域之一在2020年Glassdoor中排名了数据科学的工作美国三大工作之一。鉴于数据科学的日益普及,毫无疑问,更多的人对该领域感兴趣。然而,数据科学确切地说是什么?

让我们熟悉数据科学,花一些时间来定义数据科学,探索数据和人工智能如何改变现场,了解一些常见的数据科学工具,并研究了一些数据科学的例子。

什么是数据科学?

在我们探索任何数据科学工具或示例之前,我们希望获得简明的定义数据科学.

定义“数据科学”实际上是有点棘手,因为该术语适用于许多不同的任务和探究方法和分析方法。我们可以通过提醒自己的“科学”是什么意思。科学是通过观察和实验的物理和自然界的系统研究,旨在提高人类对自然过程的理解。该定义中的重要词语是“观察”和“理解”。

如果数据科学是从数据模式中了解世界的过程,那么数据科学家的责任是转换数据,分析数据和从数据中提取模式。换句话说,数据科学家提供数据,并且它们使用许多不同的工具和技术来预处理数据(使其准备好分析),然后分析有意义的模式。

数据科学家的作用类似于传统科学家的角色。两者都涉及数据分析支持或拒绝假设关于世界的运作方式,试图在数据中对改善我们对世界的理解进行造成模式。数据科学家利用传统科学家的相同科学方法。数据科学家通过收集关于他们想要学习的一些现象的观察来开始观察。然后,他们对有问题的现象制定了一个假设,并尝试找到以某种方式无效的数据。

如果假设不受数据矛盾的话,他们可能能够构建一个理论或模型,了解现象如何运作,它们可以通过查看它是否适用于其他类似数据集来一次又一次地进行测试。如果模型足够强大,如果它良好地解释模式并且在其他测试期间没有无效,则甚至可以用于预测该现象的未来发生。

数据科学家通常不会通过实验来收集自己的数据。他们通常不会使用控制和双盲试验设计实验,以发现可能干扰假设的混杂变量。数据科学家分析的大多数数据将是通过观察研究和系统获得的数据,这是一种数据科学家的工作可能与传统科学家的工作不同的方式,他们倾向于执行更多实验。

也就是说,可能会呼吁数据科学家进行实验形式被称为A / B测试在将调整到填充数据以查看数据模式如何发生变化的系统中,那里

无论使用的技术和工具如何,数据科学最终都旨在通过识别出现数据来改善我们对世界的理解,通过观察和实验获得数据。数据科学是使用算法,统计原则和各种工具和机器的过程,以利用数据的洞察力,帮助我们在我们周围世界上了解世界的洞察力。

数据科学家们做了什么?

您可能会看到任何涉及以科学方式分析数据的活动,可以称为数据科学,这是使数据科学如此努力地定义的一部分。要更清楚,让我们探索数据科学家的一些活动 可能做以一天为周期。

Data science brings many different disciplines and specialties together. Photo: Calvin Andrus via Wikimeedia Commons, CC BY SA 3.0 (//commons.wikimedia.org/wiki/File:DataScienceDisciplines.png)

在任何给定的日,可能会要求数据科学家:创建数据存储和检索模式,创建数据ETL(提取,转换,负载)管道和清理数据,采用统计方法,工艺数据可视化和仪表板,实现人工智能和机器学习算法,对基于数据的动作提出建议。

让我们打破一点上面列出的任务。

可能需要数据科学家来处理存储和检索数据所需的技术的安装,请注意硬件和软件。负责此职位的人也可能被称为“数据工程师“。但是,一些公司在数据科学家的角色下包括这些责任。数据科学家还可能需要创建或协助创建,Etl管道。作为数据科学家的需求,数据非常少数就是格式化的。相反,数据将需要从数据源以原始形式接收,转换为可用格式,并预处理(类似于标准化数据,删除冗余和删除损坏的数据)的内容。

数据科学的统计方法

统计学应用必须简单地查看数据并将其解释为实际科学。统计方法用于从数据集中提取相关模式,数据科学家需要在统计概念中熟悉。他们需要能够通过控制混杂的变量来辨别与杂散相关性的有意义的相关性。它们还需要知道用于确定数据集中的哪些功能对其型号/具有预测电源的重要工具。数据科学家需要知道何时使用回归方法与分类方法,以及何时关注样本与样本的中值的均值。没有这些关键技能的数据科学家就不会成为科学家。

数据可视化

数据科学家工作的一个关键部分是将他们的调查结果传达给他人。如果数据科学家无法有效地将他们的结果传达给他人,而不是他们的发现的影响并不重要。数据科学家也应该是一个有效的故事讲述者。这意味着产生传达关于数据集的相关点的可视化和在其中发现的模式。有很多不同的不同数据可视化数据科学家可能使用的工具,它们可以以初始,基本探索(探索性数据分析)的目的可视化数据或可视化模型产生的结果。

建议和业务应用

数据科学家需要一些直接的组织或业务的要求和目标。数据科学家需要了解这些事情,因为他们需要知道他们应该分析哪些类型的变量和功能,探索有助于他们组织实现其目标的模式。数据科学家需要意识到他们正在运作的制约因素以及组织领导层的制作的假设。

机器学习和AI

机器学习和其他人工智能算法和模型是数据科学家使用的工具来分析数据,识别数据内的模式,变量之间的辨别关系,以及对未来事件的预测。

传统数据科学与大数据科学

随着数据收集方法已经更复杂和数据库更大,传统数据科学与传统数据科学之间存在差异“大数据”科学。

传统的数据分析和数据科学由描述性和探索性分析完成,旨在找到模式并分析项目的性能结果。传统的数据分析方法通常专注于刚过数据和当前数据。数据分析师经常处理已经清除和标准化的数据,而数据科学家经常处理复杂和肮脏的数据。更高级的数据分析和数据科学技术可能用于预测未来的行为,尽管这更常见于大数据,因为预测模型通常需要可以可靠地构造大量数据。

“大数据”是指与传统数据分析和科学技术和工具处理过大而复杂的数据。经常通过在线平台收集大数据,先进的数据转换工具用于制作大量数据,准备通过数据科学检查。随着所有时间收集更多数据,更多的数据科学家工作涉及对大数据的分析。

数据科学工具

普通数据科学 工具包括存储数据的工具,执行探索性数据分析,模型数据,执行ETL和可视化数据。像亚马逊Web服务,Microsoft Azure和Google云的平台都提供了帮助数据科学家存储,转换,分析和模型数据的工具。 Siblflow(数据基础架构)和Tableau(数据可视化和分析)也有独立的数据科学工具。

在用于模拟数据的机器学习和人工智能算法方面,通常通过数据科学模块和平台提供Tensorflow,Pytorch和Azure机器学习工作室。这些平台,如数据科学家,对他们的数据集进行编辑,撰写机器学习架构和火车机器学习模型。

其他常见的数据科学工具和库包括SAS(用于统计建模),Apache Spark(用于分析流数据),D3.js(用于浏览器中的交互式可视化)和jupyter(用于交互式,可共享代码块和可视化) 。

Photo: Seonjae Jo via Flickr, CC BY SA 2.0 (//www.flickr.com/photos/[email protected]/19786840570)

数据科学的例子

数据科学及其应用的例子无处不在。数据科学在食品交付,体育,交通和健康中有应用程序。数据无处不在,因此数据科学可以应用于一切。

在食品方面,优步专注于提供食物的乘车共享系统的扩张,优步吃。优步吃东西需要及时让他们的食物及时,而它仍然很热,新鲜。为了使这种情况发生,公司的数据科学家需要使用统计建模,以考虑到距离餐馆的距离,距离距离,假期冲,烹饪时间,甚至天气状况,都考虑了优化交货时间的目标。

团队经理使用体育统计数据来确定最佳球员是谁,并形成将赢得比赛的强大,可靠的团队。一个值得注意的例子是由迈克尔刘易斯在书中记录的数据科学钱巴巴斯奥克兰田径队总经理的总经理分析了各种统计数据,以确定可以以相对较低的成本签署给团队的优质球员。

对交通模式的分析对于创建自动驾驶车辆至关重要。自驾驶车辆必须能够预测周围的活动并响应道路状况的变化,如在下雨时所需的增加的停止距离,以及在高峰时段的道路上存在更多的汽车。除了自动驾驶车辆之外,谷歌地图等应用程序分析流量模式,告诉通勤者将他们使用各种路线和运输形式到达目的地。

按照健康数据科学, 计算机视觉通常与机器学习和其他AI技术相结合,以创建能够检查X射线,FMRIS和超声等内容的图像分类器,以查看是否存在可能在扫描中显示的潜在的医疗问题。这些算法可用于帮助临床医生诊断疾病。

最终,数据科学涵盖了许多活动,并汇集了不同学科的各个方面。然而,数据科学总是关注从数据的讲解引人注目,有趣的故事,并使用数据更好地了解世界。