联系我们

AI 101

什么是数据科学?

mm

更新

 on

数据科学领域似乎每天都在扩大和流行。据LinkedIn,数据科学 是2017年增长最快的工作领域之一 在2020年,Glassdoor将数据科学工作列为 美国三大最佳工作之一。鉴于数据科学的日渐普及,不足为奇的是,越来越多的人对该领域产生了兴趣。但是,数据科学到底是什么?

让我们熟悉数据科学,花一些时间来定义数据科学,探索大数据和人工智能如何改变这一领域,了解一些常见的数据科学工具,并研究一些数据科学示例。

什么是数据科学?

在探索任何数据科学工具或示例之前,我们将先对 数据科学.

定义“数据科学”实际上有点棘手,因为该术语适用于许多不同的任务和查询和分析方法。我们可以从提醒自己“科学”一词的含义开始。科学是通过观察和实验对物理和自然世界进行的系统研究,旨在增进人类对自然过程的理解。该定义中的重要词是“观察”和“理解”。

如果数据科学是从数据模式中了解世界的过程,那么 数据科学家的责任 就是转换数据,分析数据并从数据中提取模式。换句话说,为数据科学家提供了数据,他们使用多种不同的工具和技术来预处理数据(准备进行分析),然后对数据进行有意义的模式分析。

数据科学家的角色类似于传统科学家的角色。两者都与数据分析有关 支持或拒绝假设 关于世界如何运作的信息,试图弄清数据中的模式以增进我们对世界的了解。数据科学家使用与传统科学家相同的科学方法。数据科学家首先收集对他们想研究的某些现象的观察结果。然后,他们制定有关该现象的假设,并尝试找到以某种方式使他们的假设无效的数据。

如果假设与数据没有矛盾,他们可能能够构造有关现象如何起作用的理论或模型,然后可以通过观察该现象是否适用于其他类似数据集来进行一次又一次的检验。如果模型足够鲁棒,则可以很好地说明模式,并且在其他测试中也不会失效,则甚至可以用来预测该现象的未来发生率。

数据科学家通常不会通过实验收集自己的数据。他们通常不会设计带有对照和双盲试验的实验,以发现可能干扰假设的混淆变量。数据科学家分析的大多数数据将是通过观察研究和系统获得的数据,这是数据科学家的工作可能不同于传统科学家的工作的方式,传统科学家倾向于执行更多的实验。

也就是说,数据科学家可能会被要求做某种形式的实验 称为A / B测试 对收集数据的系统进行调整,以查看数据模式如何变化。

无论使用何种技术和工具,数据科学的最终目的都是通过对数据的理解来增进我们对世界的理解,并且数据是通过观察和实验获得的。数据科学是使用算法,统计原理以及各种工具和机器从数据中得出见解的过程,这些见解有助于我们了解周围世界的格局。

数据科学家做什么?

您可能会看到,以科学方式进行数据分析的任何活动都可以称为数据科学,这是使定义数据科学如此困难的部分原因。为了更清楚一点,让我们探讨一下数据科学家的一些活动 可能做 以一天为周期。

Data science brings many different disciplines 和 specialties together. Photo: Calvin Andrus via Wikimeedia Commons, CC BY SA 3.0 (//commons.wikimedia.org/wiki/File:DataScienceDisciplines.png)

在任何一天,都可能会要求数据科学家执行以下操作:创建数据存储和检索架构,创建数据ETL(提取,转换,加载)管道并清理数据,采用统计方法,制作数据可视化和仪表板,实施人工智能以及 机器学习 算法,根据数据为操作提出建议。

让我们分解一下上面列出的任务。

可能需要一名数据科学家来处理存储和检索数据所需的技术,同时要注意硬件和软件。负责此职位的人也可以称为“数据工程师”。但是,有些公司将这些职责归为数据科学家。数据科学家可能还需要创建或协助创建以下内容: ETL管道。数据很少按照数据科学家的需要格式化。取而代之的是,将需要以原始形式从数据源接收数据,将其转换为可用格式,然后进行预处理(诸如标准化数据,删除冗余和删除损坏的数据之类的事情)。

数据科学的统计方法

统计的应用 将简单地查看数据并将其解释为实际科学是必要的。 统计方法 用于从数据集中提取相关模式,数据科学家需要精通统计概念。他们需要能够通过控制混杂变量来辨别有意义的关联和虚假的关联。他们还需要知道用于确定数据集中哪些特征对其模型重要/具有预测能力的正确工具。数据科学家需要知道何时使用回归方法与分类方法,以及何时关注样本均值与样本中位数。没有这些关键技能,数据科学家就不会成为科学家。

数据可视化

数据科学家工作的关键部分是与他人交流他们的发现。如果数据科学家无法将他们的发现有效地传达给他人,那么他们的发现的含义就无关紧要了。数据科学家也应该是一个有效的讲故事的人。这意味着要产生可视化效果,以传达有关数据集及其中发现的模式的相关点。有很多不同的 数据可视化 数据科学家可以使用的工具,并且它们可以可视化数据以用于初始的基础探索(探索性数据分析)或可视化模型产生的结果。

建议和业务应用

数据科学家需要对组织或业务的需求和目标有一定的直觉。数据科学家需要了解这些内容,因为他们需要知道应该分析哪些类型的变量和功能,并探索可帮助其组织实现其目标的模式。数据科学家需要意识到他们所依据的约束条件以及组织领导层所做的假设。

机器学习与AI

机器学习 以及其他人工智能算法和模型是数据科学家用来分析数据,识别数据中的模式,识别变量之间的关系以及对未来事件进行预测的工具。

传统数据科学与大数据科学

随着数据收集方法变得越来越复杂,数据库越来越大,传统数据科学与 “大数据” 科学。

传统的数据分析和数据科学是通过描述性和探索性分析来完成的,旨在发现模式并分析项目的绩效结果。传统的数据分析方法通常只关注过去的数据和当前数据。数据分析师经常处理已经清理和标准化的数据,而数据科学家经常处理复杂而肮脏的数据。可以使用更高级的数据分析和数据科学技术来预测未来的行为,尽管这通常是针对大数据进行的,因为预测模型通常需要大量数据才能可靠地构建。

“大数据”是指太大,太复杂而无法用传统数据分析以及科学技术和工具处理的数据。大数据通常通过在线平台收集,先进的数据转换工具用于使大量数据准备好供数据科学检查。随着时间的推移,越来越多的数据被收集,更多的数据科学家工作涉及大数据分析。

数据科学工具

通用数据科学 工具 包括存储数据,进行探索性数据分析,模型数据,进行ETL以及可视化数据的工具。诸如Amazon Web Services,Microsoft Azure和Google Cloud之类的平台都提供工具来帮助数据科学家存储,转换,分析和建模数据。也有独立的数据科学工具,例如Airflow(数据基础结构)和Tableau(数据可视化和分析)。

就用于建模数据的机器学习和人工智能算法而言,它们通常是通过数据科学模块和平台(例如TensorFlow,PyTorch和Azure机器学习工作室)提供的。这些平台,例如数据科学家,可以对其数据集进行编辑,组成机器学习架构并训练机器学习模型。

其他常见的数据科学工具和库包括SAS(用于统计建模),Apache Spark(用于流数据分析),D3.js(用于浏览器中的交互式可视化)和Jupyter(用于交互式,可共享的代码块和可视化) 。

Photo: Seonjae Jo via Flickr, CC BY SA 2.0 (//www.flickr.com/photos/[email protected]/19786840570)

数据科学实例

数据科学及其应用的例子无处不在。数据科学在食品配送,体育,交通和健康等各个方面都有应用。数据无处不在,因此数据科学可以应用于一切。

在食品方面,优步(Uber)正在投资扩展其乘车共享系统,以提供食物, 优步吃。 优步吃仍然很热很新鲜,需要及时为人们提供食物。为了使这种情况发生,公司的数据科学家需要使用统计模型,该模型应考虑到饭店到送餐点的距离,假期高峰,烹饪时间甚至天气条件等方面,所有这些都旨在优化送餐时间。

团队经理使用体育统计信息确定最佳球员,并组建强大,可靠的团队,赢得比赛。一个著名的例子是迈克尔·刘易斯(Michael Lewis)在书中记录的数据科学 钱球奥克兰田径队的总经理分析了各种统计数据,以找出可以以较低的费用签入该队的高素质球员。

交通模式的分析对于创建自动驾驶汽车至关重要。 自动驾驶汽车 必须能够预测周围的活动并响应道路状况的变化,例如下雨时需要增加的停车距离,以及在高峰时段道路上有更多的汽车。除了自动驾驶汽车外,Google Maps之类的应用程序还分析交通状况,以告知通勤者使用各种路线和交通工具要花多长时间到达目的地。

就......而言 健康数据科学, 计算机视觉 通常将其与机器学习和其他AI技术结合使用,以创建能够检查X射线,FMRI和超声波之类的图像分类器,以查看扫描中是否存在任何潜在的医学问题。这些算法可用于帮助临床医生诊断疾病。

最终,数据科学涵盖了众多活动,并汇集了不同学科的各个方面。但是,数据科学始终关心从数据中讲出引人入胜的有趣故事,以及使用数据更好地了解世界。

专门从事以下工作的Blogger和程序员 机器学习 深度学习 话题。 Daniel希望帮助他人将AI的力量用于社会公益。