联系我们

采访

Sam Stone,PM,在Opendoor定价– Interview Series

mm

更新

 on

山姆对建筑产品充满热情,在金融和融资交汇处 机器学习。他目前正在为定价集团的产品负责人 开门,一个阶段启动,使用算法立即购买和销售房屋,节省房主的麻烦和房地产和托管的不确定性。

什么最初吸引了你的机器学习和 数据科学?

大学后,我为一家大型专业服务公司工作,占据了数百名大学毕业级的进入相同的入门级。当我参与招聘时,我被击中了,令人沮丧,令人沮丧的是,通过众多人们在公司内的意见有何不同,而候选人属性导致成功的不同。似乎是一个非常重要的问题,缺乏清晰度。但我很兴奋,因为我们在过去的求职者和从未被联系过或深入分析的新雇用成果的数据。所以我开始努力,将其视为统计问题,使用类似的基本工具 线性回归。随着时间的推移,该项目进入了一个启动,我们使用的方法变得更加复杂。例如,我们希望直接从访谈处理非结构化音频和文本,并导致我们采用更强大的机器学习模型,如神经网络。

您可以讨论Opendoor的自动化估价模型(OVM),以及它如何计算属性的估计值?

开门估值模型(OVM)是我们业务的核心部分,并进入许多下游定价应用。

在许多方面,OVM的表现就像一个典型的买家或卖方,它看起来横跨一家社区,包括最近售出的家园的类型和价格。然而,当涉及定价家园时,特别是鉴于美国周围的家园多样性,这是不够的,无法单独查看可比销售的价格。它比这更复杂。我们考虑了各种因素,从方形镜头和后院空间到浴室和卧室,布局,繁忙的道路,升级等等。 OVM由多种数据来源喂养,包括财产税信息,市场趋势以及许多家庭和邻居特定信号。我们还寻找对房屋的以前的人类调整来计算平均调整值。我们能够用比例改进这些值。当我们收集更多人类调整数据的市场时,数据集生长并提高了OVM性能。它是一种反馈循环,连续提高性能随时间。

除了高度准确之外,它还必须以低延迟和高覆盖率运行。这意味着每次我们进入一个新市场时,我们都需要扩展OVM的能力,以确保它可以在社区和家庭类型中为房主服务。

使用的一些不同的机器学习方法是什么?

当我们首次启动OVM时,我们主要依赖于线性统计模型,以更好地了解我们的买家和卖家的决策过程。但随着时间的推移,OVM开发并现在基于神经网络,特别是一个称为暹罗网络的架构。我们用它来嵌入买家和卖家的行为,包括选择可比家庭,调整它们并加权。这是至关重要的,因为我们发现以实现高精度,模型需要反映市场参与者在架构中遵循的这些关键步骤。

使用神经网络的许多益处之一是它具有在所有市场上消化数据的精度和灵活性,并检测粒状局部细微差别。因此,当Opendoor在新市场推出或扩展现有市场的库存时,我们可以使用相同的型号,绕过实例化新生产模型的大部分工程基础设施工作。相反,我们通过现有模型运行新数据,这显着减少了我们工程师在过程中花费的时间。

除了神经网络之外,还有许多我们在Opendoor使用的其他机器学习方法。这包括但不限于决策树,聚类技术,排名系统和优化算法。

开门依赖于大量数据,这些数据来自哪里?

我们的算法找到最有价值的数据通常也是最难找到的数据。这是我们通过专有关系产生的数据或通过专有关系发展。我们使用内部数据和第三方房地产数据的组合,包括来自列表的数据点,如销售日期,卧室和浴室数量,方形镜头等等。此外,我们看出了表明家园独特性的功能,这些功能是人类专业知识可以提供的东西,如照明,街头噪音,设备质量和饰面等等。我们从市场上的房屋中收集数据以及业主与我们共享信息的场外房屋。

您可以讨论一些Opendoor努力,以提高基础设施的速度和可靠性,从而为其原始数据摄取而努力?

在任何新的市场发布之前,我们摄取了多年的历史数据。高质量数据对于培训我们的算法和我们当地的运营商至关重要,以确保他们了解该市场内的变化。为了提高速度,质量和可靠性,我们建立了灵活的数据映射工具和工具,用于自动评估新数据字段的覆盖范围。通过这些工具到位,需要每小时或几天来摄取和验证大量历史房地产交易数据,而不是几周。

我们投入的另一种策略是主动,自动化的数据质量监测。我们已经设置了检查我们在整个过程中摄取和转换的数据的分布的系统,实时。例如,如果我们预期在特定市场上平均20%的新列表,那么今天,今天的50%的新列表被归类为公寓,这将向工程师进行警报进行调查。

专家人类判断如何与机器学习算法相结合,以创建有史以来改善性能的反馈循环?

我们的内部定价专家在我们的定价决策中发挥着巨大作用,与我们的算法一起工作。当机器仍然有盲点,我们的专家运营商填写,我们依靠他们通过各种阶段。例如,它们添加或验证输入数据,如某些翻新项目的质量。它们对中间决定有关哪些功能可能难以评价,而且还制定了面向用户的决策,例如我们应该接受的优惠。人类元素对我们的策略始终至关重要,我们相信嫁接专家和算法是最好的。

你们都可以定义反垄一步,并在OpenDoor讨论其重要性吗?

反向来是一种使用历史数据评估模型的准确性的方法。例如,我们可以从2015年1月到2015年1月到2021年培训Opendoor估值模型。在此背景下,“火车”意味着我们养活历史投入,如家庭属性,以及销售的房价,就像销售的房价一样。然后,该模型学习输入和结果之间的关系。然后我们采取这种模型,这反映了那些新学习的关系,我们在2021年2月的另一组历史数据中喂养。因为数据是历史,我们知道结果,我们可以测量这些差异预测。

这个过程在Opendoor是非常重要的,它用于我们所有的机器学习产品。它降低了称为过度装箱的问题的风险,这是机器学习模型在不实际存在的历史数据中识别模式时。例如,无助于现实世界预测的虚假相关性。它还节省了我们在昂贵的现实世界A / B上进行的新产品和策略测试,这些测试可以根据历史数据消除。

您还有什么想分享OpenDoor的分享吗?

我们正在招聘!如果您有兴趣建立房地产的未来,和/或在Fintech,机器学习和消费品的交叉点工作,请申请!我们在职能和城市开放角色查看我们的职业生涯页面 这里.

谢谢你的伟大采访,希望了解更多的读者应该访问 开门.

antoine tardif是一个 Futurist 谁对AI和机器人的未来充满热情。他是首席执行官 BlockVentures.com,并投资于超过50个AI和区块链项目。他是联合创始人 Securities.io 专注于数字资产,数字证券和投资的新闻网站。他是Unite.ai和A成员的创始合作伙伴 福布斯技术委员会。