恒达娱乐平台_机械学习演变：未来有很大潜力，

【逐日科技网】

　　大型科技公司都在积极地围绕人工智能和机械学习举行调整：谷歌现在是“AI-first”，优步在血脉中流淌智能基因，其内部的人工智能研究实验室正不断涌现。

　　他们倾注了大量的资源和精神，让全天下信赖，机械智能革命正在到来。

　　他们以为，深度学习是推动这一转型的突破性希望，并为新型自动驾驶汽车、虚拟助手提供了动力。

　　只管这种宣传方式对现状有艺术式的宣传，但这种做法的未来却并不那么新潮。

　　与机械学习相关的软件工程师和数据科学家仍然使用许多相同的算法和工程工具，就像他们多年前做的那样。

　　也就是说，传统的机械学习模式——而不是深层的神经网络——正在为大多数人工智能应用提供动力。

　　工程师们仍在使用传统的软件工程工具来举行机械学习工程，但这些工具并不起作用：将数据建模的管道最终由涣散的、不兼容的部件构建而成。

　　随着大型科技公司通过构建具有端到端功效的新型机械学习平台，这一历程将会发生转变。

　　大型科技公司最近开始使用他们自己的机械学习工程的集中平台，这更清晰地将以前涣散的数据科学家和工程师的事情流程整合在一起。

　　机械学习工程分为三个阶段——数据处置、模子构建、部署和监控。

　　在中心，我们有管道的模子，这是机械学习算法，学习展望给定的输入数据。

　　这种模式是“深度学习”的地方。

　　深度学习是一种机械学习算法的子范围，它使用多条理的神经网络来学习输入和输出之间的复杂关系。

　　神经网络的条理越多，它所能捕捉到的复杂性就越高。

　　传统的统计机械学习算法(即那些不使用深层神经网络的算法)拥有更有限的能力来获取关于训练数据的信息。

　　然则，这些更基本的机械学习算法在许多应用程序中运行得非常好，这使得深度学习模子的分外复杂性常常是多余的。

　　因此，我们仍然看到软件工程师在机械学习工程中普遍使用这些传统模子——纵然在深度学习的狂热爱好者也是云云。

　　然则，把所有器械放在一起后，我们看将能看到训练机械学习模子前后的情形。

　　第一个阶段涉及清算和格式化大量数据，并将其输入到模子中。

　　最后一个阶段涉及对模子的仔细部署和监控。

　　我们发现，人工智能的大部门工程时间现实上并不是用来构建机械学习模子的，而是花在准备和监控这些模子上。

　　只管大型科技公司人工智能研究实验室专注于深度学习，但在这些公司中，大多数机械学习应用程序并不依赖于神经网络，而是使用传统的机械学习模式。

　　最常见的模子包罗线性/逻辑回归、随机森林和增强决策树。

　　这些都是科技公司使用的其他服务，好比同伙建议、广告定向、用户兴趣展望、供需模拟和搜索效果排名。

　　工程师用来训练这些模子的一些工具也同样很好地使用。

　　最常用的机械学习库之一是scikit-learning，它是十年前公布的(只管谷歌的TensorFlow正在上升)。

　　我们有充实的理由使用更简朴的模子而不是深入学习。

　　深度神经网络很难训练。

　　它们需要更多的时间和盘算能力(它们通常需要差别的硬件，特别是GPU)。

　　深入学习是很难题的——它仍然需要大量的手工操作，包罗直觉、实验和错误的连系。

　　在传统的机械学习模式下，工程师花在模子培训和调优上的时间相对较短——通常只有几个小时。

　　最终，若是深度学习能够实现的准确度提升是适度的，那么对可扩展性和开发速率的需求就会跨越它们的价值。

　　因此，在训练机械学习模式时，传统方式效果很好。

　　然则，同样的情形并不适用于毗邻机械学习管道的基础设施。

　　在机械学习工程中使用相同的旧软件工程工具，会发生更大的错误可能性。

　　机械学习管道的第一阶段——数据网络和处置——说明晰这一点。

　　虽然大公司一定有大数据，但数据科学家或工程师必须清算数据，使之有用——验证并整合来自差别泉源的重复数据，标准化指标，设计和证实功效。

　　在大多数公司，工程师使用组合的SQL或Hive查询和Python剧本，从一个或多个数据源聚合并格式化多达数百万个数据点。

　　这通常需要几天的体力劳动。

　　其中一些可能是重复性的事情，由于许多公司的流程是涣散的——数据科学家或工程师经常使用内陆剧本或Jupyter笔记本操作数据。

　　此外，大型科技公司的规模较大，在生产任务中会造成错误，以是要郑重部署和监控模子。

　　正如一位工程师所形貌的那样，“在大公司，机械学习是80%的基础设施。”

　　然而，传统的单元测试——传统软件测试的支柱——并不真正适用于机械学习模子，由于机械学习模子的准确输出在之前是未知的。

　　究竟，机械学习的目的是让模子学会凭据数据做出展望，而不需要工程师专门编写任何规则。

　　因此，工程师们接纳的不是单元测试，而是接纳一种不那么结构化的方式：他们手动监控仪表板，并为新模子编写警报。

　　现实天下数据的转变可能会让训练的模子变得不那么准确，因此工程师凭据应用程序的差别，天天按月对新数据举行重新培训。

　　然则，在现有的工程基础设施中缺少机械学习的支持，可能会在开发模子和生产模子之间发生脱节——正常代码更新的频率要低得多。

　　许多工程师仍依赖于将模子部署到生产中的基本方式，好比将已训练模子的串行化版本或模子权重保存到一个文件中。

　　工程师有时需要用另一种语言或框架重修模子原型和部门数据管道，因此他们在生产基础设施上事情。

　　从数据处置到培训再到部署的任何阶段，任何与机械学习开发历程的不兼容都可能导致错误。

　　为了解决这些问题，一些大公司，拥有开发定制工具的资源，已经投入了时间和工程技术来建立他们自己的机械学习工具。

　　他们的目的是拥有一个无缝的、端对端的机械学习平台，完全兼容该公司的工程基础设施。

　　Facebook的FBLearner Flow和Uber的Michelangelo都是内置的机械学习平台，可以做到这一点。

　　他们允许工程师用直观的用户界面来构建培训和验证数据集，削减在这一阶段破费的时间。

　　然后，工程师就可以用(或多或少)点击一个按钮来训练模子。

　　最后，他们可以轻松地监控和直接更新生产模子。

　　像Azure Machine Learning和Amazon Machine Learning 这样的服务是公然的可选方案，提供类似的端到端平台功效，但只与其他Amazon或微软服务集成，用于管道的数据存储和部署组件。

　　只管大型科技公司一直强调要通过机械学习来提高产品质量，但在大多数公司，这一历程仍面临重大挑战和效率低下。

　　他们仍然使用传统的机械学习模式，而不是更先进的深度学习，仍然依赖于传统的工具基础设施，而这些工具不适合机械学习。

　　幸运的是，由于现在专注于这些公司的人工智能，他们正在投资专门的工具，使机械学习变得更好。

　　有了这些内部工具，或者有可能与第三方机械学习平台连系起来，这些平台能够慎密地整合到现有的基础设施中，组织就能实现人工智能的潜力。

　　作者Catherine Dong是Bloomberg Beta的暑期助理，他将在Facebook担任机械学习工程师。

公司新闻

恒达娱乐平台_机械学习演变：未来有很大潜力，

恒达登录新闻

关于我们

新闻中心

工程案例

招商加盟

官方诚招-安全无忧

注册联系主管QQ:1015831000

公司新闻

恒达娱乐平台_机械学习演变：未来有很大潜力，

恒达登录新闻

关于我们

新闻中心

工程案例

招商加盟

官方诚招-安全无忧

注册联系主管QQ:1015831000