环球门户网

网飞我们的元流Python库现在是更快的数据科学的开源

更新时间:2021-09-17 04:12:19

导读 网飞的数据科学团队开放了其MetaflowPython库,该库是其“以人为本”的机器学习基础设施的关键部分,用于构建和部署数据科学工作流。这家视

网飞的数据科学团队开放了其MetaflowPython库,该库是其“以人为本”的机器学习基础设施的关键部分,用于构建和部署数据科学工作流。

这家视频流媒体巨头将机器学习应用于其业务的各个方面,从脚本分析到优化制作计划、预测风潮、定价、翻译,以及优化其庞大的内容分发网络。

根据网飞软件工程师的说法,Metaflow的建立是为了帮助提高其数据科学家的生产力。他们喜欢通过Python代码来表达业务逻辑,但不愿意花太多时间去思考工程问题,比如对象层次、打包,或者处理与工作无关的晦涩的API。

Metaflow背后的想法是让网飞的数据科学家能够及早知道原型模型是否会在生产中失败,这样他们就可以解决任何问题,理想情况下,还可以加快部署时间。今年2月,网飞透露,Metaflow帮助将部署时间的中位数从4个月缩短到仅7天。

网飞在新metaflow.org网站上提供了Python库的简单描述:“metaflow帮助您设计工作流,大规模运行它,并将其部署到生产中。它自动版本和跟踪你所有的实验和数据。它可以让你轻松地在笔记本上查看结果。”

它还可以与流行的Python数据科学库一起使用,包括PyTorch、Tensorflow和SciKitLearning。

众所周知,网飞是亚马逊网络服务的最大用户之一。因此,Metaflow与许多AWS服务集成在一起也就不足为奇了,包括能够拍摄亚马逊S3所有代码和数据的快照。网飞使用它的“数据湖”。这种能力应该可以帮助用户使用AWS的存储、计算和机器学习服务来快速扩展模型。

S3的快照代码的能力是启用自动版本控制和元流的实验跟踪,以安全地检查和恢复元流的执行。

Metaflow还捆绑了“高性能S3客户端,可将数据加载到10Gbps”。

允许客户端上任何组织的数据科学家了解网飞数据科学家在过去几年中所做的工作.网飞在今年4月透露,它使用Metaflow“推动Python的极限”,使其能够使用“并行化和优化的Python代码以10Gbps的速度获取数据,在内存中处理数亿个数据点,并在数万个CPU内核上安排计算”。

网飞软件工程师今天说:“这个客户端在我们的用户中非常受欢迎,他们现在可以比以前更快地将数据加载到工作流中,这使得迭代周期更快。”

Metaflow还集成了基于AWS容器的Batch计算平台。

网飞认为,AWS上的Metaflow可以让开发人员在笔记本电脑上获得开发速度,更深层次的计算资源可以在云中获得。

“Metaflow使得在本地执行模式和远程执行模式之间来回移动变得很容易”,并且不需要改变每个状态的代码或库,这又使得故障排除变得容易。

版权声明:转载此文是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系,我们将及时更正、删除,谢谢您的支持与理解。