LinkedIn 开源 TonY 项目,允许用户在单个节点或大型 Hadoop 集群上构建基于 YARN 的 TensorFlow 应用程序解决方案。 TonY 的工作方式就像在 Hadoop 中的 MapReduce,执行 Pig 和 Hive 脚本的方法类似,为 TensorFlow 任务提供第一级支持。 TonY 由三个主要组件组成,客户端,ApplicationMaster 和 TaskExecutor。 它提供了 GPU 调度,精确资源请求,TensorBoard 支持和容错的四个主要功能。 LinkedIn 平台上有近 6 亿会员,随着深度学习技术的发展,LinkedIn 的人工智能工程师努力将人工智能应用于许多功能,如摘要或回复,其中许多是使用谷歌开发的。 构建了深度学习框架 TensorFlow。 一开始,LinkedIn 内部 TensorFlow 用户旨在小型应用程序和非托管的裸机上使用。但随着后期的开发,他们越来越意识到必须要让 TensorFlow 连接并使用 Hadoop 大数据平台上的计算和存储资源。 LinkedIn 的 Hadoop 集群拥有数百 PB 的数据,是开发深度学习应用程序的理想选择。 除了在 Hadoop 上执行基本的分散式 TensorFlow 之外,TonY 还实现了支持大规模训练的功能。 TonY 支持 GPU 调度,可以使用 Hadoop API 从集群请求 GPU 资源。 此外,它还支持高精度资源请求。 由于 TonY 可以请求不同的实体作为单独的组件,因此用户可以为每种实体类型请求不同的资源,即用户可以控制应用程序使用的资源。 它还可以帮助集群管理员避免浪费硬件资源。 |