Pollux

$(a, m, s)$ 会在训练过程中由 Pollux 自动计算, $T H R O U G H T P U T (a, m, s)$ 表示的是系统吞吐量（examples/second）， $E F F I C I E N C Y_{t} (M)$ 表示实际训练效率（progress/example）.

系统吞吐

$T_{i t e r} (a, m, s) = s \times T_{g r a d} (a, m) + (T_{g} r a d (a, m)^{γ} + T_{s y n c} (a)^{γ})^{1 / γ}$

其中，

$T_{i t e r}$ 每步训练的时间
$T_{g r a d}$ 计算梯度的时间
$T_{s y n c}$ 网络通信的时间
$s$ 梯度聚合的步数
$γ$ 计算和通信重合度

Pollux 自动，

确定合适的 gpu 数量和 batch size
使用梯度聚合提高 batch size 达到 gpu 显存上限
把任务尽可能放置（pack）在尽量少的节点上以减少网络负载

实际训练效率

每一个任务的实际训练效率可以表示为 $E F F I C I E N C Y_{t} (M) = \frac{ϕ _{t} + M _{0}}{ϕ _{t} + M}$

其中，

$M_{0}$ 表示用户定义的 baseline batch size
$M$ 表示 batch size
$ϕ_{t}$ 梯度噪声 [McCandlish et al. 2018]

用户可以选择较小的初始 batch size $M_{0}$ ，Pollux 会选择不同的 bs 去平衡系统吞吐和实际训练效率。

关于梯度噪声 Gradient noise scale

较大的梯度噪声 -> 使用较大的 mini-batch 能够获得较高的实际效率
接近收敛的低信噪比 -> 更好的实际训练效率

Pollux 能够在不进行提前训练的情况下使用 $(a, m, s)$ 计算出任务的 GOODPUT.

任务优化

在特定分配 gpu 为 a 的前提下，计算最优

$m^{*}, s^{*} = a r g m a x_{m, s} G O O D P U T_{t} (a, m, s)$

改变 batch size 的同时，learning rate 也需要同步改变。 Pollux 为用户提供更新策略

Linear scaling
Square-root scaling
AdaScale (Johnson et al. 2020)

集群优化

优化目标

$F I T N E S S_{p} (A) = (\frac{1}{J} j = 1 \sum J S P E E D U P_{j} (A_{j})^{p})^{1 / p}$

其中，

$S P E E D U P_{j} (A_{j}) = \frac{m a x _{m, s} G O O D P U T _{j} ( A _{j} , m _{j} , s )}{m a x _{m, s} G O O D P U T _{j} ( a _{j} , m _{j} , s )}$

p 是可变参数，用于控制任务间的公平性。

找到分配矩阵 $A$ , $A_{j} n$ 表示节点 n 上分配给任务 j 的 gpu 数量。

对 A 的寻找使用 metaheuristic algorithm
调度要避免频繁的重新分配
避免分布式任务共享节点

Pollux 效果评估

Pollux 带来的主要收益是在共享集群上自动配置任务。

重点评估目标：即使任务已经给定理想的静态配置，Pollux 仍然能够相比于传统集群调度器有所提升。包括以下方面，

真实的 Microsoft 深度学习分布式训练集群 (Jeon et al. 2019).
不同场景训练任务混合：图像分类、目标检测、语音识别、问答、推荐
手动配置 gpu 数量、batch size、learning rate、梯度聚合参数 (不使用Pollux，设定强baseline)

实验数据表明 Pollux 能比专家配置的任务缩短 37-50% 的平均训练时间。

总结

Pollux 同时从集群和任务的角度对任务参数进行优化
Pollux 引入 goodput 概念，一种结合系统吞吐和实际效率的衡量标准
Pollux 实测缩短 37-50% 的平均训练时间

Aller au boulot