自动化数据增强方法综述笔记
今天整理了近期读过的几篇自动化数据增强论文,把思路和实验结果记录下来。
AutoAugment:用强化学习搜索增强策略
论文:AutoAugment: Learning Augmentation Policies from Data
这篇工作的核心思路是用 RNN 做策略控制器,配合强化学习来优化数据增强的采样概率。具体流程是:控制器采样出一组数据增强策略,用这组策略训练子模型,再把子模型在验证集上得到的 accuracy 作为 reward 反馈给控制器,不断迭代搜索。可以说是典型的 RNN 大力出奇迹的路子。
实验结果方面,ImageNet 上报的是 top-5 精度,其他数据集用的是 top-1,对比时要注意区分。
RandAugment:大幅压缩搜索空间
论文:RandAugment: Practical automated data augmentation with a reduced search space
AutoAugment 搜索代价太高,这篇工作的做法更直接:不再搜索每种变换的具体概率,而是只用两个全局超参数——增强操作的个数 N 和变换强度 M,然后在候选变换集合里随机选取 N 种依次应用。搜索空间一下子从数量级上缩小了很多。
从实验结果看,Random Augmentation 最终也能收敛到很好的精度,与 AutoAugment 的差距相当小,而计算成本低得多。
Fast AutoAugment:策略合并加速搜索
这篇的思路是:先搜索出 N 组各自效果不错的数据增强子策略,然后把它们直接合并(merge)成一个大策略集合用于训练。相比 AutoAugment 的端到端强化学习搜索,搜索效率有明显提升。
小结
三篇工作的脉络比较清晰:AutoAugment 证明了自动搜索增强策略的可行性,但搜索代价极高;Fast AutoAugment 在搜索效率上做了改进,用合并多组候选策略的方式降低开销;RandAugment 则走了另一条路,直接把搜索空间压到极简,用随机抽取加两个超参数的方式,在实用性和最终精度之间取得了不错的平衡。今天还顺带整理了模型压缩的实验结果,并尝试修改 ResNet-18 来适配 Apollon 数据集,具体结果后续再记。