自动化数据增强方法综述笔记

今天整理了近期读过的几篇自动化数据增强论文，把思路和实验结果记录下来。

AutoAugment：用强化学习搜索增强策略

论文：AutoAugment: Learning Augmentation Policies from Data

这篇工作的核心思路是用 RNN 做策略控制器，配合强化学习来优化数据增强的采样概率。具体流程是：控制器采样出一组数据增强策略，用这组策略训练子模型，再把子模型在验证集上得到的 accuracy 作为 reward 反馈给控制器，不断迭代搜索。可以说是典型的 RNN 大力出奇迹的路子。

实验结果方面，ImageNet 上报的是 top-5 精度，其他数据集用的是 top-1，对比时要注意区分。

RandAugment：大幅压缩搜索空间

论文：RandAugment: Practical automated data augmentation with a reduced search space

AutoAugment 搜索代价太高，这篇工作的做法更直接：不再搜索每种变换的具体概率，而是只用两个全局超参数——增强操作的个数 N 和变换强度 M，然后在候选变换集合里随机选取 N 种依次应用。搜索空间一下子从数量级上缩小了很多。

从实验结果看，Random Augmentation 最终也能收敛到很好的精度，与 AutoAugment 的差距相当小，而计算成本低得多。

Fast AutoAugment：策略合并加速搜索

论文：Fast AutoAugment

这篇的思路是：先搜索出 N 组各自效果不错的数据增强子策略，然后把它们直接合并（merge）成一个大策略集合用于训练。相比 AutoAugment 的端到端强化学习搜索，搜索效率有明显提升。

小结

三篇工作的脉络比较清晰：AutoAugment 证明了自动搜索增强策略的可行性，但搜索代价极高；Fast AutoAugment 在搜索效率上做了改进，用合并多组候选策略的方式降低开销；RandAugment 则走了另一条路，直接把搜索空间压到极简，用随机抽取加两个超参数的方式，在实用性和最终精度之间取得了不错的平衡。今天还顺带整理了模型压缩的实验结果，并尝试修改 ResNet-18 来适配 Apollon 数据集，具体结果后续再记。

论文笔记
数据增强
AutoML

2020 · 02 · 29