출처
https://arxiv.org/abs/2204.08610
Suorong Yang1,2 , Weikang Xiao1,3 , Mengchen Zhang3 , Suhan Guo1,3 , Jian Zhao4 , Furao
Shen1,2 ∗
1. State Key Laboratory for Novel Software Technology, Nanjing University, China
2. Department of Computer Science and Technology, Nanjing University, China
3. School of Artificial Intelligence, Nanjing University, China
4. School of Electronic Science and Engineering, Nanjing University, China
Abstract
심층신경망은 일반적으로 과적합을 방지하기 위해 많은 양의 훈련 데이터에 의존하는데 실제 응용 분야를 위한 라벨링 된 데이터는 제한될 수 있다. 데이터 증강(Data Augmentation)은 심층 학습 모델을 훈련하는 데 필수적인 부분이 되었다.
본 논문에서는 여러가지의 이미지 데이터 증강 방법을 검토하고 증강 방법에 따라 분류하고 각 증강방법의 장/단점을 정리
또한 Segmentation, Classification, Object Detection Task 들에 대한 실험 수행.
1. Introduction
CV(Computer Vision) 분야는 다음 세가지 측면에 의해 영향을 받는다.
1. 네트워크 아키텍처의 규모
2. 계산 능력
3. 데이터 셋 증강
네트워크 아키텍처의 크기는 보통 일반화 성능에 비례한다. 2번째의 계산능력의 발전은 강력한 계산능력으로 더 깊은 아키텍처의 모델을 설계할 수 있게 함으로써 다양한 네트워크 아키텍처도 같이 발전이 된다. 그러나 3번 데이터 부분인 데이터 증강 방법에는 발전이 둘에 비해 더딘 발전 불균형이 있다.
데이터 증강의 핵심 아이디어는 합성데이터를 생성함으로써 데이터의 양과 다양성을 향상시키기 위함이다.
본 논문에서는 기존의 증강 방법들을 요약하여 1,2,3번의 격차를 메우고자 함이다.
이 체계를 바탕으로
1. Classification, Segmentation, Object Detection과 같은 CV 관점에서 실험을수행한다.
2. 다양한 공개 데이터셋에서 다양한 데이터 증강 방법 및 조합의 성능 비교
3. 이미지 데이터 증강 연구의 미래 방향
을 논한다.
2. Basic Data Augmentation Methods
2.1. Image Manipulation
기본 이미지 조작은 회전, 뒤집기, 자르기 등의 이미지 변형에 초점을 맞춘다.(Table 1)
단점 1. 기본 이미지 조작은 기존 데이터가 실제 ㅔ데이터 분포와 유사한 분포를 따른다는 가정 하에서만 의미있다.
단점 2. padding 효과로 인한 문제 발생.
2.2. Image Erasing
이미지의 일정 영역을 픽셀 값을 상수 값 또는 랜덤 값으로 대체
1. [Terrance DeVries and Gra- ham W Taylor. Improved regularization of convolu- tional neural networks with cutout. arXiv preprint arXiv:1708.04552, 2017.] 에서는 Image의 사각영역을 랜덤으로 마스킹하는 정규화 기법 고려
2. [Krishna Kumar Singh, Hao Yu, Aron Sarmasi, Gautam Pradeep, and Yong Jae Lee. Hide- and-seek: A data augmentation technique for weakly- supervised localization and beyond. arXiv preprint arXiv:1811.02545, 2018.] 에서는 Image에서 patch를 랜덤으로 숨기고, 가장 중요한 feature부분이 숨겨졌을 때 다른 부분을 찾도록 하는 Hide-and-Seek(HaS)를 제안
3. [Zhun Zhong, Liang Zheng, Guoliang Kang, Shaozi Li, and Yi Yang. Random erasing data aug- mentation. In Proc. The Thirty-Fourth AAAI Conference on Artificial Intelligence, AAAI 2020, The Thirty-Second Innovative Applications of Artificial Intelligence Confer- ence, IAAI 2020, The Tenth AAAI Symposium on Edu- cational Advances in Artificial Intelligence, EAAI, pages 13001–13008. AAAI Press, 2020.] 에서는 Image에서 랜덤으로 선택된 직사각형 영역을 해당 픽셀을 임으의 값으로 대체하는 random erasing 제안
4. [Pengguang Chen, Shu Liu, Hengshuang Zhao, and Jiaya Jia. Gridmask data augmentation. arXiv preprint arXiv:2001.04086, 2020.] 에서는 GridMask 제안, 영역을 연속적으로 제거하지않으며, 사각형을 랜덤으로 선택하지 않는다. 삭제된 영역은 크기와 공간을 제어할 수 있는 균일하게 분포된 사각형 집합이다.
5. [Pu Li, Xiangyang Li, and Xiang Long. Fencemask: A data augmentation approach for pre-extracted image features. arXiv preprint arXiv:2006.07877, 2020.] 는 FenceMask를 제안했다. 이미지에 펜스처럼 가리는 방법.
2.3. Image Mix
주로 두 개 이상의 이미지 혹은 이미지의 영역을 하나로 결합하여 수행
1. [Hiroshi Inoue. Data augmentation by pairing samples for images classification. CoRR, abs/1801.02929, 2018.]에서는 데이터 셋에서 무작위로 두 개를 선택하여 새 이미지를 합성하는 방법을 제안.
2. [Hongyi Zhang, Moustapha Cisse, Yann N Dauphin, and David Lopez-Paz. mixup: Be- yond empirical risk minimization. arXiv preprint arXiv:1710.09412, 2017.] 에서는 Mixup 제안
3. [SangdooYun,DongyoonHan,SeongJoon Oh, Sanghyuk Chun, Junsuk Choe, and Youngjoon Yoo. Cutmix: Regularization strategy to train strong classi- fiers with localizable features. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 6023–6032, 2019.] 에서는 cutmix 제안
4. [Ethan Harris, Antonia Marcu, Matthew Painter, Mahesan Niranjan, Adam Pru ̈gel-Bennett, and Jonathon Hare. Fmix: Enhancing mixed sample data aug- mentation. arXiv preprint arXiv:2002.12047, 2020.]에서는 푸리에 변환을 사용한 Fmix 제안
5. [Dan Hendrycks, Norman Mu, Ekin D Cubuk, Barret Zoph, Justin Gilmer, and Balaji Lakshminarayanan. Augmix: A simple data processing method to improve robustness and uncertainty. arXiv preprint arXiv:1912.02781, 2019.] 에서는 하나의 이미지를 세 개의 증강 체인으로 나누어 세 개의 증강 체인 결과를 결합하여 혼합하는 Augmix 제안
6. [Vikas Verma, Alex Lamb, Christopher Beckham, Amir Najafi, Ioannis Mitliagkas, David Lopez- Paz, and Yoshua Bengio. Manifold mixup: Better rep- resentations by interpolating hidden states. In Interna- tional Conference on Machine Learning, pages 6438– 6447. PMLR, 2019.]에서는 숨겨진 표현을 혼합하는 ManifoldMix제안
3. Advanced Approaches
3.1. Auto Augment
각 데이터에 따라 증강 방법의 효과가 다르게 나타난다는 사실에 기반하여 수동으로 설계하는것보다 더 많은 이점을 가져온다.
1. [Ekin D Cubuk, Barret Zoph, Dandelion Mane, Vijay Vasudevan, and Quoc V Le. Autoaugment: Learning augmentation strategies from data. In Proceed- ings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 113–123, 2019.] AutoAugment라는 간단한 절차를 설명
2. [Richard S Sutton and Andrew G Barto. Reinforcement learning: An introduction. MIT press, 2018.]에서처럼 강화학습을 사용하는 검색 알고리즘은 시간이 많이 소요된다.
3. [Sungbin Lim, Ildoo Kim, Taesup Kim, Chiheon Kim, and Sungwoong Kim. Fast autoaug- ment. Advances in Neural Information Processing Sys- tems, 32:6665–6675, 2019.]에서는 Fast AutoAugment 제안
4. [DanielHo,EricLiang,XiChen,IonStoica, and Pieter Abbeel. Population based augmentation: Effi- cient learning of augmentation policy schedules. In Inter- national Conference on Machine Learning, pages 2731– 2741. PMLR, 2019.] 는 Population Based Augmentation(PBA) 제안
5. [Ekin D Cubuk, Barret Zoph, Jonathon Shlens, and Quoc V Le. Randaugment: Practical auto- mated data augmentation with a reduced search space. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, pages 702– 703, 2020.]에서는 RandAugment 제안
6. [Chengyue Gong, Dilin Wang, Meng Li, Vikas Chandra, and Qiang Liu. Keepaugment: A simple information-preserving data augmentation approach. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 1055–1064, 2021] 에서는 KeepAugment 제안
7. [Keyu Tian, Chen Lin, Ming Sun, Luping Zhou, Junjie Yan, and Wanli Ouyang. Improving auto- augment via augmentation-wise weight sharing. arXiv preprint arXiv:2009.14737, 2020.]에서는 Augmentation wise Weight Sharing 제안
8. [Chen Lin, Minghao Guo, Chuming Li, Xin Yuan, Wei Wu, Junjie Yan, Dahua Lin, and Wanli Ouyang. Online hyper-parameter learning for auto-augmentation strategy. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 6579–6588, 2019.] 에서는 OHL-Auto-Aug 제안
3.2. Feature Augmentation
지금까지의 augmentation들은 입력 공간에서만 수행하였다. 특성 증강은 학습된 특성 공간(Feature Space)에서 변환을 수행한다.
1. [Terrance DeVries and Graham W Taylor. Dataset augmentation in feature space.
arXiv preprint arXiv:1702.05538, 2017.] 에서는 특성공간이 입력공간에서보다 더 현실적인 샘플을 만날 가능성이 있다고 주장하여 특성 공간 내에서 데이터의 벡터 표현을 조작하는 증강 방법을 조사
2. [Chia-Wen Kuo, Chih-Yao Ma, Jia-Bin Huang, and Zsolt Kira. Featmatch: Feature-based augmentation for semi-supervised learning. In European Conference on Computer Vision, pages 479–495. Springer, 2020.]은 특성 기반 정제 및 증강방법인 FeatMatch 제안
3. [Boyi Li, Felix Wu, SerNam Lim, Serge Belongie, and Kilian Q. Weinberger. On feature normalization and data augmentation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 12383–12392, June 2021.] 에서 Moment Exchange라는 증강 방법 제안.
3.3. Deep Generative Models
이 절에서는 GAN을 기반으로 한 이미지 데이터 증강 기법을 소개한다.
데이터 증강의 궁극적인 목표는 데이터셋의 생성 메커니즘을 나타내는 분포에서 샘플을 추출하는것.
따라서 데이터를 생성하는 데이터 분포는 원본 데이터와 다르지 않아야한다는 아이디어
1. [Ian Goodfellow, Jean Pouget Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Generative adversarial nets. In Proc. NIPS, pages 2672–2680, 2014.] 는 적대적 신경망인 GANs를 제안한다.
2. [Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A Efros. Image-to-image translation with conditional adversarial networks. In Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), pages 1125–1134, 2017.] 에서는 조건부 적대 신경망인 Pix2Pix제안. [Mehdi Mirza and Simon Osindero. Conditional generative adversarial nets. CoRR, abs/1411.1784, 2014.] 기반. 그러나 Pix2Pix를 훈련하기 위해서는 많은 양의 쌍(pair)데이터가 필요하다.
3. [Jun-Yan Zhu, Taesung Park, Phillip Isola, and Alexei A Efros. Unpaired image-to-image translation using cycle-consistent adversarial networks. In Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), pages 2223–2232, 2017.] 에서 pix2pix와 달리 pair 데이터가 없는 상태에서 학습하는 CycleGAN 모델제안. 그러나 도메인의 수가 증가함에 따라 각각의 쌍 데이터 간에 별도로 모델을 훈련해야한다.
4. [ Yunjey Choi, Minje Choi, Munyoung Kim, Jung-Woo Ha, Sunghun Kim, and Jaegul Choo. Stargan: Unified generative adversarial networks for multidomain image-to-image translation. In Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), pages 8789–8797, 2018.] 두 개 이상의 도메인을 처리할 때 확장성 및 견고성을 개선하기 위해 StarGAN 제안. 그러나 주어진 입력 이미지에 대해 각 도메인에서 동일한 출력이 생성될 수 있는 단점.
5. [Yunjey Choi, Youngjung Uh, Jaejun Yoo, and Jung-Woo Ha. Stargan v2: Diverse image synthesis for multiple domains. In Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), pages 8185–8194. IEEE, 2020.] 위의 단점을 해결하기 위해 StarGAN v2를 제안. 다양한 이미지를 생성할 수 있는 확장 가능한 접근 방식 제공
4. Evaluation
4.1. Semantic Segmentation
1. PASCAL VOC 데이터셋 사용하여 실험
2. 모델은 DeepLabv3+, PSPNet, GCNet, ISANet 을 사용하고
3. IoU(Intersection over Union) 지표를 통해 성능 측정
4.2. Classification
1. CIFAR-10, CIFAR-100, SVHN 데이터셋을 사용
2. 모델은 DenseNet, Wide-ResNet, Shake-ResNet을 사용
3. accuracy를 측정하여 Average Accuracy Improvement(AAI) 측정
4.3. Object Detection
1. COCO2017 데이터셋 사용
2. 모델은 Faster R-CNN, CenterNet사용
3. 평가 지표로는 mAP, AP50, AP75
이 논문에 대한 본인의 개인적인 생각
평가 부분에서 augmentation을 하였을때 어떤 augmentation 기법들을 섞어서 나온 지표인지 서술하지 않았다.
논문에서는 여러 augmentation들을 섞어서 훈련을 했다고 했는데 어떤 augmentation들을 하였는지 적혀있지 않았다.
또한 augmentation 을 적용한 probability가 서술되어있지 않았다.
그래서 결론적으로는 어떤 augmentation을 사용하여 어떠한 결과가 나왔고, 얼마의 확률을 주어서 실험을 했는지를 모르기때문에 아쉬운 부분이다.