본문 바로가기
DeepLearning|MachineLearning

2025년 5월기준 CV 최신 트렌드

by yongPro 2025. 5. 31.
반응형

🟩 1. Vision Transformer (ViT)

📌 개요

Vision Transformer(ViT)는 자연어 처리 분야에서 성공적으로 사용된 Transformer 모델을 컴퓨터 비전에 최초로 적용한 모델로, CNN을 사용하지 않고 이미지 데이터를 처리하는 Transformer 기반의 아키텍처야.

📌 동작 방식

  • 이미지 분할 (Patch)
    입력 이미지를 일정 크기의 패치들로 나누고, 각 패치를 Flatten하여 1차원 벡터로 표현.
  • Embedding
    각 패치를 선형 투영(linear projection)을 통해 임베딩 벡터로 변환하고 위치 정보를 나타내는 Positional Embedding을 추가.
  • Transformer Encoder
    Attention 메커니즘으로 각 패치 간 상호 관계를 학습하며 이미지의 전역적(global) 특징을 효과적으로 포착.
  • Classification Token ([CLS])
    별도의 CLS 토큰을 추가하여 최종 이미지의 분류를 수행.

📌 장점

  • CNN의 제한적인 수용 영역(receptive field) 문제를 극복하여 이미지의 전역적인 정보를 보다 효과적으로 처리.
  • 모델 크기와 데이터셋 규모에 따른 성능 개선이 명확함.

📌 단점

  • 학습 데이터가 충분히 클 때 성능이 뛰어나며, 작은 데이터셋에서는 CNN 기반 모델 대비 초기 성능이 떨어질 수 있음.

📌 대표 논문

Dosovitskiy et al., An Image is Worth 16x16 Words

 

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

While the Transformer architecture has become the de-facto standard for natural language processing tasks, its applications to computer vision remain limited. In vision, attention is either applied in conjunction with convolutional networks, or used to rep

arxiv.org

 

✅ 필요한 기본지식

  • Transformer의 핵심 메커니즘 (Self-Attention, Multi-head Attention)
    논문: Attention is All You Need
  • 선형 대수와 행렬연산: 행렬의 곱셈, 벡터연산, 고유값 등
  • Positional Embedding 개념: Transformer의 위치정보 추가 방식 이해
  • CNN의 한계와 Receptive Field 개념
  • Python 기반 딥러닝 프레임워크(PyTorch 또는 TensorFlow)의 숙련도

✅ 실습환경 준비

  • Colab 또는 Kaggle Kernel(GPU 필수)
  • PyTorch 기반 구현 추천: ViT PyTorch 구현
  • 기초 학습을 위한 데이터셋: CIFAR-10, CIFAR-100, ImageNet subset

🟩  2. Swin Transformer

📌 개요

Swin Transformer는 ViT의 한계를 보완하여 만들어진 Hierarchical 구조를 가진 Transformer 모델이야. 이미지 스케일링 및 객체 감지, 세그멘테이션 같은 태스크에 적합하게 설계됐어.

📌 주요 특징

  • Hierarchical Feature Extraction
    여러 스케일에서 피처를 추출하여 객체 탐지나 분할 등의 작업에 효과적으로 대응.
  • Shifted Window Attention
    효율성을 높이기 위해 이미지를 윈도우로 나누고 윈도우를 shift 하며 attention을 계산하여 계산 복잡도를 크게 낮춤.

📌 장점

  • ViT보다 계산 효율성이 높으며, 다양한 태스크에서 우수한 성능을 기록.
  • CNN의 장점(Hierarchical 구조)을 Transformer 구조에 결합.

📌 대표 논문

Liu et al., Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

 

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

This paper presents a new vision Transformer, called Swin Transformer, that capably serves as a general-purpose backbone for computer vision. Challenges in adapting Transformer from language to vision arise from differences between the two domains, such as

arxiv.org

 

✅ 필요한 기본지식

  • 위의 ViT 기본지식을 모두 숙지하고 있어야 함
  • Hierarchical 구조 개념 (다양한 해상도의 피처맵 생성, 활용)
  • Sliding window 개념 및 Shifted Window Attention
  • Transformer의 계산 복잡도 문제에 대한 이해

✅ 실습환경 준비

  • PyTorch 환경 권장
  • 추천 구현체: Swin Transformer 공식 구현체
  • 이미지 인식 외에도 객체 탐지나 세그멘테이션과 같은 고급 task 연습 필요
    (e.g. COCO dataset, ADE20K segmentation dataset)

🟩  3. Diffusion Models

📌 개요

Diffusion 모델은 점진적인 노이즈 추가 및 제거 프로세스를 통해 데이터를 생성하는 확률적 생성 모델이야. 특히 이미지 생성 품질에서 GAN보다 우수한 결과를 보여줌.

📌 동작 방식

  • 데이터를 노이즈가 가득한 상태로 점진적으로 변형시키는 forward 과정과 이를 역으로 수행하여 데이터를 복구하는 reverse 과정으로 구성.
  • 역과정의 학습은 Denoising Autoencoder 형태로 이루어짐.

📌 장점

  • 매우 높은 퀄리티의 이미지 생성
  • 학습 과정이 안정적이고 mode-collapse 문제를 피할 수 있음.

📌 대표 모델

  • Stable Diffusion, Latent Diffusion Models (LDM)

📌 대표 논문

Rombach et al., High-Resolution Image Synthesis with Latent Diffusion Models

 

High-Resolution Image Synthesis with Latent Diffusion Models

By decomposing the image formation process into a sequential application of denoising autoencoders, diffusion models (DMs) achieve state-of-the-art synthesis results on image data and beyond. Additionally, their formulation allows for a guiding mechanism t

arxiv.org

✅ 필요한 기본지식

  • 확률과 통계의 심화적 이해 (베이즈 정리, 조건부 확률)
  • 확률 모델링 (Markov Chain 등)의 개념 이해
  • Variational Autoencoder(VAE)의 기본 구조와 작동 방식
  • GAN과의 차이점과 장단점 이해 필수
  • Score Matching 개념 이해 (노이즈 예측을 통한 역과정)

✅ 실습환경 준비

  • GPU 메모리 충분한 환경 필수 (Colab Pro 권장)
  • 추천 구현체: Hugging Face Diffusion Models
  • 이미지 데이터: CIFAR-10, CelebA, LSUN 등

🟩  4. Segment Anything Model (SAM)

📌 개요

SAM은 Meta AI가 개발한 범용 세그멘테이션 모델로, 어떤 이미지에 대해서도 별도의 파인튜닝 없이 즉시 세그멘테이션을 수행할 수 있도록 설계된 최초의 zero-shot 세그멘테이션 모델이야.

📌 동작 방식

  • Transformer 기반의 Vision Encoder와 Prompt 기반의 마스크 생성기(Mask Decoder)로 구성됨.
  • 사용자의 입력(prompt)을 받아서 원하는 부분만 즉각적으로 세그멘테이션 수행 가능.

📌 장점

  • 별도의 레이블링 없이 즉시 사용할 수 있는 강력한 범용성.
  • Interactive Segmentation에 최적화.

📌 대표 논문

Meta AI, Segment Anything

 

Segment Anything

We introduce the Segment Anything (SA) project: a new task, model, and dataset for image segmentation. Using our efficient model in a data collection loop, we built the largest segmentation dataset to date (by far), with over 1 billion masks on 11M license

arxiv.org

✅ 필요한 기본지식

  • Semantic Segmentation의 개념과 기존 모델(U-Net, DeepLab 등) 이해
  • Mask-based segmentation 기법 (Mask R-CNN 등)에 대한 경험
  • Transformer 기반 encoder-decoder 구조의 이해
  • Prompt 개념 및 Zero-shot 학습 방식 이해 필수
  • Interactive segmentation 개념에 대한 이해

✅ 실습환경 준비

  • PyTorch 및 Detectron2 환경 필수 (SAM 공식 구현체가 Detectron2 기반)
  • SAM 공식 구현체
  • COCO Segmentation 데이터셋 활용 추천

🟩 5. Self-Supervised Learning (SSL)

📌 개요

자기 지도 학습은 레이블 없이 데이터 자체로부터 학습 신호를 만들어 스스로 학습하는 방식으로 데이터 부족 문제 해결에 매우 효과적임.

📌 대표 모델

  • SimCLR: Contrastive Loss를 활용한 대표적인 SSL 모델.
  • BYOL: 온라인과 타겟 네트워크를 사용해 레이블 없이 robust한 feature 추출 가능.
  • DINO: Transformer 기반 SSL 모델로 feature representation 성능이 매우 뛰어남.

📌 장점

  • 레이블이 없는 데이터에서 효과적으로 일반화된 표현을 학습할 수 있음.
  • 다양한 하위 작업(downstream task)에서 전이 학습 성능이 우수.

📌 대표 논문

 

✅ 필요한 기본지식

  • Representation Learning의 개념 이해 필수
  • Metric Learning 개념 (Contrastive loss, Triplet loss 등)
  • 데이터 증강(augmentation)의 기본적 이해와 활용 능력
  • Unsupervised learning의 한계점과 자기 지도 학습의 필요성 이해
  • SSL 모델별 개념 숙지: SimCLR(contrastive), BYOL(momentum), DINO(attention-based)

✅ 실습환경 준비

 


🟩 6. Prompt 기반 학습 (CLIP 등)

📌 개요

Prompt 기반 학습은 텍스트 기반 자연어 모델을 이미지 분류와 같은 비전 태스크와 결합하여 zero-shot 또는 few-shot 학습을 가능케 하는 방법임.

📌 대표 모델

  • CLIP(Contrastive Language-Image Pretraining): 이미지와 텍스트 사이의 의미적 연결을 학습하여 prompt로 다양한 태스크를 바로 수행.

📌 장점

  • 사전 학습된 하나의 모델로 다양한 태스크 수행 가능.
  • 추가 학습 없이 바로 다양한 분류 작업이 가능해 효율적.

📌 대표 논문

OpenAI, Learning Transferable Visual Models From Natural Language Supervision

 

Learning Transferable Visual Models From Natural Language Supervision

State-of-the-art computer vision systems are trained to predict a fixed set of predetermined object categories. This restricted form of supervision limits their generality and usability since additional labeled data is needed to specify any other visual co

arxiv.org

✅ 필요한 기본지식

  • 자연어 처리(NLP)의 기본: Word embedding, Tokenization, Transformer
  • Multimodal learning의 기본 개념 숙지
  • Contrastive Learning 개념과 Loss 구조 숙지
  • Zero-shot 학습 개념 이해 및 응용
  • Image-Text pairing 개념과 데이터 전처리 방법 숙지

✅ 실습환경 준비

  • Hugging Face Transformers 라이브러리 활용 추천 (CLIP official)
  • 데이터셋: COCO-Captions, Flickr8k, Flickr30k 등 Image-text dataset

🟩  7. NeRF (Neural Radiance Fields)

📌 개요

NeRF는 이미지로부터 3D 공간의 연속적인 볼륨을 학습하고 렌더링하여 사실적인 3D 모델을 생성하는 기술임.

📌 동작 방식

  • 입력된 여러 각도의 이미지로부터 공간상의 픽셀 위치와 시점 방향에 따라 색상과 밀도를 출력하는 신경망 학습.
  • 이를 통해 어떤 각도에서도 사실적인 이미지를 렌더링 가능.

📌 장점

  • 사실적인 3D 모델 및 새로운 시점의 이미지 생성 가능.
  • 적은 이미지 데이터로도 높은 퀄리티의 3D 생성 가능.

📌 대표 논문

Mildenhall et al., NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

 

NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

We present a method that achieves state-of-the-art results for synthesizing novel views of complex scenes by optimizing an underlying continuous volumetric scene function using a sparse set of input views. Our algorithm represents a scene using a fully-con

arxiv.org

✅ 필요한 기본지식

  • 컴퓨터 그래픽스의 기본 지식 (렌더링, Ray-tracing)
  • 3D 공간 표현법 (point cloud, voxel, implicit function 등)
  • NeRF의 볼륨 렌더링(volume rendering) 개념
  • MLP(Multi-layer Perceptron)의 구조 및 최적화 방법
  • 3D reconstruction 문제의 이해

✅ 실습환경 준비

  • Python + PyTorch 환경 필수
  • 추천 구현체: NeRF 공식 구현
  • 소규모 데이터: NeRF Synthetic Dataset, LLFF dataset 활용 추천

🟩 8. 멀티모달 학습 (이미지+텍스트)

📌 개요

이미지, 텍스트 등 다양한 모달리티 데이터를 동시에 학습하여 상호 간의 의미적 관계를 이해하는 모델이야.

📌 활용 분야

  • 이미지 캡셔닝, VQA, 멀티모달 검색 등

📌 대표 모델

  • BLIP, MiniGPT-4 등

 

✅ 필요한 기본지식

  • 멀티모달 데이터 융합 방법(feature fusion, cross-attention 등) 이해
  • Image encoder (CNN, ViT 등) 및 Text encoder(Transformer 등)의 역할 이해
  • 이미지 캡셔닝(image captioning), VQA(Visual Question Answering) 개념과 데이터 전처리
  • Attention 메커니즘의 멀티모달 적용 방법 이해 필수

✅ 실습환경 준비

  • Hugging Face Transformer 활용 추천
  • 추천 모델: BLIP, MiniGPT-4 (Hugging Face)
  • 데이터셋: MS COCO Caption, Visual Genome 등