🟩 1. Vision Transformer (ViT)

📌 개요

Vision Transformer(ViT)는 자연어 처리 분야에서 성공적으로 사용된 Transformer 모델을 컴퓨터 비전에 최초로 적용한 모델로, CNN을 사용하지 않고 이미지 데이터를 처리하는 Transformer 기반의 아키텍처야.

📌 동작 방식

이미지 분할 (Patch)
입력 이미지를 일정 크기의 패치들로 나누고, 각 패치를 Flatten하여 1차원 벡터로 표현.
Embedding
각 패치를 선형 투영(linear projection)을 통해 임베딩 벡터로 변환하고 위치 정보를 나타내는 Positional Embedding을 추가.
Transformer Encoder
Attention 메커니즘으로 각 패치 간 상호 관계를 학습하며 이미지의 전역적(global) 특징을 효과적으로 포착.
Classification Token ([CLS])
별도의 CLS 토큰을 추가하여 최종 이미지의 분류를 수행.

📌 장점

CNN의 제한적인 수용 영역(receptive field) 문제를 극복하여 이미지의 전역적인 정보를 보다 효과적으로 처리.
모델 크기와 데이터셋 규모에 따른 성능 개선이 명확함.

📌 단점

학습 데이터가 충분히 클 때 성능이 뛰어나며, 작은 데이터셋에서는 CNN 기반 모델 대비 초기 성능이 떨어질 수 있음.

📌 대표 논문

Dosovitskiy et al., An Image is Worth 16x16 Words

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

While the Transformer architecture has become the de-facto standard for natural language processing tasks, its applications to computer vision remain limited. In vision, attention is either applied in conjunction with convolutional networks, or used to rep

arxiv.org

✅ 필요한 기본지식

Transformer의 핵심 메커니즘 (Self-Attention, Multi-head Attention)
논문: Attention is All You Need
선형 대수와 행렬연산: 행렬의 곱셈, 벡터연산, 고유값 등
Positional Embedding 개념: Transformer의 위치정보 추가 방식 이해
CNN의 한계와 Receptive Field 개념
Python 기반 딥러닝 프레임워크(PyTorch 또는 TensorFlow)의 숙련도

✅ 실습환경 준비

Colab 또는 Kaggle Kernel(GPU 필수)
PyTorch 기반 구현 추천: ViT PyTorch 구현
기초 학습을 위한 데이터셋: CIFAR-10, CIFAR-100, ImageNet subset

🟩 2. Swin Transformer

📌 개요

Swin Transformer는 ViT의 한계를 보완하여 만들어진 Hierarchical 구조를 가진 Transformer 모델이야. 이미지 스케일링 및 객체 감지, 세그멘테이션 같은 태스크에 적합하게 설계됐어.

📌 주요 특징

Hierarchical Feature Extraction
여러 스케일에서 피처를 추출하여 객체 탐지나 분할 등의 작업에 효과적으로 대응.
Shifted Window Attention
효율성을 높이기 위해 이미지를 윈도우로 나누고 윈도우를 shift 하며 attention을 계산하여 계산 복잡도를 크게 낮춤.

📌 장점

ViT보다 계산 효율성이 높으며, 다양한 태스크에서 우수한 성능을 기록.
CNN의 장점(Hierarchical 구조)을 Transformer 구조에 결합.

📌 대표 논문

Liu et al., Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

This paper presents a new vision Transformer, called Swin Transformer, that capably serves as a general-purpose backbone for computer vision. Challenges in adapting Transformer from language to vision arise from differences between the two domains, such as

arxiv.org

✅ 필요한 기본지식

위의 ViT 기본지식을 모두 숙지하고 있어야 함
Hierarchical 구조 개념 (다양한 해상도의 피처맵 생성, 활용)
Sliding window 개념 및 Shifted Window Attention
Transformer의 계산 복잡도 문제에 대한 이해

✅ 실습환경 준비

PyTorch 환경 권장
추천 구현체: Swin Transformer 공식 구현체
이미지 인식 외에도 객체 탐지나 세그멘테이션과 같은 고급 task 연습 필요
(e.g. COCO dataset, ADE20K segmentation dataset)

🟩 3. Diffusion Models

📌 개요

Diffusion 모델은 점진적인 노이즈 추가 및 제거 프로세스를 통해 데이터를 생성하는 확률적 생성 모델이야. 특히 이미지 생성 품질에서 GAN보다 우수한 결과를 보여줌.

📌 동작 방식

데이터를 노이즈가 가득한 상태로 점진적으로 변형시키는 forward 과정과 이를 역으로 수행하여 데이터를 복구하는 reverse 과정으로 구성.
역과정의 학습은 Denoising Autoencoder 형태로 이루어짐.

📌 장점

매우 높은 퀄리티의 이미지 생성
학습 과정이 안정적이고 mode-collapse 문제를 피할 수 있음.

📌 대표 모델

Stable Diffusion, Latent Diffusion Models (LDM)

📌 대표 논문

Rombach et al., High-Resolution Image Synthesis with Latent Diffusion Models

High-Resolution Image Synthesis with Latent Diffusion Models

By decomposing the image formation process into a sequential application of denoising autoencoders, diffusion models (DMs) achieve state-of-the-art synthesis results on image data and beyond. Additionally, their formulation allows for a guiding mechanism t

arxiv.org

✅ 필요한 기본지식

확률과 통계의 심화적 이해 (베이즈 정리, 조건부 확률)
확률 모델링 (Markov Chain 등)의 개념 이해
Variational Autoencoder(VAE)의 기본 구조와 작동 방식
GAN과의 차이점과 장단점 이해 필수
Score Matching 개념 이해 (노이즈 예측을 통한 역과정)

✅ 실습환경 준비

GPU 메모리 충분한 환경 필수 (Colab Pro 권장)
추천 구현체: Hugging Face Diffusion Models
이미지 데이터: CIFAR-10, CelebA, LSUN 등

🟩 4. Segment Anything Model (SAM)

📌 개요

SAM은 Meta AI가 개발한 범용 세그멘테이션 모델로, 어떤 이미지에 대해서도 별도의 파인튜닝 없이 즉시 세그멘테이션을 수행할 수 있도록 설계된 최초의 zero-shot 세그멘테이션 모델이야.

📌 동작 방식

Transformer 기반의 Vision Encoder와 Prompt 기반의 마스크 생성기(Mask Decoder)로 구성됨.
사용자의 입력(prompt)을 받아서 원하는 부분만 즉각적으로 세그멘테이션 수행 가능.

📌 장점

별도의 레이블링 없이 즉시 사용할 수 있는 강력한 범용성.
Interactive Segmentation에 최적화.

📌 대표 논문

Meta AI, Segment Anything

Segment Anything

We introduce the Segment Anything (SA) project: a new task, model, and dataset for image segmentation. Using our efficient model in a data collection loop, we built the largest segmentation dataset to date (by far), with over 1 billion masks on 11M license

arxiv.org

✅ 필요한 기본지식

Semantic Segmentation의 개념과 기존 모델(U-Net, DeepLab 등) 이해
Mask-based segmentation 기법 (Mask R-CNN 등)에 대한 경험
Transformer 기반 encoder-decoder 구조의 이해
Prompt 개념 및 Zero-shot 학습 방식 이해 필수
Interactive segmentation 개념에 대한 이해

✅ 실습환경 준비

PyTorch 및 Detectron2 환경 필수 (SAM 공식 구현체가 Detectron2 기반)
SAM 공식 구현체
COCO Segmentation 데이터셋 활용 추천

🟩 5. Self-Supervised Learning (SSL)

📌 개요

자기 지도 학습은 레이블 없이 데이터 자체로부터 학습 신호를 만들어 스스로 학습하는 방식으로 데이터 부족 문제 해결에 매우 효과적임.

📌 대표 모델

SimCLR: Contrastive Loss를 활용한 대표적인 SSL 모델.
BYOL: 온라인과 타겟 네트워크를 사용해 레이블 없이 robust한 feature 추출 가능.
DINO: Transformer 기반 SSL 모델로 feature representation 성능이 매우 뛰어남.

📌 장점

레이블이 없는 데이터에서 효과적으로 일반화된 표현을 학습할 수 있음.
다양한 하위 작업(downstream task)에서 전이 학습 성능이 우수.

📌 대표 논문

✅ 필요한 기본지식

Representation Learning의 개념 이해 필수
Metric Learning 개념 (Contrastive loss, Triplet loss 등)
데이터 증강(augmentation)의 기본적 이해와 활용 능력
Unsupervised learning의 한계점과 자기 지도 학습의 필요성 이해
SSL 모델별 개념 숙지: SimCLR(contrastive), BYOL(momentum), DINO(attention-based)

✅ 실습환경 준비

GPU 환경 추천 (Colab GPU 필수)
추천 실습 코드:
- SimCLR Google 공식 구현
- BYOL DeepMind 공식 구현
- DINO Facebook 공식 구현
데이터셋: ImageNet subset, CIFAR-10, STL-10 등

🟩 6. Prompt 기반 학습 (CLIP 등)

📌 개요

Prompt 기반 학습은 텍스트 기반 자연어 모델을 이미지 분류와 같은 비전 태스크와 결합하여 zero-shot 또는 few-shot 학습을 가능케 하는 방법임.

📌 대표 모델

CLIP(Contrastive Language-Image Pretraining): 이미지와 텍스트 사이의 의미적 연결을 학습하여 prompt로 다양한 태스크를 바로 수행.

📌 장점

사전 학습된 하나의 모델로 다양한 태스크 수행 가능.
추가 학습 없이 바로 다양한 분류 작업이 가능해 효율적.

📌 대표 논문

OpenAI, Learning Transferable Visual Models From Natural Language Supervision

Learning Transferable Visual Models From Natural Language Supervision

State-of-the-art computer vision systems are trained to predict a fixed set of predetermined object categories. This restricted form of supervision limits their generality and usability since additional labeled data is needed to specify any other visual co

arxiv.org

✅ 필요한 기본지식

자연어 처리(NLP)의 기본: Word embedding, Tokenization, Transformer
Multimodal learning의 기본 개념 숙지
Contrastive Learning 개념과 Loss 구조 숙지
Zero-shot 학습 개념 이해 및 응용
Image-Text pairing 개념과 데이터 전처리 방법 숙지

✅ 실습환경 준비

Hugging Face Transformers 라이브러리 활용 추천 (CLIP official)
데이터셋: COCO-Captions, Flickr8k, Flickr30k 등 Image-text dataset

🟩 7. NeRF (Neural Radiance Fields)

📌 개요

NeRF는 이미지로부터 3D 공간의 연속적인 볼륨을 학습하고 렌더링하여 사실적인 3D 모델을 생성하는 기술임.

📌 동작 방식

입력된 여러 각도의 이미지로부터 공간상의 픽셀 위치와 시점 방향에 따라 색상과 밀도를 출력하는 신경망 학습.
이를 통해 어떤 각도에서도 사실적인 이미지를 렌더링 가능.

📌 장점

사실적인 3D 모델 및 새로운 시점의 이미지 생성 가능.
적은 이미지 데이터로도 높은 퀄리티의 3D 생성 가능.

📌 대표 논문

Mildenhall et al., NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

We present a method that achieves state-of-the-art results for synthesizing novel views of complex scenes by optimizing an underlying continuous volumetric scene function using a sparse set of input views. Our algorithm represents a scene using a fully-con

arxiv.org

✅ 필요한 기본지식

컴퓨터 그래픽스의 기본 지식 (렌더링, Ray-tracing)
3D 공간 표현법 (point cloud, voxel, implicit function 등)
NeRF의 볼륨 렌더링(volume rendering) 개념
MLP(Multi-layer Perceptron)의 구조 및 최적화 방법
3D reconstruction 문제의 이해

✅ 실습환경 준비

Python + PyTorch 환경 필수
추천 구현체: NeRF 공식 구현
소규모 데이터: NeRF Synthetic Dataset, LLFF dataset 활용 추천

🟩 8. 멀티모달 학습 (이미지+텍스트)

📌 개요

이미지, 텍스트 등 다양한 모달리티 데이터를 동시에 학습하여 상호 간의 의미적 관계를 이해하는 모델이야.

📌 활용 분야

이미지 캡셔닝, VQA, 멀티모달 검색 등

📌 대표 모델

BLIP, MiniGPT-4 등

✅ 필요한 기본지식

멀티모달 데이터 융합 방법(feature fusion, cross-attention 등) 이해
Image encoder (CNN, ViT 등) 및 Text encoder(Transformer 등)의 역할 이해
이미지 캡셔닝(image captioning), VQA(Visual Question Answering) 개념과 데이터 전처리
Attention 메커니즘의 멀티모달 적용 방법 이해 필수

✅ 실습환경 준비

Hugging Face Transformer 활용 추천
추천 모델: BLIP, MiniGPT-4 (Hugging Face)
데이터셋: MS COCO Caption, Visual Genome 등

저작자표시 (새창열림)

'DeepLearning|MachineLearning' 카테고리의 다른 글

Steganalysis (2)	2025.06.01
딥러닝/머신러닝을 위한 CS기초과목 필요성과 이유 (0)	2025.03.28
Confusion Matrix(분류 모델 성능 평가지표) 란? (2)	2023.12.20
DeepLearning 기초 개념 : batch_size, steps, epoch, iteration (0)	2022.04.28
TTA(Test-Time Augmentation) (0)	2022.04.28

2025년 5월기준 CV 최신 트렌드

🟩 1. Vision Transformer (ViT)

📌 개요

📌 동작 방식

📌 장점

📌 단점

📌 대표 논문

✅ 필요한 기본지식

✅ 실습환경 준비

🟩 2. Swin Transformer

📌 개요

📌 주요 특징

📌 장점

📌 대표 논문

✅ 필요한 기본지식

✅ 실습환경 준비

🟩 3. Diffusion Models

📌 개요

📌 동작 방식

📌 장점

📌 대표 모델

📌 대표 논문

✅ 필요한 기본지식

✅ 실습환경 준비

🟩 4. Segment Anything Model (SAM)

📌 개요

📌 동작 방식

📌 장점

📌 대표 논문

✅ 필요한 기본지식

✅ 실습환경 준비

🟩 5. Self-Supervised Learning (SSL)

📌 개요

📌 대표 모델

📌 장점

📌 대표 논문

✅ 필요한 기본지식

✅ 실습환경 준비

🟩 6. Prompt 기반 학습 (CLIP 등)

📌 개요

📌 대표 모델

📌 장점

📌 대표 논문

✅ 필요한 기본지식

✅ 실습환경 준비

🟩 7. NeRF (Neural Radiance Fields)

📌 개요

📌 동작 방식

📌 장점

📌 대표 논문

✅ 필요한 기본지식

✅ 실습환경 준비

🟩 8. 멀티모달 학습 (이미지+텍스트)

📌 개요

📌 활용 분야

📌 대표 모델

✅ 필요한 기본지식

✅ 실습환경 준비

'DeepLearning|MachineLearning' 카테고리의 다른 글

관련글

티스토리툴바