🟩 1. Vision Transformer (ViT)
📌 개요
Vision Transformer(ViT)는 자연어 처리 분야에서 성공적으로 사용된 Transformer 모델을 컴퓨터 비전에 최초로 적용한 모델로, CNN을 사용하지 않고 이미지 데이터를 처리하는 Transformer 기반의 아키텍처야.
📌 동작 방식
- 이미지 분할 (Patch)
입력 이미지를 일정 크기의 패치들로 나누고, 각 패치를 Flatten하여 1차원 벡터로 표현. - Embedding
각 패치를 선형 투영(linear projection)을 통해 임베딩 벡터로 변환하고 위치 정보를 나타내는 Positional Embedding을 추가. - Transformer Encoder
Attention 메커니즘으로 각 패치 간 상호 관계를 학습하며 이미지의 전역적(global) 특징을 효과적으로 포착. - Classification Token ([CLS])
별도의 CLS 토큰을 추가하여 최종 이미지의 분류를 수행.
📌 장점
- CNN의 제한적인 수용 영역(receptive field) 문제를 극복하여 이미지의 전역적인 정보를 보다 효과적으로 처리.
- 모델 크기와 데이터셋 규모에 따른 성능 개선이 명확함.
📌 단점
- 학습 데이터가 충분히 클 때 성능이 뛰어나며, 작은 데이터셋에서는 CNN 기반 모델 대비 초기 성능이 떨어질 수 있음.
📌 대표 논문
Dosovitskiy et al., An Image is Worth 16x16 Words
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
While the Transformer architecture has become the de-facto standard for natural language processing tasks, its applications to computer vision remain limited. In vision, attention is either applied in conjunction with convolutional networks, or used to rep
arxiv.org
✅ 필요한 기본지식
- Transformer의 핵심 메커니즘 (Self-Attention, Multi-head Attention)
논문: Attention is All You Need - 선형 대수와 행렬연산: 행렬의 곱셈, 벡터연산, 고유값 등
- Positional Embedding 개념: Transformer의 위치정보 추가 방식 이해
- CNN의 한계와 Receptive Field 개념
- Python 기반 딥러닝 프레임워크(PyTorch 또는 TensorFlow)의 숙련도
✅ 실습환경 준비
- Colab 또는 Kaggle Kernel(GPU 필수)
- PyTorch 기반 구현 추천: ViT PyTorch 구현
- 기초 학습을 위한 데이터셋: CIFAR-10, CIFAR-100, ImageNet subset
🟩 2. Swin Transformer
📌 개요
Swin Transformer는 ViT의 한계를 보완하여 만들어진 Hierarchical 구조를 가진 Transformer 모델이야. 이미지 스케일링 및 객체 감지, 세그멘테이션 같은 태스크에 적합하게 설계됐어.
📌 주요 특징
- Hierarchical Feature Extraction
여러 스케일에서 피처를 추출하여 객체 탐지나 분할 등의 작업에 효과적으로 대응. - Shifted Window Attention
효율성을 높이기 위해 이미지를 윈도우로 나누고 윈도우를 shift 하며 attention을 계산하여 계산 복잡도를 크게 낮춤.
📌 장점
- ViT보다 계산 효율성이 높으며, 다양한 태스크에서 우수한 성능을 기록.
- CNN의 장점(Hierarchical 구조)을 Transformer 구조에 결합.
📌 대표 논문
Liu et al., Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
This paper presents a new vision Transformer, called Swin Transformer, that capably serves as a general-purpose backbone for computer vision. Challenges in adapting Transformer from language to vision arise from differences between the two domains, such as
arxiv.org
✅ 필요한 기본지식
- 위의 ViT 기본지식을 모두 숙지하고 있어야 함
- Hierarchical 구조 개념 (다양한 해상도의 피처맵 생성, 활용)
- Sliding window 개념 및 Shifted Window Attention
- Transformer의 계산 복잡도 문제에 대한 이해
✅ 실습환경 준비
- PyTorch 환경 권장
- 추천 구현체: Swin Transformer 공식 구현체
- 이미지 인식 외에도 객체 탐지나 세그멘테이션과 같은 고급 task 연습 필요
(e.g. COCO dataset, ADE20K segmentation dataset)
🟩 3. Diffusion Models
📌 개요
Diffusion 모델은 점진적인 노이즈 추가 및 제거 프로세스를 통해 데이터를 생성하는 확률적 생성 모델이야. 특히 이미지 생성 품질에서 GAN보다 우수한 결과를 보여줌.
📌 동작 방식
- 데이터를 노이즈가 가득한 상태로 점진적으로 변형시키는 forward 과정과 이를 역으로 수행하여 데이터를 복구하는 reverse 과정으로 구성.
- 역과정의 학습은 Denoising Autoencoder 형태로 이루어짐.
📌 장점
- 매우 높은 퀄리티의 이미지 생성
- 학습 과정이 안정적이고 mode-collapse 문제를 피할 수 있음.
📌 대표 모델
- Stable Diffusion, Latent Diffusion Models (LDM)
📌 대표 논문
Rombach et al., High-Resolution Image Synthesis with Latent Diffusion Models
High-Resolution Image Synthesis with Latent Diffusion Models
By decomposing the image formation process into a sequential application of denoising autoencoders, diffusion models (DMs) achieve state-of-the-art synthesis results on image data and beyond. Additionally, their formulation allows for a guiding mechanism t
arxiv.org
✅ 필요한 기본지식
- 확률과 통계의 심화적 이해 (베이즈 정리, 조건부 확률)
- 확률 모델링 (Markov Chain 등)의 개념 이해
- Variational Autoencoder(VAE)의 기본 구조와 작동 방식
- GAN과의 차이점과 장단점 이해 필수
- Score Matching 개념 이해 (노이즈 예측을 통한 역과정)
✅ 실습환경 준비
- GPU 메모리 충분한 환경 필수 (Colab Pro 권장)
- 추천 구현체: Hugging Face Diffusion Models
- 이미지 데이터: CIFAR-10, CelebA, LSUN 등
🟩 4. Segment Anything Model (SAM)
📌 개요
SAM은 Meta AI가 개발한 범용 세그멘테이션 모델로, 어떤 이미지에 대해서도 별도의 파인튜닝 없이 즉시 세그멘테이션을 수행할 수 있도록 설계된 최초의 zero-shot 세그멘테이션 모델이야.
📌 동작 방식
- Transformer 기반의 Vision Encoder와 Prompt 기반의 마스크 생성기(Mask Decoder)로 구성됨.
- 사용자의 입력(prompt)을 받아서 원하는 부분만 즉각적으로 세그멘테이션 수행 가능.
📌 장점
- 별도의 레이블링 없이 즉시 사용할 수 있는 강력한 범용성.
- Interactive Segmentation에 최적화.
📌 대표 논문
Meta AI, Segment Anything
Segment Anything
We introduce the Segment Anything (SA) project: a new task, model, and dataset for image segmentation. Using our efficient model in a data collection loop, we built the largest segmentation dataset to date (by far), with over 1 billion masks on 11M license
arxiv.org
✅ 필요한 기본지식
- Semantic Segmentation의 개념과 기존 모델(U-Net, DeepLab 등) 이해
- Mask-based segmentation 기법 (Mask R-CNN 등)에 대한 경험
- Transformer 기반 encoder-decoder 구조의 이해
- Prompt 개념 및 Zero-shot 학습 방식 이해 필수
- Interactive segmentation 개념에 대한 이해
✅ 실습환경 준비
- PyTorch 및 Detectron2 환경 필수 (SAM 공식 구현체가 Detectron2 기반)
- SAM 공식 구현체
- COCO Segmentation 데이터셋 활용 추천
🟩 5. Self-Supervised Learning (SSL)
📌 개요
자기 지도 학습은 레이블 없이 데이터 자체로부터 학습 신호를 만들어 스스로 학습하는 방식으로 데이터 부족 문제 해결에 매우 효과적임.
📌 대표 모델
- SimCLR: Contrastive Loss를 활용한 대표적인 SSL 모델.
- BYOL: 온라인과 타겟 네트워크를 사용해 레이블 없이 robust한 feature 추출 가능.
- DINO: Transformer 기반 SSL 모델로 feature representation 성능이 매우 뛰어남.
📌 장점
- 레이블이 없는 데이터에서 효과적으로 일반화된 표현을 학습할 수 있음.
- 다양한 하위 작업(downstream task)에서 전이 학습 성능이 우수.
📌 대표 논문
✅ 필요한 기본지식
- Representation Learning의 개념 이해 필수
- Metric Learning 개념 (Contrastive loss, Triplet loss 등)
- 데이터 증강(augmentation)의 기본적 이해와 활용 능력
- Unsupervised learning의 한계점과 자기 지도 학습의 필요성 이해
- SSL 모델별 개념 숙지: SimCLR(contrastive), BYOL(momentum), DINO(attention-based)
✅ 실습환경 준비
- GPU 환경 추천 (Colab GPU 필수)
- 추천 실습 코드:
- SimCLR Google 공식 구현
- BYOL DeepMind 공식 구현
- DINO Facebook 공식 구현
- 데이터셋: ImageNet subset, CIFAR-10, STL-10 등
🟩 6. Prompt 기반 학습 (CLIP 등)
📌 개요
Prompt 기반 학습은 텍스트 기반 자연어 모델을 이미지 분류와 같은 비전 태스크와 결합하여 zero-shot 또는 few-shot 학습을 가능케 하는 방법임.
📌 대표 모델
- CLIP(Contrastive Language-Image Pretraining): 이미지와 텍스트 사이의 의미적 연결을 학습하여 prompt로 다양한 태스크를 바로 수행.
📌 장점
- 사전 학습된 하나의 모델로 다양한 태스크 수행 가능.
- 추가 학습 없이 바로 다양한 분류 작업이 가능해 효율적.
📌 대표 논문
OpenAI, Learning Transferable Visual Models From Natural Language Supervision
Learning Transferable Visual Models From Natural Language Supervision
State-of-the-art computer vision systems are trained to predict a fixed set of predetermined object categories. This restricted form of supervision limits their generality and usability since additional labeled data is needed to specify any other visual co
arxiv.org
✅ 필요한 기본지식
- 자연어 처리(NLP)의 기본: Word embedding, Tokenization, Transformer
- Multimodal learning의 기본 개념 숙지
- Contrastive Learning 개념과 Loss 구조 숙지
- Zero-shot 학습 개념 이해 및 응용
- Image-Text pairing 개념과 데이터 전처리 방법 숙지
✅ 실습환경 준비
- Hugging Face Transformers 라이브러리 활용 추천 (CLIP official)
- 데이터셋: COCO-Captions, Flickr8k, Flickr30k 등 Image-text dataset
🟩 7. NeRF (Neural Radiance Fields)
📌 개요
NeRF는 이미지로부터 3D 공간의 연속적인 볼륨을 학습하고 렌더링하여 사실적인 3D 모델을 생성하는 기술임.
📌 동작 방식
- 입력된 여러 각도의 이미지로부터 공간상의 픽셀 위치와 시점 방향에 따라 색상과 밀도를 출력하는 신경망 학습.
- 이를 통해 어떤 각도에서도 사실적인 이미지를 렌더링 가능.
📌 장점
- 사실적인 3D 모델 및 새로운 시점의 이미지 생성 가능.
- 적은 이미지 데이터로도 높은 퀄리티의 3D 생성 가능.
📌 대표 논문
Mildenhall et al., NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
We present a method that achieves state-of-the-art results for synthesizing novel views of complex scenes by optimizing an underlying continuous volumetric scene function using a sparse set of input views. Our algorithm represents a scene using a fully-con
arxiv.org
✅ 필요한 기본지식
- 컴퓨터 그래픽스의 기본 지식 (렌더링, Ray-tracing)
- 3D 공간 표현법 (point cloud, voxel, implicit function 등)
- NeRF의 볼륨 렌더링(volume rendering) 개념
- MLP(Multi-layer Perceptron)의 구조 및 최적화 방법
- 3D reconstruction 문제의 이해
✅ 실습환경 준비
- Python + PyTorch 환경 필수
- 추천 구현체: NeRF 공식 구현
- 소규모 데이터: NeRF Synthetic Dataset, LLFF dataset 활용 추천
🟩 8. 멀티모달 학습 (이미지+텍스트)
📌 개요
이미지, 텍스트 등 다양한 모달리티 데이터를 동시에 학습하여 상호 간의 의미적 관계를 이해하는 모델이야.
📌 활용 분야
- 이미지 캡셔닝, VQA, 멀티모달 검색 등
📌 대표 모델
- BLIP, MiniGPT-4 등
✅ 필요한 기본지식
- 멀티모달 데이터 융합 방법(feature fusion, cross-attention 등) 이해
- Image encoder (CNN, ViT 등) 및 Text encoder(Transformer 등)의 역할 이해
- 이미지 캡셔닝(image captioning), VQA(Visual Question Answering) 개념과 데이터 전처리
- Attention 메커니즘의 멀티모달 적용 방법 이해 필수
✅ 실습환경 준비
- Hugging Face Transformer 활용 추천
- 추천 모델: BLIP, MiniGPT-4 (Hugging Face)
- 데이터셋: MS COCO Caption, Visual Genome 등
'DeepLearning|MachineLearning' 카테고리의 다른 글
Steganalysis (2) | 2025.06.01 |
---|---|
딥러닝/머신러닝을 위한 CS기초과목 필요성과 이유 (0) | 2025.03.28 |
Confusion Matrix(분류 모델 성능 평가지표) 란? (2) | 2023.12.20 |
DeepLearning 기초 개념 : batch_size, steps, epoch, iteration (0) | 2022.04.28 |
TTA(Test-Time Augmentation) (0) | 2022.04.28 |