전이 학습이란? 실전 파인튜닝 가이드

0. 시리즈

편	제목
1편	AI, 머신러닝, 딥러닝 차이점 개념 정리
2편	머신러닝 알고리즘 종류 정리
3편	딥러닝 신경망 구조 정리 (CNN, RNN, Transformer)
4편	생성형 AI란? GPT, DALL·E, Stable Diffusion 비교
5편⬅️	전이 학습이란? 실전 파인튜닝 가이드

1. 들어가며

1.1 이 글은 누가 읽으면 좋을까?

[1편]에서 AI·머신러닝·딥러닝의 개념을, [2편]에서 머신러닝 알고리즘을, [3편]에서 딥러닝 신경망 구조를, [4편]에서 생성형 AI를 배웠습니다. 이번 5편은 시리즈의 마지막으로, 이 모든 개념을 실무에 연결하는 핵심 기술 — 전이 학습(Transfer Learning)과 파인튜닝(Fine-tuning)을 다룹니다. "AI를 직접 만들고 싶은데 데이터도 없고 GPU도 없다"는 분께 특히 도움이 됩니다.

1.2 전이 학습이란? — "바퀴를 다시 발명하지 않아도 된다"

자동차를 만들 때마다 바퀴를 새로 발명하는 사람은 없습니다. 이미 잘 만들어진 바퀴를 가져다 쓰고, 내 차에 맞게 조금 조정하면 됩니다. 전이 학습도 마찬가지입니다. 수백억 개의 데이터로 이미 잘 학습된 AI 모델을 가져와 내 목적에 맞게 조금만 추가 학습 하면, 처음부터 만드는 것보다 훨씬 빠르고 좋은 결과를 얻을 수 있습니다.

1.3 이 글을 읽으면 알 수 있는 것

전이 학습의 개념과 왜 필요한지
전이 학습의 3가지 방식 (특징 추출 / 파인튜닝 / 도메인 적응)
대표적인 사전 학습 모델의 종류
파인튜닝의 전체 프로세스와 핵심 기법
실생활에서 전이 학습이 어떻게 활용되는지

2. 전이 학습(Transfer Learning) 개념

2.1 전이 학습의 정의

전이 학습(Transfer Learning) 이란 한 분야에서 학습한 지식을 다른 분야의 문제를 풀 때 재활용하는 기법입니다. 사람도 자전거를 탈 줄 알면 오토바이를 더 빨리 배우듯, AI도 이미 학습된 모델의 지식을 새로운 문제에 전이(transfer)합니다.

딥러닝에서 전이 학습은 구체적으로 다음을 의미합니다.

[대규모 데이터로 사전 학습된 모델]
        ↓ (모델 가져오기)
[내 작은 데이터로 추가 학습]
        ↓
[내 문제에 특화된 모델 완성]

2.2 왜 전이 학습이 필요한가?

2.2.1 처음부터 학습하면 얼마나 걸릴까? — 시간·비용·데이터 문제

GPT-3를 처음부터 학습시키는 데 필요한 비용을 추산하면 약 460만 달러(약 60억 원) 이상이 필요하고, 학습 시간만 수개월이 걸립니다. 이미지 분류 모델인 ResNet도 ImageNet 데이터셋(120만 장)으로 처음부터 학습하면 고성능 GPU로도 며칠이 걸립니다.

일반 개발자나 스타트업이 이를 처음부터 감당하는 것은 사실상 불가능합니다.

2.2.2 현실에서 대부분의 AI 개발은 전이 학습으로 이루어진다

현재 기업들이 AI 서비스를 만드는 방식의 90% 이상은 전이 학습입니다. 구글, 메타, OpenAI 같은 빅테크가 만들어 공개한 사전 학습 모델을 가져와 자신의 데이터로 파인튜닝하는 방식이 표준이 되었습니다.

2.3 일반 학습 vs 전이 학습 비교

구분	일반 학습 (처음부터)	전이 학습
시작점	무작위 초기값	사전 학습된 모델
필요 데이터	수백만~수십억 건	수천~수만 건도 가능
학습 시간	수일~수개월	수시간~수일
비용	매우 높음 (GPU 수백 대)	낮음 (GPU 1~수 대)
성능	데이터 충분하면 최상	대부분의 경우 충분히 높음
적합한 상황	완전히 새로운 도메인, 빅테크	일반 기업·개인 개발자

3. 전이 학습의 3가지 방식

3.1 특징 추출 (Feature Extraction)

개념 - 특징 추출

사전 학습 모델의 앞쪽 레이어(특징 추출 부분)는 그대로 고정(freeze) 하고, 맨 뒤의 출력층만 내 문제에 맞게 교체해 학습하는 방식입니다.

[사전 학습 모델]
  레이어 1 (선·모서리 감지)  ← 🔒 고정
  레이어 2 (형태 감지)       ← 🔒 고정
  레이어 3 (복잡한 특징)     ← 🔒 고정
  출력층                   ← 🔄 교체 후 학습

어떤 상황에 적합한가? - 특징 추출

내 데이터가 매우 적을 때 (수백~수천 건)
사전 학습 모델의 도메인과 내 문제의 도메인이 비슷할 때
빠른 시간 안에 결과물이 필요할 때

3.2 파인튜닝 (Fine-tuning)

개념 - 파인튜닝

사전 학습 모델의 일부 또는 전체 레이어를 내 데이터로 다시 학습 시키는 방식입니다. 특징 추출보다 모델이 내 데이터에 더 깊게 적응합니다.

전체 파인튜닝 vs 부분 파인튜닝

구분	전체 파인튜닝	부분 파인튜닝
학습 범위	모든 레이어 재학습	뒤쪽 레이어만 재학습
필요 데이터	많이 필요	적어도 가능
학습 시간	김	짧음
성능	더 높을 수 있음	데이터 적을 때 안정적

어떤 상황에 적합한가? - 파인튜닝

내 데이터가 충분히 있을 때 (수만 건 이상)
사전 학습 모델의 도메인과 내 문제가 다소 다를 때
최고 성능을 원할 때

3.3 도메인 적응 (Domain Adaptation)

개념 - 도메인 적응

학습한 도메인(소스 도메인)과 실제 적용할 도메인(타깃 도메인)이 다를 때, 타깃 도메인에 맞게 모델을 적응시키는 방식입니다.

예시:
일반 이미지로 학습한 모델 (소스 도메인)
        ↓ 도메인 적응
의료 X-ray 이미지에 맞게 조정 (타깃 도메인)

실생활 예시

영어 텍스트로 학습한 모델을 한국어에 적응
낮 환경 이미지로 학습한 모델을 야간 환경에 적응
일반 문서로 학습한 모델을 법률 문서에 특화

4. 사전 학습 모델(Pre-trained Model)의 종류

4-1. 자연어 처리(NLP) 분야

BERT (Google, 2018)

Bidirectional Encoder Representations from Transformers — 문장을 양방향으로 읽어 문맥을 깊이 이해하는 모델입니다. 텍스트 분류, 감성 분석, 질의응답에 특화되어 있습니다.

특징: 문장의 앞뒤를 동시에 보며 각 단어의 의미를 파악
활용: 검색 엔진 의미 이해, 문서 분류, 챗봇 의도 파악

GPT 시리즈 (OpenAI)

텍스트를 왼쪽에서 오른쪽으로 읽으며 다음 단어를 예측 하는 방식으로 학습합니다. 텍스트 생성 에 특화되어 있습니다. (4편에서 자세히 다룸)

T5 (Google, 2019)

Text-to-Text Transfer Transformer — 모든 NLP 문제를 "텍스트 입력 → 텍스트 출력" 형태로 통일해 처리하는 모델입니다.

번역: "translate Korean to English: 안녕하세요" → "Hello"
요약: "summarize: [긴 문서]" → "[요약문]"
분류: "classify: 이 리뷰는 긍정인가?" → "긍정"

한국어 특화 모델

모델	개발사	특징
KoBERT	SKT	BERT를 한국어 데이터로 사전 학습
HyperCLOVA	Naver	한국어 특화 초거대 언어 모델
KoGPT	Kakao	한국어 텍스트 생성 특화

4-2. 이미지 처리(Computer Vision) 분야

VGG16 / VGG19 (Oxford, 2014)

옥스퍼드 대학교가 개발한 모델로, 3×3 합성곱 필터를 16~19겹 깊게 쌓은 구조입니다. 구조가 단순하고 이해하기 쉬워 전이 학습 입문에 많이 사용됩니다.

✅ 구조 단순, 이해 쉬움
❌ 모델 크기가 크고 무거움 (약 528MB)

ResNet (Microsoft, 2015)

잔차 연결(Residual Connection) 이라는 혁신적인 구조를 도입해, 100층 이상의 매우 깊은 네트워크도 안정적으로 학습할 수 있게 만들었습니다.

잔차 연결이란?
레이어를 통과한 출력 + 원본 입력 → 합산
→ 기울기 소실 문제 해결
→ 매우 깊은 네트워크 학습 가능

✅ 깊은 구조에서도 안정적 학습
✅ 다양한 변형(ResNet-50, ResNet-101) 선택 가능

EfficientNet (Google, 2019)

모델의 깊이·너비·해상도를 균형 있게 스케일링 해 적은 파라미터로 높은 성능을 냅니다. 성능 대비 연산 효율이 가장 좋아 실무에서 많이 사용됩니다.

✅ 작은 모델로 높은 성능 → 모바일·엣지 디바이스에 적합

ViT (Vision Transformer, Google, 2020)

이미지를 패치(조각) 단위로 분할 해 Transformer 구조로 처리합니다. 대규모 데이터에서 CNN을 능가하는 성능을 보입니다.

5. 파인튜닝 실전 가이드

5-1. 파인튜닝 전체 프로세스

파인튜닝은 아래 6단계 프로세스로 진행됩니다.

[Step 1] 문제 정의
        내가 풀고 싶은 문제는 무엇인가?
        (이미지 분류? 텍스트 감성 분석? 챗봇?)
              ↓
[Step 2] 사전 학습 모델 선택
        이미지 → ResNet, EfficientNet, ViT
        텍스트 → BERT, GPT, KoBERT
              ↓
[Step 3] 데이터 준비 및 전처리
        수집 → 정제 → 레이블링 → 학습/검증/테스트 분할
              ↓
[Step 4] 모델 구조 수정
        출력층을 내 문제의 클래스 수에 맞게 교체
              ↓
[Step 5] 학습 진행
        학습률·에포크·배치 크기 설정 후 학습
              ↓
[Step 6] 성능 평가 및 배포
        정확도·F1 스코어 등으로 평가 후 배포

5-2. 파인튜닝 핵심 하이퍼파라미터

하이퍼파라미터 란 학습 전 사람이 직접 설정하는 값들입니다. 이 값들을 잘 조정하는 것이 파인튜닝 성능을 좌우합니다.

학습률 (Learning Rate)

가중치를 얼마나 크게 조정할지 결정하는 값입니다.

학습률이 너무 크면 → 최적값을 지나쳐 버림 (발산)
학습률이 너무 작으면 → 학습이 너무 느림

파인튜닝 시 권장: 사전 학습보다 작은 학습률 사용
(일반 학습: 0.01 → 파인튜닝: 0.0001 수준)

에포크 (Epoch)

전체 학습 데이터를 몇 번 반복해서 학습할지를 나타냅니다.

에포크가 너무 적으면 → 덜 학습됨 (과소적합)
에포크가 너무 많으면 → 훈련 데이터에만 맞춰짐 (과적합)

배치 크기 (Batch Size)

한 번에 처리할 데이터 수입니다. 배치가 클수록 학습이 안정적이지만 메모리 사용량이 늘어납니다.

과적합 방지 기법

기법	설명
Dropout	학습 중 일부 뉴런을 랜덤으로 비활성화 → 특정 패턴에 과도하게 의존하지 않도록
Early Stopping	검증 성능이 더 이상 향상되지 않으면 학습 조기 종료
Data Augmentation	이미지 회전·반전·색상 변경 등으로 데이터 수 인위적으로 늘리기

5-3. LLM 파인튜닝 특수 기법

대형 언어 모델(LLM)은 크기가 너무 커서 일반적인 파인튜닝이 어렵습니다. 이를 해결하기 위한 특수 기법들이 있습니다.

LoRA (Low-Rank Adaptation)

원본 모델의 가중치는 고정하고, 매우 작은 크기의 추가 행렬만 학습하는 방법입니다. 전체 파인튜닝 대비 학습 파라미터를 10,000배 이상 줄이면서 비슷한 성능을 냅니다.

비유: 전체 건물을 리모델링하는 대신
      필요한 방 하나만 인테리어를 바꾸는 것

✅ 일반 GPU(RTX 3090 수준)로도 대형 모델 파인튜닝 가능
✅ 원본 모델 손상 없이 여러 LoRA를 붙였다 뗐다 가능
실제로 Stable Diffusion의 스타일 커스터마이징이 LoRA로 이루어짐

RLHF (Reinforcement Learning from Human Feedback)

사람이 AI의 응답에 직접 좋아요/싫어요 피드백 을 주고, 이를 강화학습에 활용해 더 유용하고 안전한 응답을 하도록 학습시키는 방법입니다. ChatGPT가 단순한 GPT와 달리 자연스럽고 안전하게 대화하는 비결이 바로 RLHF입니다.

[Step 1] 사람이 여러 응답 중 가장 좋은 것 선택
[Step 2] 선택 패턴으로 보상 모델(Reward Model) 학습
[Step 3] 보상 모델 점수를 강화학습으로 극대화
[Step 4] 더 인간 친화적인 응답 생성

RAG (Retrieval-Augmented Generation)

모델 자체를 파인튜닝하지 않고, 질문에 관련된 외부 문서를 실시간으로 검색해 답변에 활용 하는 방식입니다.

일반 GPT:
질문 → GPT 내부 지식으로만 답변
→ 최신 정보 모름, 할루시네이션 위험

RAG 적용:
질문 → [관련 문서 검색] → 검색 결과 + 질문을 GPT에 입력 → 답변
→ 최신 정보 반영 가능, 정확도 향상

✅ 모델 재학습 없이 최신 지식 반영 가능
✅ 기업 내부 문서 기반 챗봇 구축에 최적
실제로 많은 기업 AI 서비스가 RAG + GPT 조합으로 만들어짐

6. 실생활 전이 학습 활용 사례

6.1 의료 — 소량의 X-ray 데이터로 폐렴 진단 모델 구축

의료 영상 데이터는 전문가가 직접 레이블링해야 해서 양이 매우 적습니다. 전이 학습 없이는 AI 모델 구축이 거의 불가능합니다. ImageNet으로 사전 학습된 ResNet을 가져와 수천 장의 폐렴 X-ray 데이터로 파인튜닝하면, 처음부터 학습하는 것보다 훨씬 높은 정확도 를 달성합니다.

6.2 제조업 — 공장 불량품 비전 검사 모델

공장마다 불량 패턴이 다르고, 불량품 데이터는 구하기 어렵습니다. CNN 기반 사전 학습 모델을 가져와 해당 공장의 불량품 이미지 수백 장으로 파인튜닝하면 수일 내에 현장 배포 가능한 비전 검사 모델 을 구축할 수 있습니다.

💡 비전 검사 소프트웨어 개발 경험이 있다면 이 방식이 특히 실용적입니다!

6.3 커머스 — 상품 이미지 자동 분류

수십만 개의 상품 이미지를 카테고리별로 자동 분류하는 시스템입니다. EfficientNet을 파인튜닝해 쿠팡·11번가 같은 커머스 플랫폼에서 상품 등록 자동화에 활용합니다.

6.4 챗봇 — 기업 전용 고객 응대 챗봇 (GPT 파인튜닝 + RAG)

GPT-4를 기업 내부 FAQ, 제품 매뉴얼, 정책 문서와 함께 RAG 방식으로 연결하면 처음부터 개발하지 않아도 기업 전용 챗봇 을 수주 내에 구축할 수 있습니다.

6.5 금융 — 특정 도메인 문서 분석 모델

금융 보고서, 계약서, 공시 문서 등 전문 용어가 많은 텍스트를 처리하는 AI입니다. 일반 BERT보다 금융 도메인 텍스트로 파인튜닝된 FinBERT 같은 모델이 훨씬 높은 성능을 냅니다.

7. 전이 학습의 한계와 주의점

7.1 부정적 전이 (Negative Transfer) — 잘못된 모델 선택의 부작용

사전 학습 모델의 도메인과 내 문제의 도메인이 너무 다르면 오히려 성능이 나빠질 수 있습니다.

❌ 나쁜 예:
음성 데이터로 학습된 모델을 의료 이미지 분류에 사용
→ 기존 가중치가 방해가 되어 처음부터 학습하는 것보다 못한 결과

모델 선택 시 "사전 학습 데이터와 내 데이터가 얼마나 유사한가" 를 반드시 고려해야 합니다.

7.2 데이터 편향 승계 문제

사전 학습 모델에 내재된 편향(Bias)이 그대로 전이 될 수 있습니다. 4편에서 다룬 생성형 AI의 편향 문제와 같은 맥락입니다. 파인튜닝 데이터 자체도 편향이 없는지 점검해야 합니다.

7.3 사전 학습 모델 라이선스 확인의 중요성

오픈소스로 공개된 사전 학습 모델이라도 라이선스 종류에 따라 상업적 이용이 제한될 수 있습니다.

라이선스 종류	상업적 이용
Apache 2.0	✅ 자유롭게 가능
MIT	✅ 자유롭게 가능
CC BY-NC	❌ 비상업적 용도만 가능
독자 라이선스	🔍 개별 확인 필요

반드시 모델 공식 페이지에서 라이선스를 확인 하고 사용하세요.

8. 시리즈 최종 마무리

8.1 5편 핵심 3줄 요약

전이 학습 은 이미 잘 만들어진 AI 모델을 내 목적에 맞게 재활용하는 기법으로, 현실 AI 개발의 표준이다
방식은 크게 특징 추출 / 파인튜닝 / 도메인 적응 세 가지이며, 데이터 양과 도메인 유사도에 따라 선택한다
LoRA, RLHF, RAG 같은 최신 기법을 활용하면 적은 자원으로도 대형 모델을 내 목적에 맞게 활용할 수 있다

8.2 시리즈 전체 개념 최종 정리 다이어그램

5편에 걸쳐 배운 모든 개념을 한 장으로 정리합니다.

🟦 AI (인공지능) — 기계가 인간처럼 생각하게 만드는 모든 기술
│
└── 🟨 머신러닝 — 데이터로 스스로 학습하는 방법론
     │
     ├── 학습 방식
     │    ├── 지도 학습 (정답 있음)
     │    ├── 비지도 학습 (정답 없음)
     │    └── 강화 학습 (보상으로 학습)
     │
     ├── 알고리즘 (2편)
     │    ├── 회귀, 분류, 군집화, 차원 축소, 연관 규칙
     │
     └── 🟥 딥러닝 — 신경망 기반 머신러닝
          │
          ├── 신경망 구조 (3편)
          │    ├── DNN (기본 다층 신경망)
          │    ├── CNN (이미지·영상)
          │    ├── RNN / LSTM (텍스트·시계열)
          │    ├── GAN (데이터 생성)
          │    └── Transformer (현대 AI 핵심)
          │
          └── 응용 분야
               ├── NLP, Computer Vision
               ├── 생성형 AI (4편)
               │    ├── GPT (텍스트 생성)
               │    ├── DALL·E / Stable Diffusion (이미지)
               │    └── Sora, Suno (영상·음악)
               │
               └── 전이 학습 / 파인튜닝 (5편) ← 지금 여기
                    ├── 특징 추출
                    ├── 파인튜닝 (LoRA, RLHF)
                    └── RAG