딥러닝 신경망 구조 정리 (CNN, RNN, Transformer)

CNN·RNN·Transformer | 이미지는 CNN, 텍스트는 RNN, 현대 AI는 Transformer가 처리한다

2026.04.10

Deep LearningCNNRNNTransformerNeural Network

0. 시리즈

제목
1편AI, 머신러닝, 딥러닝 차이점 개념 정리
2편머신러닝 알고리즘 종류 정리
3편⬅️딥러닝 신경망 구조 정리 (CNN, RNN, Transformer)
4편생성형 AI란? GPT, DALL·E, Stable Diffusion 비교
5편전이 학습이란? 실전 파인튜닝 가이드

1. 들어가며

1.1 이 글은 누가 읽으면 좋을까?

[1편]에서 딥러닝이 "인간 뇌의 신경망을 모방한 구조" 라는 것을 배웠고, [2편]에서는 머신러닝 알고리즘의 종류를 살펴봤습니다. 이번 3편에서는 딥러닝의 핵심인 신경망 구조의 종류 를 하나씩 파헤칩니다. CNN, RNN, GAN, Transformer — 이름은 들어봤지만 각각 무엇이 다른지 헷갈렸다면, 이 글 하나로 완전 정리됩니다.

1.2 신경망 구조란 무엇인가? — "뇌의 설계도"

집을 지을 때 설계도에 따라 구조가 달라지듯, 딥러닝도 어떤 구조로 신경망을 설계하느냐 에 따라 잘 처리할 수 있는 데이터와 문제가 달라집니다. 이미지를 잘 다루는 구조가 있고, 텍스트를 잘 다루는 구조가 따로 있습니다. 이것이 바로 신경망 구조를 공부해야 하는 이유입니다.

1.3 이 글을 읽으면 알 수 있는 것

  • 인공신경망(ANN)의 기본 구조
  • CNN, RNN, LSTM, GAN, Transformer의 원리와 특징
  • 각 구조가 어떤 문제에 적합한지
  • 실생활에서 어디에 쓰이는지

2. 인공신경망(ANN) 기초 — 딥러닝의 뿌리

2.1 뉴런이란? — 인간 뇌 신경세포 구조 이해

인간의 뇌는 약 860억 개 의 뉴런(신경세포)으로 이루어져 있습니다. 각 뉴런은 다른 뉴런으로부터 신호를 받고, 그 신호가 일정 강도 이상이면 다음 뉴런으로 신호를 전달합니다. 이 연결과 신호 전달의 패턴이 바로 학습이자 기억 입니다.

2.2 인공 뉴런(퍼셉트론)이란?

인공 뉴런은 이 과정을 수학적으로 모방합니다. 여러 입력값(x)을 받아 가중치(w)를 곱하고 더한 뒤, 활성화 함수 를 통과시켜 출력값을 냅니다.

입력값(x1, x2, x3)
    × 가중치(w1, w2, w3)
    → 합산(Σ)
    → 활성화 함수
    → 출력값(y)

가중치(w)가 클수록 해당 입력이 결과에 더 큰 영향을 미칩니다. 딥러닝 학습의 핵심은 바로 이 가중치를 최적의 값으로 조정하는 과정 입니다.

2.3 층(Layer)의 개념 — 입력층 / 은닉층 / 출력층

신경망은 여러 층(layer)으로 구성됩니다.

역할
입력층 (Input Layer)원본 데이터를 받아들이는 첫 번째 층
은닉층 (Hidden Layer)데이터에서 패턴을 추출하는 중간 층 (여러 개 존재)
출력층 (Output Layer)최종 결과(예측값)를 출력하는 마지막 층

2.4 "딥(Deep)"이 붙는 이유 — 층이 깊을수록 강력해진다

은닉층이 2개 이상 으로 깊게 쌓이면 딥러닝이라고 부릅니다. 층이 깊어질수록 더 추상적이고 복잡한 패턴 을 학습할 수 있습니다.

예시: 이미지 인식
1층 → 선(edge) 감지
2층 → 모서리·곡선 감지
3층 → 눈, 코, 귀 같은 부위 감지
4층 → "이것이 고양이다" 판단

3. DNN (Deep Neural Network) — 가장 기본적인 구조

3.1 DNN이란?

DNN(Deep Neural Network) 은 입력층과 출력층 사이에 2개 이상의 은닉층 을 가진 가장 기본적인 딥러닝 구조입니다. 흔히 다층 퍼셉트론(MLP, Multi-Layer Perceptron) 이라고도 부릅니다.

3.2 활성화 함수란?

각 뉴런의 출력에 적용하는 수학 함수로, 비선형 패턴 을 학습할 수 있도록 해줍니다. 활성화 함수가 없으면 아무리 층을 쌓아도 단순 선형 연산에 불과합니다.

활성화 함수특징주로 사용하는 위치
ReLU0 이하는 0, 0 이상은 그대로 출력. 가장 많이 사용은닉층
Sigmoid출력을 0~1 사이로 압축. 확률 표현에 적합이진 분류 출력층
Softmax여러 클래스의 확률 합이 1이 되도록 변환다중 분류 출력층

3.3 DNN의 학습 방식 — 순전파 & 역전파

순전파 (Forward Propagation)
입력 → 은닉층1 → 은닉층2 → 출력 → 예측값

역전파 (Backpropagation)
예측값 vs 정답 → 오차 계산 → 역방향으로 가중치 수정
  • 순전파: 데이터를 앞 방향으로 통과시켜 예측값 생성
  • 역전파: 예측값과 실제 정답의 오차를 뒤 방향으로 전달해 가중치를 조금씩 수정
  • 이 과정을 수천~수백만 번 반복하며 점점 정확해집니다

3.4 장점과 한계

  • 장점: 구조가 단순하고, 정형 데이터(표, 엑셀 형태)에 잘 맞음
  • 한계: 이미지·텍스트처럼 구조적 데이터에는 비효율적. 픽셀 위치 관계나 단어 순서를 고려하지 못함

3.5 실생활 예시

  • 금융 사기 탐지
  • 고객 이탈 예측
  • 보험 청구 심사

4. CNN (Convolutional Neural Network) — 이미지의 전문가

4.1 CNN이란?

CNN(합성곱 신경망) 은 이미지와 영상 데이터를 처리하기 위해 설계된 딥러닝 구조입니다. 인간이 사물을 볼 때 전체를 한꺼번에 보는 것이 아니라 부분부분을 훑으며 특징을 파악하는 방식 을 수학적으로 모방했습니다.

4.2 왜 이미지에 강한가? — 공간 구조를 유지하는 학습

일반 DNN에 이미지를 입력하면 2D 픽셀 정보를 1D 배열로 펼쳐서 처리하기 때문에 픽셀 간의 위치 관계(공간 정보) 가 사라집니다. CNN은 이미지를 2D 그대로 유지하면서 처리해 공간 구조를 보존합니다.

4.3 핵심 구조 설명

합성곱 층 (Convolutional Layer) — 특징 추출

작은 필터(커널)를 이미지 위에서 슬라이딩하며 특징 맵(Feature Map) 을 생성합니다.

비유: 돋보기로 사진을 조금씩 훑으며
      "이 부분에 선이 있다", "여기에 곡선이 있다"
      는 특징 지도를 만드는 과정
  • 초반 층: 선, 모서리, 색상 등 단순한 특징 감지
  • 후반 층: 눈, 코, 귀 등 복잡한 특징 감지

풀링 층 (Pooling Layer) — 데이터 압축

특징 맵의 크기를 줄여 연산량을 줄이고 중요한 특징만 남깁니다. 가장 많이 쓰이는 Max Pooling은 특정 영역에서 가장 큰 값만 남깁니다.

예시: 4x4 픽셀 → Max Pooling → 2x2 픽셀로 압축
      (크기는 절반, 핵심 특징은 유지)

완전 연결 층 (Fully Connected Layer) — 최종 분류

추출된 특징을 기반으로 최종 분류 결과 를 출력합니다. 일반 DNN 구조와 동일한 방식으로 작동합니다.

4.4 장점과 한계

  • 장점: 이미지의 공간 구조를 효과적으로 학습, 이동·회전·크기 변화에 강인
  • 한계: 대량의 학습 데이터 필요, 순서가 있는 데이터(텍스트, 시계열)에는 부적합

4.5 실생활 예시

  • 스마트폰 얼굴 잠금 해제
  • 의료 X-ray·MRI 이상 탐지
  • 자율주행 도로·신호등 인식
  • 공장 불량품 비전 검사 (비전 검사 장비에 실제 적용되는 기술!)
  • 인스타그램·스냅챗 AR 필터

5. RNN (Recurrent Neural Network) — 순서 데이터의 전문가

5.1 RNN이란?

RNN(순환 신경망)순서(sequence)가 있는 데이터 를 처리하기 위해 설계된 구조입니다. 이전 단계의 출력을 다음 단계의 입력으로 다시 사용하는 "순환(Recurrent)" 구조가 핵심입니다.

5.2 왜 순서 데이터에 강한가? — 이전 정보를 기억하는 구조

일반 DNN은 각 입력을 독립적으로 처리합니다. 하지만 언어나 시계열 데이터는 앞뒤 맥락이 중요 합니다.

예시: "나는 밥을 ___"
→ 앞 단어들을 기억해야 "먹었다"가 적절하다는 걸 알 수 있음

DNN: 각 단어를 따로따로 처리 → 문맥 파악 불가
RNN: 앞 단어의 정보를 기억하며 순서대로 처리 → 문맥 파악 가능
RNN 구조:

입력(x1) → [은닉 상태] → 출력(y1)
               ↓ (기억 전달)
입력(x2) → [은닉 상태] → 출력(y2)
               ↓ (기억 전달)
입력(x3) → [은닉 상태] → 출력(y3)

5.3 RNN의 한계 — 장기 의존성 문제

RNN은 먼 과거의 정보를 기억하는 능력이 약합니다. 시퀀스가 길어질수록 초반 정보가 점점 희미해지는 "기울기 소실(Vanishing Gradient)" 문제가 발생합니다.

예시: "나는 어제 서울에서 친구를 만났고, 같이 밥을 먹고,
      영화를 보고, 노래방도 갔는데, 정말 오랜만에 ___"
→ 문장이 길어질수록 "나는"을 기억하기 어려워짐

5.4 LSTM (Long Short-Term Memory) — RNN의 기억력 개선

LSTM이란?

RNN의 장기 의존성 문제를 해결하기 위해 등장한 개선 구조입니다. "무엇을 기억할지, 무엇을 잊을지"를 스스로 결정하는 게이트(Gate) 구조 가 핵심입니다.

핵심 구조 — 3가지 게이트

게이트역할비유
입력 게이트새 정보 중 무엇을 기억에 저장할지 결정새 메모 추가
망각 게이트기존 기억 중 무엇을 지울지 결정오래된 메모 삭제
출력 게이트현재 기억에서 무엇을 출력할지 결정필요한 메모 꺼내기
비유: 스마트한 메모장
→ 중요한 건 오래 기억하고
→ 불필요한 건 지우고
→ 필요할 때만 꺼내 쓰는 구조

5.5 GRU (Gated Recurrent Unit) — LSTM의 경량화 버전

LSTM의 게이트 구조를 단순화 해 연산량을 줄인 버전입니다. 망각 게이트와 입력 게이트를 하나로 합쳐 더 빠르게 학습 합니다. 성능은 LSTM과 비슷하면서 속도는 더 빠릅니다.

5.6 장점과 한계

  • 장점: 순서·맥락이 있는 데이터 처리에 탁월
  • 한계: 시퀀스를 순서대로 처리해야 해서 병렬 처리 불가 → 학습 속도 느림. Transformer 등장으로 자연어 처리 분야에서는 점점 대체되는 추세

5.7 실생활 예시

  • 파파고, 구글 번역 (초기 버전)
  • 주가·날씨 시계열 예측
  • 자동 자막 생성
  • 음성 인식 (Speech to Text)

6. GAN (Generative Adversarial Network) — 창조하는 AI

6.1 GAN이란?

GAN(생성적 적대 신경망) 은 2014년 이안 굿펠로우가 제안한 구조로, 두 개의 신경망이 서로 경쟁하며 점점 더 정교한 데이터를 생성하는 구조입니다.

6.2 핵심 아이디어 — 생성자 vs 판별자의 대결

🎨 생성자 (Generator): 가짜 데이터를 만들어내는 역할
🔍 판별자 (Discriminator): 진짜와 가짜를 구별하는 역할

두 모델이 서로 경쟁하며 발전합니다.

6.3 학습 과정 설명

[Step 1] 생성자 → 가짜 이미지 생성
[Step 2] 판별자 → 진짜/가짜 구별 시도
[Step 3] 판별자가 못 속으면 → 생성자가 더 정교하게 개선
[Step 4] 생성자에 잘 속으면 → 판별자가 더 예리하게 개선
[Step 5] 반복... → 결국 진짜와 구별 불가능한 수준의 가짜 생성
비유: 위조지폐범(생성자) vs 경찰(판별자)
→ 위조지폐범은 점점 더 정교한 지폐를 만들고
→ 경찰은 점점 더 예리하게 구별하려 하고
→ 서로 경쟁하며 둘 다 발전

6.4 장점과 한계

  • 장점: 실존하지 않는 완전히 새로운 데이터 생성 가능
  • 한계: 학습이 불안정하고 어려움. 생성자만 너무 강해지거나 판별자만 강해지는 모드 붕괴(Mode Collapse) 문제 발생 가능

6.5 실생활 예시

  • 딥페이크 영상 생성
  • AI 아트 — 존재하지 않는 사람 얼굴 생성 (ThisPersonDoesNotExist.com)
  • 패션·인테리어 디자인 시안 생성
  • 의료 데이터 증강 (희귀 질병 데이터 부족 문제 해결)

7. Transformer — 현대 AI의 핵심 구조

7.1 Transformer란?

Transformer는 2017년 구글이 발표한 논문 "Attention Is All You Need"에서 소개된 신경망 구조입니다. 오늘날 ChatGPT, BERT, 파파고 를 비롯한 대부분의 현대 AI 언어 모델의 기반 구조입니다.

7.2 왜 등장했나? — RNN의 한계 극복

RNN과 LSTM은 문장을 왼쪽부터 오른쪽으로 순서대로 처리해야 했습니다. 이 때문에 두 가지 문제가 있었습니다.

  • 속도 문제: 순서대로 처리하니 병렬화가 불가능 → 학습이 느림
  • 장거리 의존성 문제: 문장이 길면 앞 내용을 까먹음

Transformer는 이 두 문제를 어텐션 메커니즘 으로 동시에 해결했습니다.

7.3 핵심 개념 — 어텐션 메커니즘 (Attention Mechanism)

어텐션이란? — "중요한 단어에 집중하기"

문장의 모든 단어를 처리할 때 각 단어가 다른 단어들과 얼마나 관련 있는지 점수를 계산해, 중요한 단어에 더 많은 가중치를 부여합니다.

예시: "The animal didn't cross the street because it was too tired"
→ "it"이 무엇을 가리키는가?
→ 어텐션: "it"이 "street"보다 "animal"과 더 관련 높다고 계산
→ 정확한 문맥 이해 가능

셀프 어텐션 (Self-Attention)

문장 내 모든 단어가 서로를 참조 하며 관계를 파악합니다. RNN처럼 순서대로 처리하지 않고 한꺼번에 병렬 처리 할 수 있어 속도가 압도적으로 빠릅니다.

비유: 회의에서 한 명씩 발언하는 것(RNN)이 아니라
      모든 참석자가 동시에 서로의 말을 듣고
      중요한 발언에 집중하는 것(Transformer)

7.4 Transformer 기반 대표 모델

BERT (Bidirectional Encoder Representations from Transformers)

구글이 2018년 발표한 모델로, 문장을 양방향(앞뒤 동시) 으로 읽어 문맥을 이해합니다. 텍스트 이해·분류 에 특화되어 있습니다.

활용: 검색엔진 의미 이해, 문서 분류, 감성 분석

GPT 시리즈 (Generative Pre-trained Transformer)

OpenAI가 개발한 모델로, 텍스트를 왼쪽에서 오른쪽으로 읽으며 다음 단어를 예측하는 방식으로 학습합니다. 텍스트 생성 에 특화되어 있습니다.

버전특징
GPT-1 (2018)최초 공개, 1.17억 파라미터
GPT-2 (2019)15억 파라미터, 텍스트 생성 성능 주목
GPT-3 (2020)1,750억 파라미터, 사실상 범용 언어 모델
GPT-4 (2023)멀티모달(텍스트+이미지) 지원, ChatGPT 기반

ViT (Vision Transformer)

이미지를 패치(조각) 단위로 나눠 Transformer 구조에 적용한 모델입니다. CNN 없이도 이미지 인식이 가능하며, 대규모 데이터에서 CNN을 능가하는 성능을 보입니다.

7.5 장점과 한계

  • 장점: 병렬 처리로 학습 속도가 빠름, 장거리 의존성 문제 해결, 대규모 사전 학습 후 다양한 task에 적용 가능
  • 한계: 모델 크기가 매우 커서 엄청난 연산 자원(GPU) 필요. 짧은 데이터보다 긴 문서에서 강점 발휘

7.6 실생활 예시

  • ChatGPT, Claude, Gemini (텍스트 생성·대화)
  • 파파고, DeepL (기계 번역)
  • GitHub Copilot (코드 자동 완성)
  • 유튜브·넷플릭스 자막 자동 생성

8. 신경망 구조 비교 — 어떤 상황에 어떤 구조를?

8.1 전체 신경망 구조 비교표

구조특기 데이터핵심 아이디어대표 활용
DNN정형 데이터 (표)다층 퍼셉트론금융 예측, 분류
CNN이미지·영상합성곱 필터로 공간 특징 추출얼굴 인식, 의료 영상, 비전 검사
RNN/LSTM텍스트·시계열순서대로 기억하며 처리번역, 주가 예측, 자막
GAN이미지·음성생성자-판별자 경쟁 학습이미지 생성, 딥페이크
Transformer텍스트·이미지어텐션 기반 병렬 처리ChatGPT, 번역기, Copilot

8.2 신경망 구조 선택 플로우차트

내 데이터 유형은?
│
├── 이미지·영상
│    └── → CNN (또는 ViT)
│
├── 텍스트·음성·시계열
│    ├── 데이터가 적고 간단하다
│    │    └── → RNN / LSTM
│    └── 데이터가 많고 복잡하다
│         └── → Transformer
│
├── 새로운 데이터를 생성하고 싶다
│    └── → GAN
│
└── 정형 데이터 (표, 엑셀 형태)
     └── → DNN 또는 머신러닝 알고리즘 (2편 참고)

8.3 시대별 신경망 발전 흐름

딥러닝 구조는 문제를 해결하면서 계속 진화해왔습니다.

1980년대  →  DNN (다층 퍼셉트론 개념 등장)
1990년대  →  CNN (이미지 인식에 적용)
2000년대  →  RNN / LSTM (순서 데이터 처리)
2014년    →  GAN (데이터 생성 가능)
2017년    →  Transformer (어텐션 메커니즘)
2018년~   →  BERT, GPT 시리즈 (대규모 언어 모델)
2022년~   →  ChatGPT, 생성형 AI 대중화

9. 최종 정리 및 다음 편 예고

3편 핵심 3줄 요약

  • CNN: 이미지를 조각내어 특징을 추출 → 이미지·영상 처리의 표준
  • RNN/LSTM: 순서를 기억하며 처리 → 텍스트·시계열 데이터 전문
  • Transformer: 모든 단어를 동시에 비교해 중요한 것에 집중 → 현대 AI의 핵심 엔진