Chapter 1. AI 모델: 생성형 AI부터 모델 최적화까지

이번 챕터에서는 AI 모델의 전체 흐름을 하나의 맥락으로 살펴봅니다. (**추가) 먼저 생성형 AI가 무엇이고 기존 AI와 어떻게 다른지 정의한 뒤, 생성형 AI의 핵심 엔진인 **LLM(대규모 언어 모델)**과 Foundation Model의 구조와 작동 원리를 이해합니다. 마지막으로, 이러한 모델을 실무에서 원하는 목적에 맞게 조정하는 Fine-Tuning(모델 최적화) 기법까지 다루어, "AI 모델이 만들어지고 → 작동하고 → 최적화되는" 전 과정을 한눈에 파악할 수 있도록 구성하였습니다. (**추가)

1 생성형 AI의 정의

1.1 생성형 AI란?

생성형 AI(Generative AI)란 텍스트, 이미지, 음악, 코드 등의 새로운 콘텐츠를 스스로 생성할 수 있는 인공지능 기술입니다. 기존의 AI가 데이터를 분석하고 분류하는 역할을 했다면, 생성형 AI는 새로운 데이터를 만들어내는 능력을 갖춘 것이 특징입니다.

생성형 AI 영역 예시

영역	설명	예시 모델
텍스트 생성	자연어 이해 및 생성, 문서 작성, 번역, 대화형 AI로 사람처럼 문장을 만들어 대화하거나 글을 씀	ChatGPT (GPT-4o), Claude (Claude 3.5 Sonnet/Opus), Gemini 2.0
이미지 생성	텍스트 입력을 바탕으로 고해상도 이미지 생성	DALL·E 3, Midjourney v6, FLUX.1
음악 생성	텍스트 입력을 기반으로 음악 작곡 및 편집	Suno AI, AIVA
영상 생성	텍스트, 이미지, 기존 영상 등의 입력 기반으로 영상 생성	Sora, Runway Gen-3, Pika 2.0, Google Veo 2

1.2 기존 AI와의 차이점

기존 AI와 생성형 AI는 근본적인 기능과 활용 방식에서 차이가 있습니다. 기존 AI는 데이터를 분석하고 패턴을 찾아내는 데 초점을 맞추지만, 생성형 AI는 학습한 패턴을 기반으로 새로운 콘텐츠를 생성하는 데 특화되어 있습니다.

[표. 기존 AI vs. 생성형 AI]

구분	기존 AI	생성형 AI
주요 기능	데이터 분석, 예측, 분류, 탐색	새로운 콘텐츠 생성
작동 원리	주어진 데이터를 바탕으로 특정 규칙을 학습하여 결과 도출	학습한 데이터의 패턴을 활용해 새로운 데이터를 생성
학습 방식	지도 학습 (Supervised Learning), 비지도 학습 (Unsupervised Learning), 강화 학습 (Reinforcement Learning)	다양한 학습 방식을 조합하여 학습 (지도 학습 + 비지도 학습 + 강화 학습 + 생성적 학습)
출력 결과	기존 데이터의 패턴을 분석해 답변 (예측, 분류, 추천)	기존 데이터의 패턴을 기반으로 새로운 데이터 생성
활용 예시	스팸 필터, 추천 시스템, 음성 인식, 사기 탐지	텍스트 생성, 이미지 생성, 음악 생성
한계점	새로운 데이터 생성 불가능, 정형화된 작업 수행	생성된 데이터의 정확성 검증 필요, 가짜 정보 생성 가능

쉽게 말하면? 기존 AI는 고양이 사진을 입력하면 "고양이" 라고 판별하지만, 생성형 AI는 "고양이 사진을 만들어줘" 라고 요청하면 고양이 이미지를 만들어 응답할 수 있습니다. 이렇게 생성형 AI는 기존 AI보다 창의적이고 새로운 방식으로 문제를 해결하는 능력을 가졌기 때문에, 업무 자동화, 콘텐츠 제작, 고객 응대 등 다양한 분야에서 혁신을 일으키고 있습니다.

1.3 생성 모델(Generative Model)이란?

생성 모델은 단순히 데이터를 분류하거나 예측하는 것이 아니라 새로운 데이터를 만들어내는 모델입니다.

1.4 생성모델의 종류

생성모델은 다양한 방식으로 데이터를 생성하며, 각 모델은 서로 다른 원리를 기반으로 동작합니다. 대표적인 생성모델의 종류와 특징을 살펴보겠습니다.

생성 모델에는 Transformer, Diffusion, GAN이 가장 널리 사용되며, 최신 AI 기술의 핵심을 이루고 있습니다. 이 외에도 Variational Autoencoder(VAE), Autoregressive Model, Flow-based Model과 같은 생성 모델이 존재하며, 특정 연구 및 응용 분야에서 활용됩니다.

모델명	설명	동작 방식	예제
Transformer 기반 모델 (GPT, DALL·E 등)	문맥을 이해하고, 새로운 텍스트나 이미지를 생성하는 모델	Transformer 모델은 입력된 데이터를 여러 단계로 분석하며, 문맥을 이해하여 새로운 내용을 생성합니다.	- 텍스트 생성: GPT-4o/GPT-o1이 문장을 이해하고 새로운 문장을 만들어냄 - 이미지 생성: DALL·E가 텍스트 설명을 보고 그림을 그림 - ChatGPT: 자연스러운 문장을 생성 - DALL·E: 텍스트를 기반으로 새로운 이미지 생성
Diffusion 모델 (Stable Diffusion 3.5, FLUX.1 등)	이미지를 점진적으로 개선하며 새로운 그림을 생성하는 방식	Diffusion 모델은 처음에는 랜덤한 노이즈(흐릿한 이미지)에서 시작해서 점차 선명한 이미지로 발전하는 방식을 사용합니다.	- Stable Diffusion: 다양한 스타일의 그림을 생성 - Imagen 3 (Google DeepMind): 텍스트를 기반으로 고품질 이미지 생성 - FLUX.1 (Black Forest Labs): Flow Matching 기반의 최신 이미지 생성 모델 - AI 사진 보정: 흐릿한 사진을 선명하게 변환
GAN (Generative Adversarial Network, 생성적 적대 신경망)	두 개의 신경망이 경쟁하면서 더 정교한 데이터를 생성하는 모델	GAN은 생성자(Generator)와 판별자(Discriminator)라는 두 개의 신경망이 서로 경쟁하며 학습합니다.	- 딥페이크(DeepFake): 실제 사람처럼 보이는 가짜 얼굴 생성 - AI 아트: 기존 화풍을 학습하여 새로운 그림 생성 - 패션 디자인: 새로운 옷 디자인 생성

GAN의 동작 원리:

생성자 → 진짜 같은 데이터를 생성하려고 노력
판별자 → 생성된 데이터가 진짜인지 가짜인지 판별
둘이 계속 경쟁하면서(적대적 학습) 생성자는 점점 더 정교한 데이터를 만들어냄

Diffusion 모델의 특징:

노이즈를 점점 제거하면서 정교한 이미지를 만들어냄
GAN보다 자연스럽고 고해상도의 이미지를 생성 가능

Transformer 기반 모델은 텍스트 및 이미지 생성에서 가장 중요한 역할을 하고 있는 모델입니다.

(*수정) 최근에는 Diffusion 모델이 GAN을 사실상 대체하였으며, GAN은 특수 용도(실시간 이미지 변환 등)에서만 제한적으로 사용되고 있습니다. [출처: Papers with Code, "Diffusion Models vs GANs", 2024]

1.5 State Space Models (SSM) (**추가)

Transformer의 대안으로 부상한 새로운 아키텍처인 **State Space Models (SSM)**이 주목받고 있습니다. 대표적인 모델인 Mamba는 선형 시간 복잡도(Linear-Time)로 동작하여, Transformer 대비 긴 시퀀스 처리에서 효율적입니다.

핵심 특징: 입력 데이터에 따라 선택적으로 정보를 처리하는 Selective State Space 메커니즘 사용
장점: 긴 시퀀스(수만~수십만 토큰)를 효율적으로 처리 가능, Transformer 대비 메모리/연산 효율성 우수
한계: 아직 Transformer 기반 모델 대비 생태계와 검증 사례가 제한적

[출처: Gu & Dao, "Mamba: Linear-Time Sequence Modeling with Selective State Spaces", arXiv:2312.00752]

1.6 생성형 AI의 활용 사례

생성형 AI는 다양한 산업에서 실질적인 가치를 제공하며 빠르게 발전하고 있습니다. 텍스트를 자동으로 생성하거나, 번역을 돕고, 코드를 작성하는 등 여러 작업을 AI가 지원하고 있는데요, 그렇다면 구체적으로 어떤 분야에서 어떻게 활용되고 있을까요?

1) 텍스트 생성 -- 자동으로 글을 작성하는 AI

블로그 및 기사 작성: AI가 초안을 작성하면 사용자는 내용을 다듬는 작업만 진행. 뉴스 기사, 마케팅 콘텐츠 등 다양한 콘텐츠 제작 가능
광고 문구 자동 생성: 짧고 강렬한 광고 카피를 AI가 추천
(*수정) 활용 서비스: ChatGPT, Jasper AI, Copy.ai, Notion AI, Writesonic [출처: 각 서비스 공식 사이트]

2) 코드 작성 -- 개발자 업무 효율화

코드 자동 생성: 개발자가 작성 중인 코드의 다음 줄을 AI가 예측하고 자동 완성
코드 리뷰 및 버그 수정: AI가 코드의 오류를 분석하고 개선점을 제안
(*수정) 활용 서비스: GitHub Copilot, Cursor, Claude Code [출처: github.com/features/copilot, cursor.com, Anthropic]

3) 질문 답변(Q&A) -- 고객 응대 및 정보 검색 보조

고객 상담 및 지원: AI 챗봇이 고객 문의에 실시간으로 답변 제공
검색 엔진 강화: 사용자의 질문에 맞춰 최적의 정보를 제공
활용 서비스: ChatGPT API, IBM watsonx Assistant

4) 번역 -- 다국어 지원 강화

실시간 번역 지원: 여러 언어로 텍스트를 번역하여 글로벌 커뮤니케이션 가능
문맥을 고려한 자연스러운 번역: 기존 번역기보다 자연스럽고 정확한 번역 제공
활용 서비스: Google Translate, DeepL

5) 문서 요약 -- 긴 글을 핵심만 정리

보고서 및 논문 요약: 긴 문서를 짧고 핵심적인 내용으로 자동 요약
이메일 요약: 받은 편지함을 빠르게 정리하고 주요 내용만 확인
(*수정) 활용 서비스: ChatGPT, NotebookLM, Claude (SMMRY는 서비스 종료) [출처: Google NotebookLM (notebooklm.google)]

6) 의료 및 법률 -- 전문 분야에서의 AI 활용

의료 데이터 분석: 환자의 건강 데이터를 분석하여 진단 및 치료 보조
법률 문서 해석: 긴 법률 문서를 분석하고 주요 내용을 정리
(*수정) 활용 서비스: IBM watsonx, Harvey AI, CoCounsel (IBM Watson Health는 2022년 매각, ROSS Intelligence는 2021년 폐업) [출처: ABA Journal, 2021.01; IBM, 2022.01]

SI 기업 관점의 생성형 AI 활용 사례 (**추가)

SI(시스템 통합) 기업에서 생성형 AI를 활용하는 주요 사례는 다음과 같습니다.

코드 리뷰 자동화: AI가 코드 변경 사항을 분석하여 버그, 보안 취약점, 코딩 표준 위반을 자동으로 탐지
테스트 케이스 생성: 요구사항 문서나 코드를 분석하여 테스트 시나리오와 테스트 코드를 자동 생성
RFP(제안요청서) 응답 생성: 과거 제안서와 기술 자료를 기반으로 RFP에 대한 초안을 자동 작성
Legacy 시스템 현대화: 기존 COBOL, VB 등 레거시 코드를 최신 언어(Java, Python 등)로 변환하는 데 AI 활용

1.7 생성형 AI의 윤리적 이슈

생성형 AI는 다양한 분야에서 혁신적이 가능성을 열어주지만, 동시에 여러 윤리적/법적 문제를 동반하고 있습니다. AI 기술이 더욱 발전하고 보편화 될수록, 이러한 문제에 대한 해결책 마련이 필수적입니다.

1) 저작권 문제

생성형 AI가 학습하는 과정에서 기존의 저작권이 있는 콘텐츠를 활용할 가능성이 있으며, 생성된 결과물의 저작권 문제도 해결되지 않은 주요 이슈

AI가 생성한 콘텐츠의 저작권 소유권: AI가 만든 그림, 음악, 글의 저작권이 AI 개발자에게 있는지, 사용자에게 있는지, 아니면 공공재인지 논란이 있음.
저작권 침해 가능성: AI가 특정 작가의 스타일을 모방한 결과물을 만들 경우, 원저작자의 권리를 침해할 가능성이 있음.

2) 악용 가능성

허위정보 및 가짜 뉴스 생성: AI는 매우 자연스러운 텍스트를 생성할 수 있어 가짜 뉴스나 허위 정보를 만들어내는 데 사용될 가능성이 큼.
딥페이크 기술: GAN 기반의 딥페이크 기술은 실제와 구분하기 어려운 가짜 영상을 만들어 정치적 선전, 사기 등에 악용될 위험이 있음.
사이버 범죄 활용: AI를 이용한 피싱 이메일, 악성 코드 생성 등이 증가하고 있으며, 보안 위협 요소로 작용할 수 있음.

3) 개인정보 보호

AI 학습 데이터 내 개인정보 포함 가능성: AI가 학습하는 데이터에 민감한 개인정보가 포함될 경우, 데이터 유출 등의 문제가 발생할 수 있음.
데이터 보호 규정과의 충돌: (*수정) GDPR, CCPA 등의 개인정보 보호법 외에도, 한국 인공지능 기본법(2026.01.22 시행, 법률 제20985호)과 EU AI Act(2024.08 발효, Regulation 2024/1689)가 시행되어 AI 개발 및 활용에 대한 법적 규제가 구체화되고 있음.

4) 소유권 문제

AI 생성물의 법적 소유권 불분명: AI가 만든 콘텐츠의 소유권이 누구에게 있는지에 대한 명확한 법적 기준이 없으며, 이는 향후 법률적으로 해결해야 할 중요한 문제 중 하나임.
기업과 개인 간의 소유권 논란: 기업이 AI를 개발했더라도, AI가 사용자 입력을 통해 생성한 콘텐츠의 소유권이 누구에게 귀속되는지가 명확하지 않음.

1.8 생성형 AI 관련 법규 (**추가)

1.8.1 한국 인공지능 기본법 (2026.01.22 시행)

법률 제20985호로 제정된 한국 최초의 AI 전담 법률
고위험 AI 시스템에 대한 영향평가 의무화
AI 개발·운영 시 투명성 확보 및 이용자 보호 의무 명시
AI 산업 육성과 규제의 균형을 목표로 함

1.8.2 EU AI Act (2024.08 발효)

AI 시스템을 위험도에 따라 4단계로 분류: 금지(Unacceptable), 고위험(High-risk), 제한적 위험(Limited Risk), 최소 위험(Minimal Risk)
고위험 AI 시스템에 대한 적합성 평가, 데이터 거버넌스, 인간 감독 요구
위반 시 최대 전 세계 매출의 7% 또는 3,500만 유로 벌금 부과 가능

[출처: 한국 인공지능 기본법 (법률 제20985호); EU AI Act (Regulation 2024/1689)]

1.8.3 SI 기업의 AI 거버넌스 의무

AI 시스템 개발/납품 시 관련 법규 준수 여부 확인 필수
고위험 AI 프로젝트의 경우 영향평가 보고서 작성 및 제출 의무
고객사의 AI 거버넌스 체계 구축 컨설팅 역량 확보 필요

1.9 2026년 생성형 AI 시장 현황 (**추가)

1.9.1 글로벌 시장 규모

생성형 AI 시장은 2025년 기준 약 670억 달러 규모로 추정되며, 2030년까지 연평균 30% 이상의 성장이 예상됩니다. [출처: Gartner, "Generative AI Market Forecast 2025"; McKinsey, "The state of AI in 2025"]

1.9.2 한국 시장 특성

한국은 IT 인프라와 디지털 전환 역량을 바탕으로 생성형 AI 도입이 빠르게 진행되고 있습니다. 한국형 LLM 개발이 활발하며, 대표적으로 다음과 같은 모델이 있습니다.

NAVER HyperCLOVA X: 네이버에서 개발한 한국어 특화 대규모 언어 모델로, 한국어 이해 및 생성 성능이 우수함
Samsung Gauss: 삼성전자에서 개발한 온디바이스(On-device) AI 모델로, 텍스트·코드·이미지 생성을 지원함

생성형 AI의 정의와 활용, 윤리적 이슈까지 살펴보았습니다. 이러한 생성형 AI의 핵심 엔진이 바로 **대규모 언어 모델(LLM)**입니다. 이제 LLM이 무엇인지, 그리고 이를 포괄하는 Foundation Model의 개념을 알아보겠습니다. (**수정)

2 LLM과 Foundation Model

2.1 LLM(Large Language Model)이란?

**LLM(대규모 언어 모델, Large Language Model)**은 사람처럼 자연어를 이해하고 생성할 수 있는 인공지능(AI) 모델입니다. 방대한 양의 텍스트 데이터를 학습하여 문장의 구조와 의미를 파악하고, 주어진 입력(Context)에 적합한 단어나 문장을 예측하는 방식으로 동작합니다.

쉽게 말해, LLM은 많은 글을 읽고 패턴을 학습한 AI 작가입니다. 질문에 답하거나, 글을 요약하고, 번역하는 등 다양한 자연어 처리 작업을 수행할 수 있습니다.

(*수정) 대표적인 LLM에는 OpenAI의 GPT-4o, Anthropic의 Claude 3.5, Meta의 LLaMA 3.1/3.2, Google의 Gemini 2.0, DeepSeek V3/R1 등이 있습니다. [출처: 각 모델 공식 문서]

LLM은 확률적 언어 모델을 기반으로, 주어진 단어 다음에 올 확률이 높은 단어를 예측하여 문장을 만들어 갑니다. 예를 들어, "오늘 날씨가"라는 입력이 주어지면, "좋아요" 또는 "추워요" 같은 단어를 선택할 가능성이 높습니다. 즉, 단순히 단어를 나열하는 것이 아니라, 문맥(Context)을 고려하여 가장 자연스럽고 의미 있는 문장을 생성합니다.

LLM을 깊이 이해하려면, 이를 구성하는 핵심 요소들을 살펴볼 필요가 있습니다. 하지만 그 전에, LLM이 속하는 더 넓은 개념인 Foundation Model을 먼저 알아보겠습니다.

2.2 Foundation Model이란?

Foundation Model은 방대한 양의 데이터로 사전 학습(Pretraining)된 범용 AI 모델을 의미합니다. 이 모델은 특정 작업에 국한되지 않고, 다양한 용도로 활용될 수 있도록 설계됩니다.

LLM은 이러한 Foundation Model의 한 종류로, 자연어를 이해하고 생성하는 데 특화된 형태입니다.

2.2.1 Foundation Model의 핵심 특징

(1) 범용성 (Generalization)

한 가지 작업만 수행하는 것이 아니라, 다양한 자연어 처리(NLP) 작업에 활용될 수 있습니다. 예를 들어, OpenAI의 GPT 모델은 단순한 문장 생성뿐만 아니라 요약, 번역, 질의응답 등 여러 작업을 수행할 수 있습니다.

(2) 사전 학습(Pretraining)과 미세 조정(Fine-tuning)

사전 학습: 거대한 데이터셋을 기반으로 일반적인 언어 지식과 패턴을 학습되어 있습니다. 따라서 기본적인 언어 능력을 미리 갖춘 상태에서 활용되어 다양한 작업에 쉽게 적용될 수 있습니다.
미세 조정을 통해 특정 데이터(예: 법률 문서, 의료 논문)로 추가 학습하여, 해당 분야에서 더 정확하고 신뢰도 높은 결과를 생성할 수 있습니다.

즉, FM은 한 번의 대규모 학습 후, 다양한 산업과 용도에 맞게 쉽게 변형할 수 있는 확장성을 가지고 있습니다.

(3) 대량 데이터 기반 학습

일반적으로 수백억 개의 단어 또는 문장을 학습하여 방대한 언어 지식을 보유합니다. 이를 통해 사람과 유사한 수준의 문맥 이해와 자연스러운 문장 생성을 수행할 수 있습니다.

과거의 AI 모델은 특정한 작업을 위해 개별적으로 설계되고 훈련되었습니다. 하지만 Foundation Model의 등장으로 하나의 강력한 모델을 기반으로 다양한 AI 솔루션을 개발할 수 있는 길이 열렸습니다.

2.3 Foundation Model과 LLM의 관계

LLM은 자연어를 처리하는 Foundation Model의 대표적인 예시입니다. Foundation Model에는 LLM뿐만 아니라 이미지 생성 AI(예: Stable Diffusion 3.5, FLUX.1), 음성 인식 AI(예: Whisper), 코드 생성 AI(예: GPT-4o Codex) 등도 포함됩니다.

따라서 모든 LLM은 Foundation Model이지만, 모든 Foundation Model이 LLM은 아닙니다.

이제 LLM의 내부 구조와 작동 방식을 좀 더 깊이 이해하기 위해, LLM을 구성하는 핵심 요소들을 살펴보겠습니다.

2.4 LLM의 핵심 요소

LLM은 단순히 단어를 나열하는 것이 아니라, 입력된 텍스트를 토큰 단위로 변환하고(Context), 방대한 매개변수를 활용해 패턴을 학습하며(Parameter), 최근에는 텍스트뿐만 아니라 다양한 형태의 데이터까지 처리할 수 있도록 발전(Multimodal)하고 있습니다.

이제 LLM을 구성하는 네 가지 주요 요소를 하나씩 살펴보겠습니다.

2.4.1 Token (토큰)

토큰이란?

Token(토큰)은 LLM이 텍스트 데이터를 처리할 수 있도록 나누는 최소 단위입니다. 사람은 단어와 문장을 읽고 이해하지만, LLM은 이를 직접 이해하지 못하기 때문에 텍스트를 작은 조각(토큰)으로 분리하여 수치화된 데이터로 변환해야하고 이것을 토큰화라고 합니다.

참고: Chat GPT 모델 Tokenizer 실행해보기

토큰의 특징

토큰은 반드시 단어 단위가 아니다.
- 단어 하나가 여러 개의 토큰으로 쪼개질 수도 있고, 반대로 여러 단어가 하나의 토큰이 될 수도 있음
- 단어(Word), 서브워드(Subword), 문자(Character) 등 다양한 방식으로 나뉠 수 있음
같은 문장이라도 토큰화 방식에 따라 토큰 개수가 달라진다
- 모델마다 사용하는 토큰화 방식이 다르기 때문에, 같은 문장이라도 생성되는 토큰 수가 다를 수 있음
- 이는 모델 성능, 비용, 처리 속도 등에 영향을 미침
토큰 수가 많을수록 비용과 연산량이 증가한다.
- LLM은 토큰 단위로 계산하므로, 입력과 출력의 토큰 수가 많아지면 연산량이 커지고, 비용도 증가함

이제 토큰을 나누는 다양한 방식과 그 원리를 살펴보겠습니다.

토큰화(Tokenization) 방식

토큰화를 수행하는 방식에는 여러 가지가 있으며, 모델의 학습 방식과 성능에 직접적인 영향을 미칩니다.

방식	설명	장점	단점	예시
Word-level (단어 기반 토큰화)	공백이나 문장 부호를 기준으로 단어를 분리하는 방식	단어 단위로 의미를 쉽게 파악 가능	언어마다 단어의 형태가 다르기 때문에 OOV(Out-Of-Vocabulary, 사전에 없는 단어)를 처리하기 어려움. 언어별 특성 고려 필요	"I love AI" → ["I", "love", "AI"], "나는 인공지능을 좋아해" → ["나는", "인공지능을", "좋아해"]
Character-level (문자 기반 토큰화)	문장을 개별 문자(Character) 단위로 분리하는 방식	모든 텍스트를 처리할 수 있어 OOV(Out-Of-Vocabulary, 사전에 없는 단어) 문제 없음	너무 작은 단위로 나뉘어 문맥을 이해하는 데 비효율적	"AI" → ["A", "I"], "인공지능" → ["인", "공", "지", "능"]
Subword-level (서브워드 기반 토큰화)	가장 일반적으로 사용되는 방식. 단어의 빈도에 따라 자주 사용되는 단어는 그대로 유지하고, 드문 단어는 더 작은 단위로 분할하는 방법	자주 쓰이는 단어는 유지하면서 새로운 단어도 처리 가능	토큰화 과정이 복잡하고 계산량이 많음	"Artificial" → ["Art", "ificial"], "Unhappiness" → ["Un", "happiness"]

대부분의 최신 LLM은 서브워드 기반 토큰화를 사용하여 효율적인 학습과 추론을 수행합니다.

2.4.2 Context (문맥)

Context란?

Context(문맥)란, 텍스트 내에서 단어나 문장이 사용되는 환경과 그 의미를 결정하는 요소로, 주어진 문장에서 앞뒤 단어들의 관계, 문장의 흐름, 심지어 대화의 맥락까지 포함합니다.

LLM은 개별적인 단어(토큰)만 보는 것이 아니라, 주어진 Context를 고려하여 적절한 출력을 생성합니다.

예를 들어, 다음 문장을 생각해보겠습니다.

"나는 오늘 아침에 ㅇㅇ를 마셨다." → 가능한 단어: "커피", "차", "우유"
"나는 오늘 아침에 ㅇㅇ를 탔다." → 가능한 단어: "지하철", "버스", "자전거"

같은 위치에 들어갈 단어라도 앞뒤 문맥에 따라 적절한 단어가 달라집니다. LLM은 바로 이 문맥을 이해하고 적절한 단어를 예측하는 방식으로 동작합니다. 의미 있는 문장을 생성하고, 질문과 답변의 일관성을 유지하기 위해서 Context가 중요합니다.

Context Window(맥락 창 크기)와 모델 성능

Context Window란?

Context Window는 LLM이 한 번의 요청에서 처리할 수 있는 최대 토큰 개수를 의미합니다. Context Window가 클수록 한 번에 더 많은 텍스트를 LLM에게 입력할 수 있지만, 계산 비용이 증가하는 단점도 있습니다.

Context Window가 성능에 미치는 영향

Context Window가 작은 경우
- 긴 대화나 문서를 처리할 때, 모델이 앞의 내용을 자르거나 무시하게 되어 정보가 누락될 수 있음
- (*수정) 예를 들어 과거 모델의 토큰 제한이 4K(4,096)이었다면 앞부분만 이해하고 뒷부분은 무시될 수 있었으나, 현재 모델들은 128K~2M 토큰을 지원하여 이러한 제약이 크게 완화되었음.
Context Window가 큰 경우
- 더 많은 정보를 기억할 수 있지만, 계산 비용이 증가하여 응답 속도가 느려질 수 있음.
- 더 많은 토큰을 처리하려면 메모리 사용량과 연산량이 급증하므로, 고성능 GPU가 필요함.

최신 모델들은 더 많은 토큰을 처리할 수 있도록 발전하고 있으며, 이를 통해 더욱 자연스럽고 일관된 문장을 생성할 수 있습니다.

(*수정) [표. 주요 LLM의 Context Window 비교 (2026년 기준)]

모델	Context Window	출시
GPT-4o	128K tokens	2024.05
Claude 3.5 Sonnet	200K tokens	2024.06
Gemini 2.0	2M tokens	2024.12
LLaMA 3.1	128K tokens	2024.07
DeepSeek R1	128K tokens	2025.01

[출처: 각 모델 공식 문서 (openai.com, anthropic.com, deepmind.google, ai.meta.com, deepseek.com)]

2.4.3 Parameter (매개변수)

Parameter란?

AI 모델은 훈련하면서 많은 문장을 보고 단어 간의 관계와 패턴을 학습합니다. 이때, 배운 내용(패턴과 지식)을 저장하는 숫자 값이 바로 **파라미터(Parameter)**이며, 모델의 성능을 결정하는 핵심 요소입니다.

예를 들어, AI가 "하늘이 파랗다"와 "바다는 파랗다"라는 문장을 많이 학습하면, "파랗다"는 "하늘"이나 "바다" 같은 단어와 자주 연결된다는 패턴을 배우게 되고, 이런 관계를 수학적으로 저장하는 값이 파라미터입니다.

참고: 모델명 옆에 75B, 7B 등으로 적혀있는 것이 파라미터 수입니다. (B는 10억)

LLM은 학습 과정에서 수십억~수조 개의 매개변수(Parameters)를 최적화하여 언어를 학습합니다. 모델별로 매개변수의 수는 다르며, 매개변수의 수가 많을수록 일반적으로 모델의 성능이 향상되지만, 연산량과 메모리 사용량이 증가합니다.

매개변수의 역할

단어 간 연관성 학습: 매개변수는 단어와 단어 사이의 관계를 학습하여 의미 있는 문장을 생성하는 데 기여합니다. 예를 들어, "파란 하늘"과 "푸른 하늘"이 같은 의미임을 학습한 모델은, 문맥에 따라 적절한 단어를 선택할 수 있습니다.
문맥을 고려한 적절한 단어 예측
다양한 언어 및 스타일 이해: 매개변수가 많을수록 더 많은 데이터에서 학습할 수 있기 때문에, 다양한 언어와 글쓰기 스타일을 이해하고 적용할 수 있습니다. 예를 들어, 모델이 소설 스타일, 뉴스 기사, 코드 작성 등 다양한 문체를 구별할 수 있는 이유도 매개변수 학습 덕분입니다.

2.4.4 Multimodal (멀티모달)

기존의 LLM은 텍스트 데이터만 처리하는 방식이었지만, 최근에는 이미지, 음성, 코드 등 다양한 데이터를 함께 이해하고 생성할 수 있는 멀티모달(Multimodal) 모델이 발전하고 있습니다.

멀티모달 모델은 단순한 자연어 처리 능력을 넘어, 시각적 정보와 음성 데이터를 결합하여 더 풍부한 이해와 응용이 가능하도록 설계됩니다.

멀티모달 AI는 왜 중요할까?

인간은 텍스트뿐만 아니라, 시각적 정보, 청각적 정보 등을 종합하여 세상을 이해합니다. 기존 LLM은 텍스트만 처리할 수 있었기 때문에 이미지 기반 정보나 음성 데이터는 별도의 AI 모델이 요구 되었습니다.

=> 멀티모달 모델을 통해 AI가 텍스트, 이미지, 음성 등을 동시에 활용하여 더욱 정교한 응답을 생성할 수 있습니다.

멀티모달 사례

1) 텍스트 + 이미지 이해

모델이 텍스트와 이미지를 동시에 분석하고 의미를 해석할 수 있음.

AI가 이미지를 보고 설명을 생성하는 이미지 캡셔닝(Image Captioning)
문서를 스캔하고 내용을 이해하는 OCR(광학 문자 인식)
사용자가 그림을 보여주면 해당 그림에 대한 설명을 제공

2) 텍스트 + 음성 처리

AI가 음성을 인식하고 이를 텍스트로 변환하거나, 음성을 직접 이해하고 응답 생성이 가능함.

음성을 텍스트로 변환하는 음성 인식 AI (예: OpenAI Whisper)
텍스트를 자연스러운 음성으로 변환하는 TTS (Text-to-Speech)
AI가 사람의 음성을 듣고 문맥을 이해하여 자연스럽게 응답하는 음성 비서(Alexa, Siri 등)

3) 텍스트 + 영상(비디오) 분석

AI가 영상 데이터를 분석하고, 장면을 요약하거나 의미를 해석하는 능력을 갖춤.

동영상 속 장면을 요약하고 설명 생성 (예: Google Gemini)
CCTV 영상에서 특정 사건 감지 (예: 교통 사고 탐지)

2.5 LLM이 언어를 이해하고 생성하는 방식

대규모 언어 모델(LLM)이 자연스럽게 문장을 생성할 수 있는 이유는 문맥을 이해하는 Transformer라는 구조와 확률 기반 단어 선택(Sampling) 기법 덕분입니다.

Transformer는 문장을 효과적으로 분석하여 문맥을 이해하고, Sampling 기법은 확률적으로 단어를 선택해 더욱 자연스럽고 다양한 문장을 생성하도록 합니다.

이제, Transformer가 어떻게 동작하는지 그리고 LLM이 단어를 생성하는 방법(Sampling 기법)에 대해 살펴보겠습니다.

2.5.1 Transformer

Transformer란?

Transformer는 LLM이 문장을 이해하고 생성하는 데 사용하는 핵심 신경망 구조입니다. 기존의 모델들이 문장을 단어 하나하나 순차적으로 처리하는 방식이었다면, Transformer는 한 문장 내의 모든 단어를 동시에 분석하여 문맥을 이해하는 방식을 사용합니다.

이 방식을 통해 Transformer는:

더 빠르게 텍스트를 처리하고,
문맥을 더 정확하게 반영하며,
더 길고 복잡한 문장을 자연스럽게 생성할 수 있습니다.

Transformer의 동작 방식

Transformer는 일반적으로 인코더와 디코더로 구성되지만, 모델에 따라 인코더만 사용하거나 디코더만 사용하는 방식도 있습니다.

1) 인코더(Encoder) -- 입력 문장을 이해하는 역할
- 인코더는 입력된 문장을 토큰 단위로 변환한 후, 각 단어의 의미와 문맥을 분석합니다.
- 예를 들어, "나는 커피를 마셨다."라는 문장이 주어졌을 때, 인코더는 "나는", "커피를", "마셨다" 각각의 단어가 문장에서 어떤 의미를 가지는가를 학습합니다.
2) 디코더(Decoder) -- 문장을 생성하는 역할
- 디코더는 인코더에서 처리한 정보를 바탕으로 새로운 문장을 생성합니다.
- 예를 들어, 번역 모델에서 "나는 커피를 마셨다."라는 문장을 입력하면, 디코더는 "I drank coffee."라는 문장을 생성할 수 있습니다.
- 이 과정에서 Transformer는 이전 단어와 문맥 정보를 기반으로 가장 적절한 단어를 선택하여 자연스러운 텍스트를 생성합니다.

Transformer가 왜 중요한가?

1) 빠른 연산 속도: Transformer는 병렬 처리가 가능하기 때문에, 기존 모델보다 훨씬 빠르게 텍스트를 처리할 수 있습니다. 특히 대량의 데이터를 학습해야 하는 LLM에서는 필수적인 구조입니다.
2) 긴 문맥을 더 잘 이해함: Transformer는 문장 내 모든 단어의 관계를 고려하기 때문에, 기존 방식보다 더 긴 문맥을 유지하고, 의미 있는 문장을 생성할 수 있습니다.
3) 다양한 AI 모델의 기반이 됨: (*수정) GPT-4o, Claude 3.5, LLaMA 3.1, Gemini 2.0 등 거의 모든 최신 AI 모델은 Transformer 구조를 기반으로 동작합니다. 특히 최신 모델들은 효율성을 높이기 위해 MoE(Mixture-of-Experts) 아키텍처를 채택하는 추세이며, 전체 파라미터 중 일부 전문가(Expert)만 활성화하여 연산 효율을 극대화합니다. [출처: Meta, "LLaMA 3.1", ai.meta.com; DeepSeek-R1 Technical Report]

즉, Transformer는 현대 자연어 처리(NLP)의 핵심 기술이라고 할 수 있습니다.

2.5.2 Sampling(샘플링) 기법

Transformer가 문맥을 이해하고 적절한 다음 단어를 예측하면, 이제 어떤 단어를 선택할 것인지 결정하는 과정이 필요합니다. 이 과정에서 Sampling(샘플링) 기법이 사용됩니다.

Sampling(샘플링)이란?

LLM은 문장을 생성할 때, 다음 단어가 될 가능성이 높은 여러 개의 후보를 예측한 후, 그중 하나를 선택합니다. 샘플링 기법을 사용하면 텍스트의 다양성과 창의성을 조절할 수 있습니다.

주요 샘플링 기법

1) Temperature Scaling (다양성 조절)

낮은 Temperature (0에 가까움)
- 모델이 가능성이 높은 단어를 선택하여 더 일관성 있는 결과 생성
- 사실적이고 정확한 정보를 제공해야 할 때 유용 (ex. 법률 문서 요약, 의료 정보 제공)
높은 Temperature (1에 가깝거나 이상)
- 확률이 낮은 단어도 선택될 수 있어 더 다양한 응답 생성 가능
- 창의적인 결과를 원하는 경우 유용함 (ex. 마케팅 광고 카피 작성)

참고: 아래 그래프를 참고하세요. 각 단어가 선택될 확률을 보여주는 그래프입니다. 가장 왼쪽의 Temperature가 가장 낮은 그래프이고, Temperature가 낮을 수록 단어간 선택 확률 차이가 커져 선택되는 단어가 거의 확정적입니다.

2) Top-k Sampling (상위 k개 중 선택)

모델이 예측한 확률이 높은 k개의 단어 중 하나를 무작위로 선택하는 방식

예를 들어 top-k를 5로 설정하면:
- "오늘 날씨가"라는 입력이 주어졌을 때,
- 모델이 가장 확률이 높은 5개 단어를 선택하고("좋다", "덥다", "춥다", "흐리다", "비온다"),
- 그중 하나를 랜덤하게 선택함
k 값이 작으면? → 더 일관된 결과를 생성 (일관성 증가)
k 값이 크면? → 더 다양한 결과를 생성
일반적인 AI 챗봇에서는 40~50을 많이 사용합니다.

3) Top-p Sampling (누적 확률 기반 선택)

확률이 높은 단어부터 순서대로 더하면서, 누적 확률이 p%를 초과하면 나머지 단어들은 제거하는 방식
Top-k보다 더 유연하게 작동하며, 문맥에 맞는 단어를 더 다양하게 선택할 수 있음
0.9가 일반적으로 가장 많이 사용됩니다.

2.6 LLM 최적화 기법 개요

LLM을 더욱 효과적으로 활용하기 위해서는 단순히 모델을 사용하는 것만으로는 충분하지 않습니다. 특정한 목적이나 상황에 맞춰 모델의 출력을 최적화하는 방법이 필요하며, 이를 위한 대표적인 세 가지 기법을 알아보겠습니다.

2.6.1 프롬프트 엔지니어링(Prompt Engineering)

같은 모델에 질문 하더라도 어떻게 질문(프롬프트)을 작성하느냐에 따라 출력이 크게 달라질 수 있습니다. 프롬프트 엔지니어링은 LLM이 더 정확하고 원하는 방식으로 응답을 생성하도록 입력을 최적화하는 기법입니다.

알아두기
프롬프트를 구조화하거나 구체적인 예시를 포함시키면 모델의 응답 품질이 향상됨
단순한 질문보다는 맥락과 조건을 명확히 제시하는 것이 효과적
Few-shot Learning, Chain-of-Thought 등 다양한 프롬프트 기법이 존재

예시

일반적인 프롬프트: "커피가 건강에 좋은 이유는?"
최적화된 프롬프트: "과학적 연구를 기반으로 커피가 건강에 미치는 긍정적인 영향을 설명하고, 관련된 논문이나 연구 결과를 인용하여 요약해줘."

프롬프트 엔지니어링에 대한 더 자세한 내용은 Ch.2 Prompt Engineering에서 다룹니다. (**수정)

2.6.2 RAG (Retrieval-Augmented Generation, 검색 증강 생성)

LLM은 훈련된 데이터만을 기반으로 응답을 생성하기 때문에, 최신 정보나 특정한 도메인 지식을 포함하기 어렵습니다. **RAG (Retrieval-Augmented Generation)**는 검색(Retrieval)과 생성(Generation)을 결합하여 LLM이 외부 데이터베이스에서 관련 정보를 찾아 활용할 수 있도록 하는 기법입니다.

알아두기
LLM이 직접 학습하지 않은 외부 정보를 검색하여 답변의 정확성을 향상시킴
LLM을 재학습하지 않고도 새로운 정보를 추가하여 보다 유연한 응답 생성 가능

RAG를 포함한 Context Engineering에 대한 더 자세한 내용은 Ch.3 Knowledge & Context Engineering에서 다룹니다. (**수정)

2.6.3 파인튜닝(Fine-Tuning) 개요

파인튜닝은 기본적으로 학습된 LLM을 특정한 도메인이나 목적에 맞게 추가 학습시키는 과정입니다. 이는 특정 분야(예: 의료, 법률, 금융 등)에서 더욱 정교하고 맞춤화된 응답을 얻기 위해 사용됩니다.

알아두기
모델이 특정한 데이터셋을 추가로 학습하여 특정한 스타일이나 도메인에 최적화됨
기업이나 연구 기관이 자체 데이터를 활용하여 맞춤형 AI를 개발할 때 주로 사용됨
작은 데이터로도 모델의 성능을 개선할 수 있는 방법이 존재(LoRA, Adapter 등 경량화 기법)

파인튜닝에 대한 더 자세한 내용은 바로 다음 섹션에서 상세히 다룹니다. (**수정)

생성형 AI 모델은 한계가 분명히 존재하며 그 중 대표적인 문제가 할루시네이션입니다. 이를 줄이기 위해 다양한 최적화 기법이 필요하고, 보다 정확한 정보를 얻기 위해 지속적인 개선이 중요합니다.

2.7 LLM의 한계

LLM은 자연어를 이해하고 생성하는 강력한 AI 기술이지만, 완벽하지 않으며 몇 가지 한계를 가지고 있습니다. 이러한 한계를 이해하고, 이를 극복하기 위한 방법을 고민하는 것이 LLM을 효과적으로 활용하는 데 중요한 요소입니다.

1) 할루시네이션 (Hallucination)

LLM은 입력된 데이터에 기반해 확률적으로 가장 적절한 단어를 예측하여 문장을 생성합니다. 하지만 때때로 사실이 아닌 정보, 존재하지 않는 개념, 잘못된 내용을 마치 진짜인 것처럼 생성하는 현상이 발생하는데, 이를 **할루시네이션(Hallucination)**이라고 합니다.

예시:

사용자: "세계에서 가장 긴 다리는?"
LLM: "세계에서 가장 긴 다리는 대한민국의 'X Bridge'이며, 길이는 50km입니다." (실제 존재하지 않는 다리)

이처럼 자신감 있게 틀린 정보를 생성하는 것이 할루시네이션의 핵심 문제입니다.

왜 할루시네이션이 발생할까?

LLM은 "이해"하는 것이 아니라 "패턴을 예측"하는 모델이기 때문입니다.
모델은 단순한 데이터 매칭이 아니라 확률적으로 가장 적절한 단어를 예측하는 방식으로 동작하고, 이 과정에서 사실과 다른 정보를 조합하여 "있을 법한" 문장을 생성할 수 있습니다.
학습 데이터의 한계: LLM은 기존 데이터에서 학습하기 때문에, 학습 데이터에 없는 정보는 유추해서 생성합니다.
- (*수정) 예를 들어, 2024년 이후의 정보를 학습하지 않은 모델은 최신 뉴스를 정확히 반영할 수 없습니다.

할루시네이션을 줄이는 방법

RAG(Retrieval-Augmented Generation, 검색 기반 생성) 기법: LLM이 응답을 생성할 때, 외부 데이터베이스나 실시간 검색을 참조하여 더 정확한 정보를 제공하는 방식입니다. 즉, 기존 LLM이 내부적으로 기억하는 데이터만 활용하는 것과 달리, RAG는 최신 정보나 추가적인 근거를 바탕으로 더 신뢰할 수 있는 답변을 제공합니다.
**프롬프트 엔지니어링(Prompt Engineering)**과 **파인튜닝(Fine-Tuning)**도 할루시네이션을 줄이고 최적화하는 기법입니다.

2) Context Window의 제한

LLM은 한 번에 기억할 수 있는 정보의 양(Context Window)이 제한적입니다. 즉, 너무 긴 문서나 대화가 주어지면 초반 내용을 잊어버리고 응답을 생성할 수 있습니다.

예시:

사용자가 5000자 이상의 글을 입력하고 요약을 요청하면,
(*수정) LLM의 Context Window(예: 128K 토큰 모델 기준)를 초과하는 부분은 기억하지 못하고 무시됩니다. 다만, 현재 모델들은 128K~2M 토큰까지 지원하므로 대부분의 일반적인 문서는 처리가 가능합니다.
결과적으로, 중요한 정보가 빠진 요약이 생성될 가능성이 있습니다.

Context Window의 제한을 극복하는 방법

컨텍스트 압축 (Summarization & Chunking): 긴 문서를 요약하거나 분할하여 LLM이 효과적으로 처리할 수 있도록 함
더 큰 Context Window를 가진 모델로 교체: 더 큰 모델을 사용하면 컨텍스트 윈도우 제한을 극복할 수 있지만, 토큰 사용량이 많아질수록 비용이 증가하는 문제가 있기 때문에 적절한 모델에 선택에 대한 고려가 필요함

3) 데이터 편향 및 필터링

데이터 편향이란?

LLM은 인간이 만든 데이터를 학습하기 때문에, 특정한 관점이나 편향이 반영될 가능성이 존재합니다.

학습 데이터가 영어 위주라면, 비영어권 언어에 대한 이해도가 낮아질 수 있고,
특정 사회적, 정치적 의견이 더 많이 포함된 데이터로 학습되었다면, 모델의 응답도 편향될 수 있습니다.

예시:

가장 좋은 프로그래밍 언어가 무엇인가요?
→ LLM이 학습한 데이터가 특정 언어 중심이라면 실제로는 개발 목적에 따라 최적의 언어가 다름에도 LLM은 "Python이 최고의 언어입니다"와 같은 일방적인 답변을 줄 수 있습니다.

편향을 줄이는 방법

데이터 필터링 및 재학습: AI 연구자들은 중립적이고 공정한 데이터를 제공하기 위해 편향된 데이터를 걸러내고 수정하는 과정을 적용.
다양한 데이터 학습: 다양한 문화와 의견을 포함한 데이터를 학습하면, 특정 관점에 치우치지 않고 균형 잡힌 응답을 생성할 수 있음.
사용자의 비판적 사고 활용: LLM의 답변이 항상 객관적인 것이 아니므로, 사용자가 AI의 출처를 확인하고 비판적으로 접근하는 태도가 중요함.

4) 실시간 정보 부족 -- 최신 정보 반영의 어려움

대부분의 LLM은 사전에 학습된 데이터만을 기반으로 작동하는 "정적인" 모델입니다.

실시간 정보를 반영하는 방법

RAG(Retrieval-Augmented Generation) 적용: 외부 검색 시스템과 연결하여 최신 정보를 검색한 후 답변을 생성.
인터넷 연결이 가능한 AI 시스템 활용
프롬프트에 최신 데이터를 제공하는 방식: 사용자가 최신 정보를 입력한 후, AI에게 그 내용을 바탕으로 답변하도록 유도.

2.8 주요 LLM 비교표 (2026년 기준) (**추가)

모델	개발사	파라미터	Context Window	라이선스	주요 특징
GPT-4o	OpenAI	비공개	128K	상용 API	텍스트/이미지/음성 통합 멀티모달, 빠른 응답 속도
Claude 3.5 Sonnet/Opus	Anthropic	비공개	200K	상용 API	긴 문맥 처리, 안전성 중시, 코딩 성능 우수
Gemini 2.0	Google DeepMind	비공개	2M	상용 API	최대 Context Window, 멀티모달 네이티브
LLaMA 3.1 (405B)	Meta	405B	128K	오픈소스	최대 규모 오픈소스 모델, 연구/상용 모두 가능
DeepSeek R1	DeepSeek	671B (MoE)	128K	오픈소스	추론 특화, MoE 아키텍처로 효율적 연산

[출처: 각 모델 공식 문서]

2.9 MoE (Mixture-of-Experts) 아키텍처 (**추가)

**MoE(Mixture-of-Experts)**는 모델 내에 여러 개의 전문가(Expert) 네트워크를 두고, 입력에 따라 일부 전문가만 활성화하는 효율적인 아키텍처입니다.

핵심 원리: 게이팅 네트워크(Gating Network)가 입력 토큰에 따라 적합한 전문가를 선택하여 라우팅
장점: 전체 파라미터 수는 크지만 실제 연산에 사용되는 파라미터는 일부이므로, 적은 연산량으로 대규모 모델의 성능을 달성 가능
대표 모델: DeepSeek V3/R1 (671B 전체, 37B 활성화), Mixtral 8x7B (46.7B 전체, 12.9B 활성화)
활용 트렌드: 최신 LLM에서 비용 효율적인 스케일링을 위해 MoE 구조가 점점 더 많이 채택되고 있음

[출처: DeepSeek R1 Technical Report (deepseek.com); Mistral AI, "Mixtral of Experts" (arXiv:2401.04088)]

2.10 추론(Reasoning) 모델의 부상 (**추가)

2024~2025년에는 단순 언어 생성을 넘어, 복잡한 추론(Reasoning) 능력에 특화된 모델이 등장했습니다.

OpenAI o1/o3: 문제 해결 시 내부적으로 "사고의 사슬(Chain-of-Thought)"을 자동 수행하는 추론 특화 모델. 수학, 코딩, 과학 문제에서 전문가 수준의 성능 달성 [출처: OpenAI, "Learning to Reason with LLMs"]
DeepSeek R1: 강화학습(RL) 기반으로 추론 능력을 획득한 오픈소스 모델. 수학적 추론에서 GPT-4o에 필적하는 성능 달성 [출처: DeepSeek R1 Technical Report, Nature 2025]
Claude Extended Thinking: Anthropic의 확장된 사고 기능으로, 복잡한 분석과 추론 작업에서 단계별 사고 과정을 내부적으로 수행
의의: 추론 모델의 발전은 AI가 단순 지식 검색을 넘어 복잡한 문제 해결과 의사 결정을 지원할 수 있는 가능성을 열어줌

2.11 오픈소스 vs 상용 LLM 선택 가이드 (**추가)

SI 기업에서 LLM을 도입할 때, 오픈소스 모델과 상용 모델 중 적절한 선택이 필요합니다.

비교 항목	오픈소스 LLM	상용 LLM
대표 모델	LLaMA 3.1, DeepSeek R1, Mistral	GPT-4o, Claude 3.5, Gemini 2.0
데이터 보안	자체 인프라에서 운영 가능하여 데이터 유출 위험 최소화	외부 API 호출 시 데이터가 외부로 전송됨
비용 구조	인프라 비용(GPU 서버) 발생, API 비용 없음	API 호출 기반 종량제, 인프라 비용 없음
커스터마이징	모델 가중치 직접 수정 가능, `Fine-Tuning` 자유도 높음	API 기반 `Fine-Tuning`만 가능, 제한적
성능	최신 상용 모델 대비 다소 낮을 수 있으나, 빠르게 격차 감소 중	일반적으로 최고 수준의 성능 제공
유지보수	자체 운영팀 필요, 모델 업데이트를 직접 관리	제공사가 관리, 자동 업데이트

SI 기업 의사결정 프레임워크:

데이터 보안이 최우선인 경우 → 오픈소스 모델 자체 호스팅 권장
빠른 도입과 최소 운영 부담이 목표인 경우 → 상용 API 활용 권장
도메인 특화 모델이 필요한 경우 → 오픈소스 모델 Fine-Tuning 권장
하이브리드 전략: 내부 데이터 처리는 오픈소스, 일반 작업은 상용 API를 조합하여 비용과 보안의 균형을 맞추는 방식도 고려 가능

LLM의 구조, 작동 원리, 한계점까지 살펴보았습니다. 앞서 LLM 최적화 기법 개요에서 간략히 소개한 Fine-Tuning을 이제 본격적으로 다뤄보겠습니다. Fine-Tuning은 사전 학습된 모델을 특정 도메인과 목적에 맞게 재조정하여, 실무에서 최적의 성능을 이끌어내는 핵심 기법입니다. (**수정)

3 모델 최적화 - Fine-Tuning

3.1 Fine-Tuning이란?

**Fine-Tuning(파인 튜닝, 미세 조정)**은 사전 학습된 인공지능(AI) 모델을 특정한 목적에 맞게 추가 학습하는 과정입니다. 이 과정에서는 기존에 학습된 모델을 그대로 사용하는 것이 아니라, 새로운 데이터를 활용하여 모델의 일부 또는 전체를 조정함으로써 성능을 향상시킵니다.

Fine-Tuning을 수행하면 특정한 산업, 기업, 또는 애플리케이션에 맞춘 모델을 만들 수 있습니다. 예를 들어, 일반적인 대화형 AI 모델이 존재한다고 가정할 때, 이를 의료 상담, 법률 문서 요약, 또는 고객 서비스 자동화 등 특정 목적에 최적화하는 것이 Fine-Tuning입니다.

Fine-Tuning은 기존에 학습된 모델을 완전히 처음부터 다시 학습하는 것이 아니라, 기존 모델이 가지고 있는 지식을 활용하여 필요한 부분만 새롭게 조정하는 방식입니다. 따라서 완전한 재학습보다 더 적은 데이터와 적은 연산 비용으로도 성능을 향상시킬 수 있습니다.

앞서 살펴본 프롬프트 엔지니어링과 RAG도 특정 작업에 맞춰 AI의 출력을 조정할 수 있지만, Fine-Tuning은 모델 자체를 수정하여 특정 도메인과 작업에 최적화한다는 점에서 차이가 있습니다. (**수정)

RAG는 검색결과를 프롬프트에 추가하여 LLM이 응답 생성 시 참고 할 수 있도록 하는 방식이고, Fine-Tuning은 모델의 파라미터를 재학습하여 AI의 동작 자체를 변화시키는 방식입니다.

3.2 Fine-Tuning의 활용 목적

Fine-Tuning은 모든 상황에서 반드시 필요한 것은 아니지만, 특정한 목적을 위해 활용하면 모델의 성능을 더욱 최적화할 수 있는 강력한 방법입니다.

(1) 특정 도메인에 최적화된 모델 구축

일반적인 AI 모델은 광범위한 데이터를 학습하여 다양한 상황에서 작동할 수 있도록 만들어집니다. 하지만 특정한 산업이나 조직에서 사용할 경우, 일반 모델만으로는 충분한 성능을 발휘하기 어렵습니다.

예를 들어, 의료 분야에서 AI를 활용하여 진단을 내리는 경우, 일반적인 언어 모델보다 Fine-Tuning을 통해 의료 논문, 환자 기록, 의학적 지식을 학습한 모델이 훨씬 더 정확한 결과를 제공할 수 있습니다.

(2) 특정 작업(Task) 성능 개선

AI 모델은 기본적으로 다양한 작업을 수행할 수 있지만, 특정한 작업(예: 법률 문서 요약, 감정 분석, 코드 생성 등)에 최적화되지 않았을 수 있습니다. Fine-Tuning을 통해 특정 작업을 더 잘 수행하도록 모델을 조정할 수 있습니다.

예를 들어,

고객 상담 챗봇은 고객 응대 방식에 맞게 Fine-Tuning이 필요합니다.
번역 모델은 특정 언어 쌍(예: 한국어-프랑스어)에 특화하여 학습할 수 있습니다.
문서 요약 모델은 특정한 문서 유형(예: 계약서, 논문 등)에 맞춰 Fine-Tuning할 수 있습니다.

(3) 모델의 정확성과 일관성 향상

Fine-Tuning을 하면 AI 모델이 특정한 도메인이나 업무에 최적화되어 더 정확하고 일관된 결과를 생성할 수 있습니다.

기존의 사전 학습된 모델은 일반적인 지식을 바탕으로 답변을 생성하지만, 특정 기업의 내부 기준이나 전문적인 용어, 문서 형식을 반영하는 데 한계가 있을 수 있습니다. Fine-Tuning을 수행하면 이러한 특정 데이터를 학습하여 보다 일관성 있는 결과를 제공하고, 특정 작업의 성능을 향상시킬 수 있습니다.

예를 들어, 금융 데이터를 활용한 신용 평가 AI 모델을 만들고자 할 경우, Fine-Tuning을 통해 해당 기업의 내부 평가 기준과 과거 데이터를 학습시킬 수 있습니다. 이를 통해 기업의 정책에 맞는 보다 정밀한 신용 평가가 가능해집니다.

3.3 Fine-Tuning의 핵심 요소

Fine-Tuning을 효과적으로 수행하기 위해서는 적절한 접근 방식과 데이터 준비, 학습 설정 등이 필요합니다. Fine-Tuning의 성공 여부는 어떤 데이터를 사용하고, 어떤 방법으로 학습하며, 하이퍼파라미터를 어떻게 조정하는지에 따라 크게 달라집니다.

3.3.1 전이 학습(Transfer Learning)과 Fine-Tuning의 관계

Fine-Tuning은 전이 학습(Transfer Learning)의 한 형태로, 기존에 학습된 모델의 가중치를 그대로 사용하면서 특정 목적에 맞게 일부를 조정하는 방식입니다.

전이 학습(Transfer Learning): 이미 학습된 모델의 지식을 활용하여 새로운 작업(Task)에 적응시키는 방법입니다. 즉 기존 모델이 대규모 데이터셋에서 학습한 내용을 그대로 사용하면서, 추가 학습을 통해 특정한 도메인이나 업무에 맞게 조정하는 방식입니다.
Fine-Tuning: 전이 학습을 기반으로, 특정 도메인이나 작업에 맞게 모델의 일부 또는 전체 가중치를 추가 학습하는 방식입니다.

Fine-Tuning을 수행하면 기존 모델이 학습한 일반적인 언어 패턴과 구조를 유지하면서도, 새로운 데이터를 반영하여 특정 작업에 적합한 모델을 만들 수 있습니다.

전이 학습에서 가중치(Weight)의 역할

AI 모델이 학습할 때는 입력 데이터의 패턴을 분석하고, 중요한 요소에 가중치(Weight)를 부여합니다. Fine-Tuning을 할 때는 기존 모델의 가중치를 유지하면서 특정 데이터에 맞게 일부 조정하는 방식으로 진행됩니다.

예를 들어,

기존 모델이 일반적인 뉴스 기사를 학습했다면, "주가 하락"과 "기술 혁신" 같은 단어가 비슷한 중요도를 가질 수 있습니다.
하지만 금융 뉴스 요약을 위해 Fine-Tuning하면, "주가 하락"과 관련된 단어들의 가중치를 높여서 더 정확한 요약을 생성할 수 있습니다.

3.3.2 데이터셋 구성

Fine-Tuning의 성능은 데이터 품질에 크게 영향을 받습니다.

양질의 데이터 확보: 모델이 학습할 데이터는 정확하고, 신뢰할 수 있으며, 일관성이 있어야 합니다.
데이터 정제 및 전처리: 오탈자, 중복 문장, 불필요한 데이터 등을 제거하여 모델이 불필요한 패턴을 학습하지 않도록 해야 합니다.
라벨링(Labeling): 지도 학습(Supervised Learning)이 필요한 경우, 데이터에 정확한 정답(Label)을 부여해야 합니다.
데이터 분할: 데이터를 훈련(train), 검증(validation), 테스트(test) 세트로 나누어 모델의 학습과 평가를 균형 있게 진행해야 합니다.

3.3.3 Fine-Tuning 방식

Fine-Tuning은 크게 전체 모델을 조정하는 방식(Full Model Fine-Tuning)과 매개변수 효율적인 미세조정(Parameter-Efficient Fine-Tuning, PEFT)으로 나뉩니다. 최근에는 연산 비용과 메모리 사용을 절감하면서도 성능을 유지할 수 있는 PEFT 방식이 더 많이 활용되고 있습니다.

PEFT (Parameter-Efficient Fine-Tuning, 매개변수 효율적인 미세조정)

PEFT는 모델의 전체 가중치를 조정하지 않고 일부만 수정하여 학습하는 방식입니다.

기존 모델의 핵심 가중치는 유지하면서 일부만 학습하여 특정한 작업(Task)에 적응할 수 있습니다.
연산 자원이 제한적인 환경에서도 적용 가능하기 때문에 최근 가장 많이 활용되고 있습니다.

대표적인 PEFT 방법

LoRA (Low-Rank Adaptation): 모델의 일부 행렬만 조정하여 메모리 사용량을 절감하면서도 성능을 유지하는 방식입니다. 최근 기업 환경에서 가장 널리 활용되는 방법입니다.
Adapter 방식: 기존 모델의 구조를 변경하지 않고, 추가적인 적응 모듈(Adapter)을 삽입하여 학습하는 방식입니다. 멀티태스킹이 필요한 환경에서 유용합니다.
(*수정) QLoRA (Quantized LoRA): 4-bit 양자화(Quantization)와 LoRA를 결합한 방식으로, 단일 GPU에서도 대형 모델의 Fine-Tuning이 가능합니다. 메모리 사용량을 대폭 줄이면서도 Full Fine-Tuning에 근접하는 성능을 달성할 수 있습니다. 비용 효율성이 높아 기업 환경에서 빠르게 채택되고 있습니다. [출처: Dettmers et al. "QLoRA: Efficient Finetuning of Quantized LLMs" (arXiv:2305.14314)]

구분	장점	단점
PEFT	연산 비용이 적고 메모리 효율적. 기존 모델의 성능을 유지하면서도 특정 작업에 최적화할 수 있음	완전히 새로운 도메인에서는 성능 향상이 제한적. 기존 모델의 구조에 의존하므로, 독립적인 모델 구축이 어려움

전체 모델 파인 튜닝 (Full Model Fine-Tuning)

전체 모델 파인 튜닝은 모델의 모든 가중치(Weight)를 업데이트하는 방식으로 기존 모델의 모든 층(Layers)을 다시 학습하며, 연산 비용이 크고 많은 데이터가 필요합니다.

모델을 완전히 새로운 작업에 맞춰 조정하여 특정 도메인의 최상의 성능을 낼 수 있지만, GPU/TPU 같은 고성능 연산 자원이 필요하고 과적합(Overfitting) 가능성이 높습니다.

(*수정) 최근 트렌드: QLoRA/LoRA + DPO가 표준 워크플로우
최근에는 QLoRA 또는 LoRA로 모델을 효율적으로 Fine-Tuning한 후, DPO(Direct Preference Optimization)로 사람의 선호도에 맞게 추가 최적화하는 것이 표준 워크플로우로 자리잡고 있습니다. 전체 모델을 학습하는 방식은 연산 자원이 풍부한 연구 환경에서는 여전히 쓰이지만, 비용과 메모리를 절감하면서도 높은 성능을 유지할 수 있는 PEFT 방식이 기업 환경에서 더 선호되고 있습니다. 즉, 최근 Fine-Tuning의 흐름은 "QLoRA/LoRA로 도메인 적응 → DPO로 선호도 최적화"의 2단계 접근이 일반적입니다. [출처: Hugging Face, "TRL: Transformer Reinforcement Learning" documentation (huggingface.co/docs/trl)]

3.3.4 하이퍼파라미터 튜닝 (Hyperparameter Tuning)

Fine-Tuning의 성능을 최적화하기 위해서는 적절한 하이퍼파라미터 설정이 필수적입니다. 하이퍼파라미터는 모델 학습 과정에서 사람이 직접 설정하는 값으로, 모델이 얼마나 빠르게 학습하고 얼마나 정확한 결과를 도출할지를 결정합니다.

적절한 하이퍼파라미터를 설정하지 않으면 학습이 너무 오래 걸리거나, 과적합(overfitting) 또는 성능 저하가 발생할 수 있습니다.
적절한 하이퍼파라미터를 설정하면 Fine-Tuning 성능을 최적화하면서도 불필요한 계산 비용을 줄일 수 있습니다.

하이퍼파라미터	설명
학습률 (Learning Rate, LR)	모델이 가중치를 업데이트하는 속도를 결정하는 값입니다. 너무 크면 가중치가 과도하게 변화하여 학습이 불안정해지고, 너무 작으면 가중치가 천천히 조정되어 학습 속도가 느려집니다.
배치 크기 (Batch Size)	한 번의 학습에서 처리하는 데이터 샘플의 개수를 의미합니다. 크기가 클수록 학습이 빠르지만 메모리 사용량이 증가하며, 작을수록 학습이 안정적이지만 속도가 느려질 수 있습니다.
에포크 수 (Epochs)	전체 데이터셋을 몇 번 반복 학습할지를 결정하는 값입니다. 너무 적으면 모델이 충분히 학습되지 않아 성능이 낮고, 너무 많으면 과적합이 발생할 수 있습니다.
옵티마이저 (Optimizer)	모델이 최적의 가중치를 찾는 방법을 결정합니다.

3.3.5 Fine-Tuning 과정의 주요 단계

Fine-Tuning을 진행하는 기본적인 과정은 다음과 같습니다.

사전 학습된 모델 준비: 기존에 학습된 대형 언어 모델을 선택합니다.
데이터 수집 및 정제: 모델이 학습할 데이터를 수집하고 중복 데이터, 오탈자, 불필요한 정보 등을 정리합니다.
Fine-Tuning 방식 선택: Full Fine-Tuning, LoRA, Adapter 방식 중 목적에 맞는 방법을 선택합니다.
모델 학습 및 하이퍼파라미터 최적화: 모델을 학습시키고, 적절한 Learning Rate, Batch Size 등을 조정합니다.
모델 평가 및 검증: Fine-Tuning된 모델이 기존 모델보다 얼마나 성능이 향상되었는지 평가합니다.
배포 및 모니터링: Fine-Tuning된 모델을 실제 환경에 배포하고, 응답 품질과 성능을 지속적으로 모니터링합니다.

정리: Fine-Tuning의 핵심 요소

전이 학습 기반으로 기존 모델을 조정하는 과정
양질의 데이터를 확보하고 적절한 전처리를 수행해야 함
Full Fine-Tuning, LoRA, Adapter 등 다양한 학습 방법이 있음
학습률(Learning Rate), 배치 크기(Batch Size) 등의 하이퍼파라미터 조정이 중요함
Fine-Tuning 후 모델 평가 및 지속적인 개선이 필요함

3.4 Fine-Tuning의 한계

Fine-Tuning은 AI 모델을 특정한 업무나 도메인에 맞게 최적화하는 강력한 방법이지만, 무조건 최선의 해결책은 아닙니다. 다음은 Fine-Tuning을 사용할 때 고려해야 할 주요 한계점입니다.

(1) 높은 비용과 자원 소모

Fine-Tuning을 수행하려면 많은 양의 데이터, 강력한 컴퓨팅 자원(GPU/TPU), 그리고 학습 시간이 필요합니다. 대형 모델을 Fine-Tuning하면 비용이 크게 증가할 수 있습니다. 최신 LLM은 고성능 하드웨어가 필요하며, 학습을 반복할수록 연산량이 많아져 전력 소모 및 유지 비용도 커집니다.

(2) 데이터 준비의 어려움

파인튜닝을 위해서는 단순히 많은 데이터가 아니라 정확하고 유용한 데이터를 확보해야하며 효과적인 수행을 위해 사람이 직접 데이터 품질을 관리하고 모델성능을 평가해야합니다.

학습 데이터가 충분하지 않거나 품질이 낮으면 Fine-Tuning 후에도 성능이 오히려 저하될 수 있고, 편향된 데이터를 학습하면 모델이 잘못된 정보를 학습할 가능성이 있습니다.
데이터 라벨링(Labeling)과 정제(Cleaning) 작업이 필요하며, 전문적인 도메인일수록 데이터 구축이 어렵고 비용이 높아집니다.

(3) 모델 유지보수의 어려움

기존 모델이 업데이트될 경우, 새로운 버전에 맞춰 다시 Fine-Tuning을 진행해야 할 수도 있습니다.
Fine-Tuning된 모델은 특정 도메인에 과적합(Overfitting)될 가능성이 높아, 일반적인 질문에 대한 응답이 저하될 수 있습니다.
여러 개의 Fine-Tuning 모델을 운영하면 버전 관리가 복잡해질 수 있습니다.

3.5 선호도 최적화 기법 (**추가)

Fine-Tuning된 모델의 출력을 사람의 선호에 더 잘 맞도록 조정하는 기법들이 있습니다.

3.5.1 RLHF (Reinforcement Learning from Human Feedback)

원리: 사람이 모델의 여러 출력 중 선호하는 것을 선택 → 보상 모델(Reward Model) 학습 → 강화학습으로 모델 최적화
장점: 사람의 가치관과 선호도를 모델에 반영 가능
단점: 보상 모델 학습이 필요하여 복잡하고 비용이 높음
대표 사례: ChatGPT, Claude 등 대부분의 상용 LLM이 RLHF를 거쳐 출시됨

3.5.2 DPO (Direct Preference Optimization)

원리: 보상 모델 없이, 선호/비선호 데이터 쌍을 직접 사용하여 모델을 최적화
장점: RLHF 대비 구현이 간단하고 안정적, 별도의 보상 모델이 불필요
단점: 선호 데이터의 품질에 크게 의존
활용: 오픈소스 모델의 Fine-Tuning에서 RLHF를 대체하여 가장 널리 사용됨

[출처: Rafailov et al. "Direct Preference Optimization: Your Language Model is Secretly a Reward Model" (arXiv:2305.18290)]

3.5.3 ORPO (Odds Ratio Preference Optimization)

원리: SFT(Supervised Fine-Tuning)와 선호도 최적화를 하나의 단계로 통합
장점: 별도의 참조 모델(Reference Model)이 불필요, 학습 효율성이 높음
활용: 리소스가 제한된 환경에서 효율적인 선호도 정렬에 적합

3.6 합성 데이터 활용 (**추가)

Fine-Tuning에 필요한 고품질 학습 데이터를 확보하기 어려운 경우, 강력한 LLM을 활용하여 학습 데이터를 자동 생성하는 방법이 있습니다.

3.6.1 Self-Instruct 기법

원리: 기존 LLM(예: GPT-4o)에게 프롬프트를 제공하여 instruction-response 쌍을 대량 생성
과정: 시드(Seed) 데이터 준비 → LLM으로 다양한 질문-응답 쌍 생성 → 품질 필터링 → Fine-Tuning 데이터로 활용
장점: 사람이 직접 라벨링하는 비용을 대폭 절감
주의사항: 생성된 데이터의 품질 검증이 필수, 원본 LLM의 편향이 전파될 수 있음

[출처: Wang et al. "Self-Instruct: Aligning Language Models with Self-Generated Instructions" (arXiv:2212.10560)]

3.6.2 합성 데이터 활용 시 고려사항

데이터 다양성: 다양한 프롬프트 템플릿을 사용하여 편향된 데이터 생성 방지
품질 관리: 자동 필터링 + 사람의 샘플링 검증을 병행
라이선스: 일부 LLM의 이용약관에서 모델 학습용 데이터 생성을 제한하는 경우가 있으므로 확인 필요

3.7 Fine-Tuning 플랫폼 (**추가)

실무에서 Fine-Tuning을 수행할 수 있는 주요 플랫폼입니다.

플랫폼	특징	적합 대상
OpenAI Fine-Tuning API	GPT 모델의 API 기반 Fine-Tuning, 코드 최소화	빠른 프로토타이핑, OpenAI 모델 사용자
Amazon Bedrock	AWS 인프라에서 다양한 FM의 Fine-Tuning 지원	AWS 기반 기업 환경
Google Vertex AI	GCP에서 Gemini 등의 모델 Fine-Tuning 지원	GCP 기반 기업 환경
Hugging Face AutoTrain	코드 없이 GUI 기반으로 오픈소스 모델 Fine-Tuning	빠른 실험, ML 비전문가
Unsloth	LoRA/QLoRA 기반 Fine-Tuning 최적화 라이브러리, 학습 속도 2~5배 향상	비용 효율적 Fine-Tuning

[출처: 각 플랫폼 공식 문서]

3.8 프롬프트 엔지니어링 vs RAG vs Fine-Tuning vs AI Agent 비교

생성형 AI 모델을 활용할 때, 원하는 성능을 얻기 위해 Prompt Engineering, RAG, Fine-Tuning 같은 다양한 기법을 사용할 수 있습니다. 하지만 각 방법이 쓰이는 빈도, 효과, 비용 등이 다르며, 상황에 따라 최적의 선택이 달라집니다.

현재 가장 널리 사용되는 방법은 Prompt Engineering입니다. 비용이 들지 않고 간단한 수정만으로도 모델의 출력을 개선할 수 있기 때문입니다. 하지만 프롬프트 조정만으로 해결되지 않는 문제도 많습니다.

최신 정보나 사내 데이터를 반영해야 할 경우, Fine-Tuning 없이도 유연하게 모델을 확장할 수 있는 RAG가 더 효과적일 수 있습니다. 반면, 특정한 업무나 도메인에 최적화된 AI 모델이 필요하다면 Fine-Tuning이 필수적이지만, 비용과 유지보수 부담이 크기 때문에 신중하게 선택해야 합니다.

따라서, 각 방법의 장단점을 정확히 이해하고, 주어진 문제와 환경에 맞춰 적절한 방법을 선택하는 것이 중요합니다.

비교 항목	프롬프트 엔지니어링	RAG	Fine-Tuning	AI Agent
방식	입력 프롬프트 최적화	외부 검색 + 생성	모델 가중치 재학습	LLM + 도구 사용 + 자율 계획
모델 수정	없음	없음	있음	없음 (도구 통합)
최신 정보 반영	불가	가능	학습 데이터 의존	도구 통해 가능
비용	없음	낮음~중간	중간~높음	중간 (API + 도구)
전문성 요구	낮음	낮음~중간	중간~높음	중간
최적 사용 시기	간단한 출력 조정	최신/내부 데이터 활용	도메인 특화 성능 필요	복잡한 다단계 작업 자동화

(**추가) AI Agent 열이 추가된 확장 비교표입니다.

실무 조합 전략: 실제 기업 환경에서는 단일 기법보다 여러 기법을 조합하여 사용합니다. (**추가)

1단계: 프롬프트 엔지니어링으로 기본 성능 확보
2단계: RAG로 내부 데이터 및 최신 정보 반영
3단계: Fine-Tuning으로 도메인 특화 성능 향상
4단계: AI Agent로 복잡한 워크플로우 자동화

한눈에 정리하는 이번 챕터

생성형 AI는 기존 AI와 달리 새로운 콘텐츠(텍스트, 이미지 등)를 생성할 수 있으며, 생성 모델에는 Transformer, Diffusion, GAN이 있다.
Foundation Model은 사전 학습(Pretraining)된 범용 AI 모델을 의미하며, 다양한 AI 응용의 기반이 된다.
LLM은 Foundation Model의 한 종류로, 자연어를 이해하고 생성할 수 있는 AI 모델이다. 핵심 요소에는 토큰, Context, Parameter, 멀티모달이 있다.
LLM은 Transformer 구조를 기반으로 작동하며, Sampling 기법(Temperature, Top-k, Top-p)을 활용해 언어를 생성한다.
LLM의 최적화를 위해 프롬프트 엔지니어링, RAG, Fine-Tuning이 사용되며, 목적에 따라 적절한 기법을 선택해야 한다.
Fine-Tuning은 사전 학습된 LLM을 특정 도메인이나 업무에 맞게 추가 학습하는 과정으로, PEFT(LoRA, QLoRA) 방식이 기업 환경에서 주로 활용된다.
Fine-Tuning의 한계(비용, 데이터 준비, 유지보수)를 이해하고, 프롬프트 엔지니어링/RAG/Fine-Tuning/AI Agent 중 상황에 맞는 최적의 방법을 선택하는 것이 중요하다.
생성형 AI의 발전과 함께 윤리적 이슈와 법규(한국 AI 기본법, EU AI Act)도 반드시 고려해야 한다.

마무리

이번 챕터에서는 생성형 AI의 정의부터 LLM/Foundation Model의 구조와 작동 원리, 그리고 Fine-Tuning을 통한 모델 최적화까지, AI 모델의 전체 흐름을 하나의 맥락으로 살펴보았습니다.

생성형 AI는 방대한 데이터를 학습하고 이를 기반으로 새로운 콘텐츠를 만들어내는 기술이며, 그 핵심 엔진인 LLM은 Transformer 구조 위에서 확률적 언어 생성을 수행합니다. 하지만 할루시네이션, 데이터 편향, 실시간 정보 부족 등의 한계도 존재하며, 이를 극복하기 위해 프롬프트 엔지니어링, RAG, Fine-Tuning 등 다양한 최적화 기법이 활용됩니다.

특히 Fine-Tuning은 모델 자체를 특정 목적에 맞게 조정하는 강력한 방법이지만, 비용과 유지보수 측면의 부담도 함께 고려해야 합니다. 실무에서는 단일 기법이 아닌, 여러 기법을 단계적으로 조합하는 전략이 효과적입니다.

다음 챕터에서는 LLM의 응답을 원하는 방향으로 조정하는 가장 기본적이면서도 강력한 방법인 **프롬프트 엔지니어링(Prompt Engineering)**에 대해 깊이 있게 다뤄보겠습니다.

Chapter 1. AI 모델: 생성형 AI부터 모델 최적화까지 ​

1 생성형 AI의 정의 ​

1.1 생성형 AI란? ​

1.2 기존 AI와의 차이점 ​

1.3 생성 모델(Generative Model)이란? ​

1.4 생성모델의 종류 ​

1.5 State Space Models (SSM) (**추가) ​

1.6 생성형 AI의 활용 사례 ​

1) 텍스트 생성 -- 자동으로 글을 작성하는 AI ​

2) 코드 작성 -- 개발자 업무 효율화 ​

3) 질문 답변(Q&A) -- 고객 응대 및 정보 검색 보조 ​

4) 번역 -- 다국어 지원 강화 ​

5) 문서 요약 -- 긴 글을 핵심만 정리 ​

6) 의료 및 법률 -- 전문 분야에서의 AI 활용 ​

SI 기업 관점의 생성형 AI 활용 사례 (**추가) ​

1.7 생성형 AI의 윤리적 이슈 ​

1) 저작권 문제 ​

2) 악용 가능성 ​

3) 개인정보 보호 ​

4) 소유권 문제 ​

1.8 생성형 AI 관련 법규 (**추가) ​

1.8.1 한국 인공지능 기본법 (2026.01.22 시행) ​

1.8.2 EU AI Act (2024.08 발효) ​

1.8.3 SI 기업의 AI 거버넌스 의무 ​

1.9 2026년 생성형 AI 시장 현황 (**추가) ​

1.9.1 글로벌 시장 규모 ​

1.9.2 한국 시장 특성 ​

2 LLM과 Foundation Model ​

2.1 LLM(Large Language Model)이란? ​

2.2 Foundation Model이란? ​

2.2.1 Foundation Model의 핵심 특징 ​

(1) 범용성 (Generalization) ​

(2) 사전 학습(Pretraining)과 미세 조정(Fine-tuning) ​

(3) 대량 데이터 기반 학습 ​

2.3 Foundation Model과 LLM의 관계 ​

2.4 LLM의 핵심 요소 ​

2.4.1 Token (토큰) ​

2.4.2 Context (문맥) ​

2.4.3 Parameter (매개변수) ​

2.4.4 Multimodal (멀티모달) ​

1) 텍스트 + 이미지 이해 ​

2) 텍스트 + 음성 처리 ​

3) 텍스트 + 영상(비디오) 분석 ​

2.5 LLM이 언어를 이해하고 생성하는 방식 ​

2.5.1 Transformer ​

2.5.2 Sampling(샘플링) 기법 ​

1) Temperature Scaling (다양성 조절) ​

2) Top-k Sampling (상위 k개 중 선택) ​

3) Top-p Sampling (누적 확률 기반 선택) ​

2.6 LLM 최적화 기법 개요 ​

2.6.1 프롬프트 엔지니어링(Prompt Engineering) ​

2.6.2 RAG (Retrieval-Augmented Generation, 검색 증강 생성) ​

2.6.3 파인튜닝(Fine-Tuning) 개요 ​

2.7 LLM의 한계 ​

1) 할루시네이션 (Hallucination) ​

2) Context Window의 제한 ​

3) 데이터 편향 및 필터링 ​

4) 실시간 정보 부족 -- 최신 정보 반영의 어려움 ​

2.8 주요 LLM 비교표 (2026년 기준) (**추가) ​

2.9 MoE (Mixture-of-Experts) 아키텍처 (**추가) ​

2.10 추론(Reasoning) 모델의 부상 (**추가) ​

2.11 오픈소스 vs 상용 LLM 선택 가이드 (**추가) ​

3 모델 최적화 - Fine-Tuning ​

3.1 Fine-Tuning이란? ​

3.2 Fine-Tuning의 활용 목적 ​

(1) 특정 도메인에 최적화된 모델 구축 ​

(2) 특정 작업(Task) 성능 개선 ​

(3) 모델의 정확성과 일관성 향상 ​

3.3 Fine-Tuning의 핵심 요소 ​

3.3.1 전이 학습(Transfer Learning)과 Fine-Tuning의 관계 ​

3.3.2 데이터셋 구성 ​

3.3.3 Fine-Tuning 방식 ​

3.3.4 하이퍼파라미터 튜닝 (Hyperparameter Tuning) ​

3.3.5 Fine-Tuning 과정의 주요 단계 ​

3.4 Fine-Tuning의 한계 ​

(1) 높은 비용과 자원 소모 ​

(2) 데이터 준비의 어려움 ​

(3) 모델 유지보수의 어려움 ​

3.5 선호도 최적화 기법 (**추가) ​

3.5.1 RLHF (Reinforcement Learning from Human Feedback) ​

Chapter 1. AI 모델: 생성형 AI부터 모델 최적화까지

1 생성형 AI의 정의

1.1 생성형 AI란?

1.2 기존 AI와의 차이점

1.3 생성 모델(Generative Model)이란?

1.4 생성모델의 종류

1.5 State Space Models (SSM) (**추가)

1.6 생성형 AI의 활용 사례

1) 텍스트 생성 -- 자동으로 글을 작성하는 AI

2) 코드 작성 -- 개발자 업무 효율화

3) 질문 답변(Q&A) -- 고객 응대 및 정보 검색 보조

4) 번역 -- 다국어 지원 강화

5) 문서 요약 -- 긴 글을 핵심만 정리

6) 의료 및 법률 -- 전문 분야에서의 AI 활용

SI 기업 관점의 생성형 AI 활용 사례 (**추가)

1.7 생성형 AI의 윤리적 이슈

1) 저작권 문제

2) 악용 가능성

3) 개인정보 보호

4) 소유권 문제

1.8 생성형 AI 관련 법규 (**추가)

1.8.1 한국 인공지능 기본법 (2026.01.22 시행)

1.8.2 EU AI Act (2024.08 발효)

1.8.3 SI 기업의 AI 거버넌스 의무

1.9 2026년 생성형 AI 시장 현황 (**추가)

1.9.1 글로벌 시장 규모

1.9.2 한국 시장 특성

2 LLM과 Foundation Model

2.1 LLM(Large Language Model)이란?

2.2 Foundation Model이란?

2.2.1 Foundation Model의 핵심 특징

(1) 범용성 (Generalization)

(2) 사전 학습(Pretraining)과 미세 조정(Fine-tuning)

(3) 대량 데이터 기반 학습

2.3 Foundation Model과 LLM의 관계

2.4 LLM의 핵심 요소

2.4.1 Token (토큰)

2.4.2 Context (문맥)

2.4.3 Parameter (매개변수)

2.4.4 Multimodal (멀티모달)

1) 텍스트 + 이미지 이해

2) 텍스트 + 음성 처리

3) 텍스트 + 영상(비디오) 분석

2.5 LLM이 언어를 이해하고 생성하는 방식

2.5.1 Transformer

2.5.2 Sampling(샘플링) 기법

1) Temperature Scaling (다양성 조절)

2) Top-k Sampling (상위 k개 중 선택)

3) Top-p Sampling (누적 확률 기반 선택)

2.6 LLM 최적화 기법 개요

2.6.1 프롬프트 엔지니어링(Prompt Engineering)

2.6.2 RAG (Retrieval-Augmented Generation, 검색 증강 생성)

2.6.3 파인튜닝(Fine-Tuning) 개요

2.7 LLM의 한계

1) 할루시네이션 (Hallucination)

2) Context Window의 제한

3) 데이터 편향 및 필터링

4) 실시간 정보 부족 -- 최신 정보 반영의 어려움

2.8 주요 LLM 비교표 (2026년 기준) (**추가)

2.9 MoE (Mixture-of-Experts) 아키텍처 (**추가)

2.10 추론(Reasoning) 모델의 부상 (**추가)

2.11 오픈소스 vs 상용 LLM 선택 가이드 (**추가)

3 모델 최적화 - Fine-Tuning

3.1 Fine-Tuning이란?

3.2 Fine-Tuning의 활용 목적

(1) 특정 도메인에 최적화된 모델 구축

(2) 특정 작업(Task) 성능 개선

(3) 모델의 정확성과 일관성 향상

3.3 Fine-Tuning의 핵심 요소

3.3.1 전이 학습(Transfer Learning)과 Fine-Tuning의 관계

3.3.2 데이터셋 구성

3.3.3 Fine-Tuning 방식

3.3.4 하이퍼파라미터 튜닝 (Hyperparameter Tuning)

3.3.5 Fine-Tuning 과정의 주요 단계

3.4 Fine-Tuning의 한계

(1) 높은 비용과 자원 소모

(2) 데이터 준비의 어려움

(3) 모델 유지보수의 어려움

3.5 선호도 최적화 기법 (**추가)

3.5.1 RLHF (Reinforcement Learning from Human Feedback)