1 LLM과 Foundation Model
1.1 LLM(Large Language Model)이란?
LLM(대규모 언어 모델, Large Language Model)은 사람처럼 자연어를 이해하고 생성할 수 있는 인공지능(AI) 모델입니다. 방대한 양의 텍스트 데이터를 학습하여 문장의 구조와 의미를 파악하고, 주어진 입력(Context)에 적합한 단어나 문장을 예측하는 방식으로 동작합니다. 쉽게 말해, LLM은 많은 글을 읽고 패턴을 학습한 AI 작가입니다. 질문에 답하거나, 글을 요약하고, 번역하는 등 다양한 자연어 처리 작업을 수행할 수 있습니다. (*수정) 대표적인 LLM에는 OpenAI의 GPT-4o, Anthropic의 Claude 3.5, Meta의 LLaMA 3.1/3.2, Google의 Gemini 2.0, DeepSeek V3/R1 등이 있습니다. [출처: 각 모델 공식 문서] LLM은 확률적 언어 모델을 기반으로, 주어진 단어 다음에 올 확률이 높은 단어를 예측하여 문장을 만들어 갑니다. 예를 들어, "오늘 날씨가"라는 입력이 주어지면, "좋아요" 또는 "추워요" 같은 단어를 선택할 가능성이 높습니다. 즉, 단순히 단어를 나열하는 것이 아니라, 문맥(Context)을 고려하여 가장 자연스럽고 의미 있는 문장을 생성합니다. LLM을 깊이 이해하려면, 이를 구성하는 핵심 요소들을 살펴볼 필요가 있습니다. 하지만 그 전에, LLM이 속하는 더 넓은 개념인 Foundation Model을 먼저 알아보겠습니다.
1.2 Foundation Model이란?
Foundation Model은 방대한 양의 데이터로 사전 학습(Pretraining)된 범용 AI 모델을 의미합니다. 이 모델은 특정 작업에 국한되지 않고, 다양한 용도로 활용될 수 있도록 설계됩니다. LLM은 이러한 Foundation Model의 한 종류로, 자연어를 이해하고 생성하는 데 특화된 형태입니다.
1.2.1 Foundation Model의 핵심 특징
(1) 범용성 (Generalization) 한 가지 작업만 수행하는 것이 아니라, 다양한 자연어 처리(NLP) 작업에 활용될 수 있습니다. 예를 들어, OpenAI의 GPT 모델은 단순한 문장 생성뿐만 아니라 요약, 번역, 질의응답 등 여러 작업을 수행할 수 있습니다. (2) 사전 학습(Pretraining)과 미세 조정(Fine-tuning) 사전 학습: 거대한 데이터셋을 기반으로 일반적인 언어 지식과 패턴을 학습되어 있습니다. 따라서 기본적인 언어 능력을 미리 갖춘 상태에서 활용되어 다양한 작업에 쉽게 적용될 수 있습니다. 미세 조정을 통해 특정 데이터(예: 법률 문서, 의료 논문)로 추가 학습하여, 해당 분야에서 더 정확하고 신뢰도 높은 결과를 생성할 수 있습니다. 즉, FM은 한 번의 대규모 학습 후, 다양한 산업과 용도에 맞게 쉽게 변형할 수 있는 확장성을 가지고 있습니다. (3) 대량 데이터 기반 학습 일반적으로 수백억 개의 단어 또는 문장을 학습하여 방대한 언어 지식을 보유합니다. 이를 통해 사람과 유사한 수준의 문맥 이해와 자연스러운 문장 생성을 수행할 수 있습니다.
💡 과거의 AI 모델은 특정한 작업을 위해 개별적으로 설계되고 훈련되었습니다. 하지만 Foundation Model의 등장으로 하나의 강력한 모델을 기반으로 다양한 AI 솔루션을 개발할 수 있는 길이 열렸습니다.
1.3 Foundation Model과 LLM의 관계
LLM은 자연어를 처리하는 Foundation Model의 대표적인 예시입니다. Foundation Model에는 LLM뿐만 아니라 이미지 생성 AI(예: Stable Diffusion 3.5, FLUX.1), 음성 인식 AI(예: Whisper), 코드 생성 AI(예: GPT-4o Codex) 등도 포함됩니다. 따라서 모든 LLM은 Foundation Model이지만, 모든 Foundation Model이 LLM은 아닙니다.
이제 LLM의 내부 구조와 작동 방식을 좀 더 깊이 이해하기 위해, LLM을 구성하는 핵심 요소들을 살펴보겠습니다.
2 LLM의 핵심 요소
LLM은 단순히 단어를 나열하는 것이 아니라, 입력된 텍스트를 토큰 단위로 변환하고(Context), 방대한 매개변수를 활용해 패턴을 학습하며(Parameter), 최근에는 텍스트뿐만 아니라 다양한 형태의 데이터까지 처리할 수 있도록 발전(Multimodal)하고 있습니다. 이제 LLM을 구성하는 네 가지 주요 요소를 하나씩 살펴보겠습니다.
2.1 Token (토큰)
2.1.1 토큰이란?
토큰(Token)은 LLM이 텍스트 데이터를 처리할 수 있도록 나누는 최소 단위입니다. 사람은 단어와 문장을 읽고 이해하지만, LLM은 이를 직접 이해하지 못하기 때문에 텍스트를 작은 조각(토큰)으로 분리하여 수치화된 데이터로 변환해야하고 이것을 토큰화라고 합니다.
↑ Chat GPT 모델 Tokenizer 실행해보기
2.1.2 토큰의 특징
토큰은 반드시 단어 단위가 아니다. 단어 하나가 여러 개의 토큰으로 쪼개질 수도 있고, 반대로 여러 단어가 하나의 토큰이 될 수도 있음. 단어(Word), 서브워드(Subword), 문자(Character) 등 다양한 방식으로 나뉠 수 있음. 같은 문장이라도 토큰화 방식에 따라 토큰 개수가 달라진다 모델마다 사용하는 토큰화 방식이 다르기 때문에, 같은 문장이라도 생성되는 토큰 수가 다를 수 있음. 이는 모델 성능, 비용, 처리 속도 등에 영향을 미침 토큰 수가 많을수록 비용과 연산량이 증가한다. LLM은 토큰 단위로 계산하므로, 입력과 출력의 토큰 수가 많아지면 연산량이 커지고, 비용도 증가함. 이제 토큰을 나누는 다양한 방식과 그 원리를 살펴보겠습니다.
2.1.3 토큰화(Tokenization) 방식
토큰화를 수행하는 방식에는 여러 가지가 있으며, 모델의 학습 방식과 성능에 직접적인 영향을 미칩니다. 방식 설명 장점 단점 예시 Word-level (단어 기반 토큰화) 공백이나 문장 부호를 기준으로 단어를 분리하는 방식 단어 단위로 의미를 쉽게 파악 가능 언어마다 단어의 형태가 다르기 때문에 OOV (Out-Of-Vocabulary, 사전에 없는 단어)를 처리하기 어려움. 언어별 특성 고려 필요 "I love AI" → ["I", "love", "AI"] "나는 인공지능을 좋아해" → ["나는", "인공지능을", "좋아해"] Character-level (문자 기반 토큰화) 문장을 개별 문자(Character) 단위로 분리하는 방식 모든 텍스트를 처리할 수 있어 OOV (Out-Of-Vocabulary, 사전에 없는 단어) 문제 없음 너무 작은 단위로 나뉘어 문맥을 이해하는 데 비효율적. "AI" → ["A", "I"] "인공지능" → ["인", "공", "지", "능"] Subword-level (서브워드 기반 토큰화) 가장 일반적으로 사용되는 방식. 단어의 빈도에 따라 자주 사용되는 단어는 그대로 유지하고, 드문 단어는 더 작은 단위로 분할하는 방법 자주 쓰이는 단어는 유지하면서 새로운 단어도 처리 가능 토큰화 과정이 복잡하고 계산량이 많음 "Artificial" → ["Art", "ificial"] "Unhappiness" → ["Un", "happiness"]
💡 대부분의 최신 LLM은 서브워드 기반 토큰화를 사용하여 효율적인 학습과 추론을 수행합니다.
2.2 Context (문맥)
2.2.1 Context란?
Context(문맥)란, 텍스트 내에서 단어나 문장이 사용되는 환경과 그 의미를 결정하는 요소로, 주어진 문장에서 앞뒤 단어들의 관계, 문장의 흐름, 심지어 대화의 맥락까지 포함합니다. LLM은 개별적인 단어(토큰)만 보는 것이 아니라, 주어진 Context를 고려하여 적절한 출력을 생성합니다. 예를 들어, 다음 문장을 생각해보겠습니다. "나는 오늘 아침에 ㅇㅇ를 마셨다." 가능한 단어: "커피", "차", "우유" "나는 오늘 아침에 ㅇㅇ를 탔다." 가능한 단어: "지하철", "버스", "자전거" 같은 위치에 들어갈 단어라도 앞뒤 문맥에 따라 적절한 단어가 달라집니다. LLM은 바로 이 문맥을 이해하고 적절한 단어를 예측하는 방식으로 작동합니다. 의미 있는 문장을 생성하고, 질문과 답변의 일관성을 유지하기 위해서 Context가 중요합니다.
2.2.2 Context Window(맥락 창 크기)와 모델 성능
Context Window란? Context Window는 LLM이 한 번의 요청에서 처리할 수 있는 최대 토큰 개수를 의미합니다. Context Window가 클수록 한 번에 더 많은 텍스트를 LLM에게 입력할 수 있지만, 계산 비용이 증가하는 단점도 있습니다. Context Window가 성능에 미치는 영향 Context Window가 작은 경우 긴 대화나 문서를 처리할 때, 모델이 앞의 내용을 자르거나 무시하게 되어 정보가 누락될 수 있음 (*수정) 예를 들어 과거 모델의 토큰 제한이 4K(4,096)이었다면 앞부분만 이해하고 뒷부분은 무시될 수 있었으나, 현재 모델들은 128K~2M 토큰을 지원하여 이러한 제약이 크게 완화되었음. Context Window가 큰 경우 더 많은 정보를 기억할 수 있지만, 계산 비용이 증가하여 응답 속도가 느려질 수 있음. 더 많은 토큰을 처리하려면 메모리 사용량과 연산량이 급증하므로, 고성능 GPU가 필요함.
💡 최신 모델들은 더 많은 토큰을 처리할 수 있도록 발전하고 있으며, 이를 통해 더욱 자연스럽고 일관된 문장을 생성할 수 있습니다.
(*수정) [표. 주요 LLM의 Context Window 비교 (2026년 기준)]
| 모델 | Context Window | 출시 |
|---|---|---|
| GPT-4o | 128K tokens | 2024.05 |
| Claude 3.5 Sonnet | 200K tokens | 2024.06 |
| Gemini 2.0 | 2M tokens | 2024.12 |
| LLaMA 3.1 | 128K tokens | 2024.07 |
| DeepSeek R1 | 128K tokens | 2025.01 |
| [출처: 각 모델 공식 문서 (openai.com, anthropic.com, deepmind.google, ai.meta.com, deepseek.com)] |
2.3 Parameter (매개변수)
2.3.1 Parameter란?
AI 모델은 훈련하면서 많은 문장을 보고 단어 간의 관계와 패턴을 학습합니다. 이때, 배운 내용(패턴과 지식)을 저장하는 숫자 값이 바로 파라미터(Parameter) 이며, 모델의 성능을 결정하는 핵심 요소입니다. 예를 들어, AI가 "하늘이 파랗다"와 "바다는 파랗다"라는 문장을 많이 학습하면, "파랗다"는 "하늘"이나 "바다" 같은 단어와 자주 연결된다는 패턴을 배우게 되고, 이런 관계를 수학적으로 저장하는 값이 파라미터입니다. 모델명 옆에 75B, 7B 등으로 적혀있는 것이 파라미터 수입니다. (B는 10억) LLM은 학습 과정에서 수십억~수조 개의 매개변수(Parameters)를 최적화하여 언어를 학습합니다. 모델별로 매개변수의 수는 다르며, 매개변수의 수가 많을수록 일반적으로 모델의 성능이 향상되지만, 연산량과 메모리 사용량이 증가합니다. 매개변수의 역할 단어 간 연관성 학습 매개변수는 단어와 단어 사이의 관계를 학습하여 의미 있는 문장을 생성하는 데 기여합니다. 예를 들어, "파란 하늘"과 "푸른 하늘"이 같은 의미임을 학습한 모델은, 문맥에 따라 적절한 단어를 선택할 수 있습니다. 문맥을 고려한 적절한 단어 예측 다양한 언어 및 스타일 이해 매개변수가 많을수록 더 많은 데이터에서 학습할 수 있기 때문에, 다양한 언어와 글쓰기 스타일을 이해하고 적용할 수 있습니다. 예를 들어, 모델이 소설 스타일, 뉴스 기사, 코드 작성 등 다양한 문체를 구별할 수 있는 이유도 매개변수 학습 덕분입니다.
2.4 Multimodal (멀티모달)
기존의 LLM은 텍스트 데이터만 처리하는 방식이었지만, 최근에는 이미지, 음성, 코드 등 다양한 데이터를 함께 이해하고 생성할 수 있는 멀티모달(Multimodal) 모델이 발전하고 있습니다. 멀티모달 모델은 단순한 자연어 처리 능력을 넘어, 시각적 정보와 음성 데이터를 결합하여 더 풍부한 이해와 응용이 가능하도록 설계됩니다.
2.4.1 멀티모달 AI는 왜 중요할까?
인간은 텍스트뿐만 아니라, 시각적 정보, 청각적 정보 등을 종합하여 세상을 이해합니다. 기존 LLM은 텍스트만 처리할 수 있었기 때문에 이미지 기반 정보나 음성 데이터는 별도의 AI 모델이 요구 되었습니다. => 멀티모달 모델을 통해 AI가 텍스트, 이미지, 음성 등을 동시에 활용하여 더욱 정교한 응답을 생성할 수 있습니다.
2.4.2 멀티모달 사례
- 텍스트 + 이미지 이해 모델이 텍스트와 이미지를 동시에 분석하고 의미를 해석할 수 있음. 적용 사례: AI가 이미지를 보고 설명을 생성하는 이미지 캡셔닝(Image Captioning) 문서를 스캔하고 내용을 이해하는 OCR(광학 문자 인식) 사용자가 그림을 보여주면 해당 그림에 대한 설명을 제공
- 텍스트 + 음성 처리 AI가 음성을 인식하고 이를 텍스트로 변환하거나, 음성을 직접 이해하고 응답 생성이 가능함. 적용 사례: 음성을 텍스트로 변환하는 음성 인식 AI (예: OpenAI Whisper) 텍스트를 자연스러운 음성으로 변환하는 TTS (Text-to-Speech) AI가 사람의 음성을 듣고 문맥을 이해하여 자연스럽게 응답하는 음성 비서(Alexa, Siri 등)
- 텍스트 + 영상(비디오) 분석 AI가 영상 데이터를 분석하고, 장면을 요약하거나 의미를 해석하는 능력을 갖춤. 적용 사례: 동영상 속 장면을 요약하고 설명 생성 (예: Google Gemini) CCTV 영상에서 특정 사건 감지 (예: 교통 사고 탐지)
3 LLM이 언어를 이해하고 생성하는 방식
대규모 언어 모델(LLM)이 자연스럽게 문장을 생성할 수 있는 이유는 문맥을 이해하는 Transformer라는 구조와 확률 기반 단어 선택 (Sampling) 기법 덕분입니다. Transformer는 문장을 효과적으로 분석하여 문맥을 이해하고, Sampling 기법은 확률적으로 단어를 선택해 더욱 자연스럽고 다양한 문장을 생성하도록 합니다. 이제, Transformer가 어떻게 동작하는지 그리고 LLM이 단어를 생성하는 방법(Sampling 기법)에 대해 살펴보겠습니다.
3.1 Transformer
3.1.1 Transformer란?
Transformer는 LLM이 문장을 이해하고 생성하는 데 사용하는 핵심 신경망 구조입니다. 기존의 모델들이 문장을 단어 하나하나 순차적으로 처리하는 방식이었다면, Transformer는 한 문장 내의 모든 단어를 동시에 분석하여 문맥을 이해하는 방식을 사용합니다. 이 방식을 통해 Transformer는 더 빠르게 텍스트를 처리하고, 문맥을 더 정확하게 반영하며, 더 길고 복잡한 문장을 자연스럽게 생성할 수 있습니다.
3.1.2 Transformer의 동작 방식
Transformer는 일반적으로 인코더와 디코더로 구성되지만 , 모델에 따라 인코더만 사용하거나 디코더만 사용하는 방식도 있습니다.
- 인코더(Encoder) 인코더는 입력된 문장을 토큰 단위로 변환한 후, 각 단어의 의미와 문맥을 분석합니다. (입력 문장을 이해하는 역할) 예를 들어, "나는 커피를 마셨다."라는 문장이 주어졌을 때, 인코더는 "나는", "커피를", "마셨다" 각각의 단어가 문장에서 어떤 의미를 가지는가를 학습합니다.
- 디코더(Decoder) – 문장을 생성하는 역할 디코더는 인코더에서 처리한 정보를 바탕으로 새로운 문장을 생성합니다. 예를 들어, 번역 모델에서 "나는 커피를 마셨다."라는 문장을 입력하면, 디코더는 "I drank coffee."라는 문장을 생성할 수 있습니다. 이 과정에서 Transformer는 이전 단어와 문맥 정보를 기반으로 가장 적절한 단어를 선택하여 자연스러운 텍스트를 생성합니다.
3.1.3 Transformer가 왜 중요한가?
- 빠른 연산 속도 Transformer는 병렬 처리가 가능하기 때문에, 기존 모델보다 훨씬 빠르게 텍스트를 처리할 수 있습니다. 특히 대량의 데이터를 학습해야 하는 LLM에서는 필수적인 구조입니다.
- 긴 문맥을 더 잘 이해함 Transformer는 문장 내 모든 단어의 관계를 고려하기 때문에, 기존 방식보다 더 긴 문맥을 유지하고, 의미 있는 문장을 생성할 수 있습니다.
- 다양한 AI 모델의 기반이 됨 (*수정) GPT-4o, Claude 3.5, LLaMA 3.1, Gemini 2.0 등 거의 모든 최신 AI 모델은 Transformer 구조를 기반으로 동작합니다. 특히 최신 모델들은 효율성을 높이기 위해 MoE(Mixture-of-Experts) 아키텍처를 채택하는 추세이며, 전체 파라미터 중 일부 전문가(Expert)만 활성화하여 연산 효율을 극대화합니다. [출처: Meta, "LLaMA 3.1", ai.meta.com; DeepSeek-R1 Technical Report] 즉, Transformer는 현대 자연어 처리(NLP)의 핵심 기술이라고 할 수 있습니다.
3.2 Sampling(샘플링) 기법
Transformer가 문맥을 이해하고 적절한 다음 단어를 예측하면, 이제 어떤 단어를 선택할 것인지 결정하는 과정이 필요합니다. 이 과정에서 Sampling(샘플링) 기법이 사용됩니다.
3.2.1 Sampling(샘플링)이란?
LLM은 문장을 생성할 때, 다음 단어가 될 가능성이 높은 여러 개의 후보를 예측한 후, 그중 하나를 선택합니다. 샘플링 기법을 사용하면 텍스트의 다양성과 창의성을 조절할 수 있습니다.
3.2.2 주요 샘플링 기법
Temperature Scaling (다양성 조절) 낮은 Temperature (0에 가까움) 모델이 가능성이 높은 단어를 선택하여 더 일관성 있는 결과 생성 사실적이고 정확한 정보를 제공해야 할 때 유용 (ex. 법률 문서 요약, 의료 정보 제공) 높은 Temperature (1에 가깝거나 이상) 확률이 낮은 단어도 선택될 수 있어 더 다양한 응답 생성 가능 창의적인 결과를 원하는 경우 유용함 (ex. 마케팅 광고 카피 작성) 아래 그래프를 참고하세요. 각 단어가 선택될 확률을 보여주는 그래프입니다. 가장 왼쪽의 Temperature가 가장 낮은 그래프이고, Temperature가 낮을 수록 단어간 선택 확률 차이가 커져 선택되는 단어가 거의 확정적입니다.
Top-k Sampling (상위 k개 중 선택) 모델이 예측한 확률이 높은 k개의 단어 중 하나를 무작위로 선택하는 방식 예를 들어 top-k를 5로 설정하면 "오늘 날씨가"라는 입력이 주어졌을 때, 모델이 가장 확률이 높은 5개 단어를 선택하고("좋다", "덥다", "춥다", "흐리다", "비온다"), 그중 하나를 랜덤하게 선택함 k 값이 작으면? → 더 일관된 결과를 생성 (일관성 증가) k 값이 크면? → 더 다양한 결과를 생성 일반적인 AI 챗봇에서는 40~50을 많이 사용합니다.
Top-p Sampling (누적 확률 기반 선택) 확률이 높은 단어부터 순서대로 더하면서, 누적 확률이 p%를 초과하면 나머지 단어들은 제거하는 방식 Top-k보다 더 유연하게 작동하며, 문맥에 맞는 단어를 더 다양하게 선택할 수 있음 0.9가 일반적으로 가장 많이 사용됩니다.
4 LLM 최적화 기법
LLM을 더욱 효과적으로 활용하기 위해서는 단순히 모델을 사용하는 것만으로는 충분하지 않습니다. 특정한 목적이나 상황에 맞춰 모델의 출력을 최적화하는 방법이 필요하며, 이를 위한 대표적인 세 가지 기법을 알아보겠습니다.
4.1 프롬프트 엔지니어링(Prompt Engineering)
같은 모델에 질문 하더라도 어떻게 질문(프롬프트)을 작성하느냐에 따라 출력이 크게 달라질 수 있습니다. 프롬프트 엔지니어링은 LLM이 더 정확하고 원하는 방식으로 응답을 생성하도록 입력을 최적화하는 기법입니다. 알아두기 프롬프트를 구조화하거나 구체적인 예시를 포함시키면 모델의 응답 품질이 향상됨 단순한 질문보다는 맥락과 조건을 명확히 제시하는 것이 효과적 Few-shot Learning, Chain-of-Thought 등 다양한 프롬프트 기법이 존재 예시 일반적인 프롬프트 "커피가 건강에 좋은 이유는?" 최적화된 프롬프트 "과학적 연구를 기반으로 커피가 건강에 미치는 긍정적인 영향을 설명하고, 관련된 논문이나 연구 결과를 인용하여 요약해줘."
📌 프롬프트 엔지니어링에 대한 더 자세한 내용은 이후 챕터에서 다룹니다.
4.2 RAG (Retrieval-Augmented Generation, 검색 증강 생성)
LLM은 훈련된 데이터만을 기반으로 응답을 생성하기 때문에, 최신 정보나 특정한 도메인 지식을 포함하기 어렵습니다. RAG (Retrieval-Augmented Generation)는 검색(Retrieval)과 생성(Generation)을 결합하여 LLM이 외부 데이터베이스에서 관련 정보를 찾아 활용할 수 있도록 하는 기법입니다. 알아두기 LLM이 직접 학습하지 않은 외부 정보를 검색하여 답변의 정확성을 향상시킴 LLM을 재학습하지 않고도 새로운 정보를 추가하여 보다 유연한 응답 생성 가능
📌 RAG 대한 더 자세한 내용은 이후 챕터에서 다룹니다.
4.3 파인튜닝(Fine-Tuning)
파인튜닝은 기본적으로 학습된 LLM을 특정한 도메인이나 목적에 맞게 추가 학습시키는 과정입니다. 이는 특정 분야(예: 의료, 법률, 금융 등)에서 더욱 정교하고 맞춤화된 응답을 얻기 위해 사용됩니다. 알아두기 모델이 특정한 데이터셋을 추가로 학습하여 특정한 스타일이나 도메인에 최적화됨 기업이나 연구 기관이 자체 데이터를 활용하여 맞춤형 AI를 개발할 때 주로 사용됨 작은 데이터로도 모델의 성능을 개선할 수 있는 방법이 존재(LoRA, Adapter 등 경량화 기법)
📌 파인튜닝에 대한 더 자세한 내용은 이후 챕터에서 다룹니다.
💡 생성형 AI 모델은 한계가 분명히 존재하며 그 중 대표적인 문제가 할루시네이션입니다. 이를 줄이기 위해 다양한 최적화 기법이 필요하고, 보다 정확한 정보를 얻기 위해 지속적인 개선이 중요합니다.
5 LLM의 한계
LLM은 자연어를 이해하고 생성하는 강력한 AI 기술이지만, 완벽하지 않으며 몇 가지 한계를 가지고 있습니다. 이러한 한계를 이해하고, 이를 극복하기 위한 방법을 고민하는 것이 LLM을 효과적으로 활용하는 데 중요한 요소입니다.
- 할루시네이션 (Hallucination) LLM은 입력된 데이터에 기반해 확률적으로 가장 적절한 단어를 예측하여 문장을 생성합니다. 하지만 때때로 사실이 아닌 정보, 존재하지 않는 개념, 잘못된 내용을 마치 진짜인 것처럼 생성하는 현상이 발생하는데, 이를 할루시네이션(Hallucination)이라고 합니다. 예시: 사용자: "세계에서 가장 긴 다리는?" LLM: "세계에서 가장 긴 다리는 대한민국의 ‘X Bridge’이며, 길이는 50km입니다." (실제 존재하지 않는 다리) 이처럼 자신감 있게 틀린 정보를 생성하는 것이 할루시네이션의 핵심 문제입니다. 왜 할루시네이션이 발생할까? LLM은 "이해"하는 것이 아니라 "패턴을 예측"하는 모델이기 때문입니다. 모델은 단순한 데이터 매칭이 아니라 확률적으로 가장 적절한 단어를 예측하는 방식으로 동작하고, 이 과정에서 사실과 다른 정보를 조합하여 "있을 법한" 문장을 생성할 수 있습니다. 학습 데이터의 한계 LLM은 기존 데이터에서 학습하기 때문에, 학습 데이터에 없는 정보는 유추해서 생성합니다. (*수정) 예를 들어, 2024년 이후의 정보를 학습하지 않은 모델은 최신 뉴스를 정확히 반영할 수 없습니다. 할루시네이션을 줄이는 방법 할루시네이션을 줄이는 대표적인 방법 중 하나는 RAG(Retrieval-Augmented Generation, 검색 기반 생성) 기법입니다. RAG는 LLM이 응답을 생성할 때, 외부 데이터베이스나 실시간 검색을 참조하여 더 정확한 정보를 제공하는 방식입니다. 즉, 기존 LLM이 내부적으로 기억하는 데이터만 활용하는 것과 달리, RAG는 최신 정보나 추가적인 근거를 바탕으로 더 신뢰할 수 있는 답변을 제공합니다. 프롬프트 엔지니어링(Prompt Engineering)과 파인튜닝(Fine-Tuning)도 할루시네이션을 줄이고 최적화하는 기법입니다.
- Context Window의 제한 LLM은 한 번에 기억할 수 있는 정보의 양(Context Window)이 제한적입니다. 즉, 너무 긴 문서나 대화가 주어지면 초반 내용을 잊어버리고 응답을 생성할 수 있습니다. 예시: 사용자가 5000자 이상의 글을 입력하고 요약을 요청하면, (*수정) LLM의 Context Window(예: 128K 토큰 모델 기준)를 초과하는 부분은 기억하지 못하고 무시됩니다. 다만, 현재 모델들은 128K~2M 토큰까지 지원하므로 대부분의 일반적인 문서는 처리가 가능합니다. 결과적으로, 중요한 정보가 빠진 요약이 생성될 가능성이 있습니다. Context Window의 제한을 극복하는 방법 컨텍스트 압축 (Summarization & Chunking) 긴 문서를 요약하거나 분할하여 LLM이 효과적으로 처리할 수 있도록 함 더 큰 Context Window를 가진 모델로 교체 더 큰 모델을 사용하면 컨텍스트 윈도우 제한을 극복할 수 있지만, 토큰 사용량이 많아질수록 비용이 증가하는 문제가 있기 때문에 적절한 모델에 선택에 대한 고려가 필요함
- 데이터 편향 및 필터링 데이터 편향이란? LLM은 인간이 만든 데이터를 학습하기 때문에, 특정한 관점이나 편향이 반영될 가능성이 존재합니다. 학습 데이터가 영어 위주라면, 비영어권 언어에 대한 이해도가 낮아질 수 있고, 특정 사회적, 정치적 의견이 더 많이 포함된 데이터로 학습되었다면, 모델의 응답도 편향될 수 있습니다. 예시: 가장 좋은 프로그래밍 언어가 무엇인가요? → LLM이 학습한 데이터가 특정 언어 중심이라면 실제로는 개발 목적에 따라 최적의 언어가 다름에도 LLM은 "Python이 최고의 언어입니다"와 같은 일방적인 답변을 줄 수 있습니다. 편향을 줄이는 방법 데이터 필터링 및 재학습 AI 연구자들은 중립적이고 공정한 데이터를 제공하기 위해 편향된 데이터를 걸러내고 수정하는 과정을 적용. 다양한 데이터 학습 다양한 문화와 의견을 포함한 데이터를 학습하면, 특정 관점에 치우치지 않고 균형 잡힌 응답을 생성할 수 있음. 사용자의 비판적 사고 활용 LLM의 답변이 항상 객관적인 것이 아니므로, 사용자가 AI의 출처를 확인하고 비판적으로 접근하는 태도가 중요함.
- 실시간 정보 부족 – 최신 정보 반영의 어려움 대부분의 LLM은 사전에 학습된 데이터만을 기반으로 작동하는 "정적인" 모델입니다. 실시간 정보를 반영하는 방법 RAG(Retrieval-Augmented Generation) 적용 외부 검색 시스템과 연결하여 최신 정보를 검색한 후 답변을 생성. 인터넷 연결이 가능한 AI 시스템 활용 프롬프트에 최신 데이터를 제공하는 방식 사용자가 최신 정보를 입력한 후, AI에게 그 내용을 바탕으로 답변하도록 유도.
[*추가] 6. 주요 LLM 비교표 (2026년 기준)
| 모델 | 개발사 | 파라미터 | Context Window | 라이선스 | 주요 특징 |
|---|---|---|---|---|---|
| GPT-4o | OpenAI | 비공개 | 128K | 상용 API | 텍스트/이미지/음성 통합 멀티모달, 빠른 응답 속도 |
| Claude 3.5 Sonnet/Opus | Anthropic | 비공개 | 200K | 상용 API | 긴 문맥 처리, 안전성 중시, 코딩 성능 우수 |
| Gemini 2.0 | Google DeepMind | 비공개 | 2M | 상용 API | 최대 Context Window, 멀티모달 네이티브 |
| LLaMA 3.1 (405B) | Meta | 405B | 128K | 오픈소스 | 최대 규모 오픈소스 모델, 연구/상용 모두 가능 |
| DeepSeek R1 | DeepSeek | 671B (MoE) | 128K | 오픈소스 | 추론 특화, MoE 아키텍처로 효율적 연산 |
| [출처: 각 모델 공식 문서] |
[*추가] 7. MoE (Mixture-of-Experts) 아키텍처
MoE(Mixture-of-Experts)는 모델 내에 여러 개의 전문가(Expert) 네트워크를 두고, 입력에 따라 일부 전문가만 활성화하는 효율적인 아키텍처입니다.
- 핵심 원리: 게이팅 네트워크(Gating Network)가 입력 토큰에 따라 적합한 전문가를 선택하여 라우팅
- 장점: 전체 파라미터 수는 크지만 실제 연산에 사용되는 파라미터는 일부이므로, 적은 연산량으로 대규모 모델의 성능을 달성 가능
- 대표 모델: DeepSeek V3/R1 (671B 전체, 37B 활성화), Mixtral 8x7B (46.7B 전체, 12.9B 활성화)
- 활용 트렌드: 최신 LLM에서 비용 효율적인 스케일링을 위해 MoE 구조가 점점 더 많이 채택되고 있음 [출처: DeepSeek R1 Technical Report (deepseek.com); Mistral AI, "Mixtral of Experts" (arXiv:2401.04088)]
[*추가] 8. 추론(Reasoning) 모델의 부상
2024~2025년에는 단순 언어 생성을 넘어, 복잡한 추론(Reasoning) 능력에 특화된 모델이 등장했습니다.
- OpenAI o1/o3: 문제 해결 시 내부적으로 "사고의 사슬(Chain-of-Thought)"을 자동 수행하는 추론 특화 모델. 수학, 코딩, 과학 문제에서 전문가 수준의 성능 달성 [출처: OpenAI, "Learning to Reason with LLMs"]
- DeepSeek R1: 강화학습(RL) 기반으로 추론 능력을 획득한 오픈소스 모델. 수학적 추론에서 GPT-4o에 필적하는 성능 달성 [출처: DeepSeek R1 Technical Report, Nature 2025]
- Claude Extended Thinking: Anthropic의 확장된 사고 기능으로, 복잡한 분석과 추론 작업에서 단계별 사고 과정을 내부적으로 수행
- 의의: 추론 모델의 발전은 AI가 단순 지식 검색을 넘어 복잡한 문제 해결과 의사 결정을 지원할 수 있는 가능성을 열어줌
[*추가] 9. 오픈소스 vs 상용 LLM 선택 가이드
SI 기업에서 LLM을 도입할 때, 오픈소스 모델과 상용 모델 중 적절한 선택이 필요합니다.
| 비교 항목 | 오픈소스 LLM | 상용 LLM |
|---|---|---|
| 대표 모델 | LLaMA 3.1, DeepSeek R1, Mistral | GPT-4o, Claude 3.5, Gemini 2.0 |
| 데이터 보안 | 자체 인프라에서 운영 가능하여 데이터 유출 위험 최소화 | 외부 API 호출 시 데이터가 외부로 전송됨 |
| 비용 구조 | 인프라 비용(GPU 서버) 발생, API 비용 없음 | API 호출 기반 종량제, 인프라 비용 없음 |
| 커스터마이징 | 모델 가중치 직접 수정 가능, Fine-Tuning 자유도 높음 | API 기반 Fine-Tuning만 가능, 제한적 |
| 성능 | 최신 상용 모델 대비 다소 낮을 수 있으나, 빠르게 격차 감소 중 | 일반적으로 최고 수준의 성능 제공 |
| 유지보수 | 자체 운영팀 필요, 모델 업데이트를 직접 관리 | 제공사가 관리, 자동 업데이트 |
| SI 기업 의사결정 프레임워크: |
- 데이터 보안이 최우선인 경우 → 오픈소스 모델 자체 호스팅 권장
- 빠른 도입과 최소 운영 부담이 목표인 경우 → 상용 API 활용 권장
- 도메인 특화 모델이 필요한 경우 → 오픈소스 모델 Fine-Tuning 권장
- 하이브리드 전략: 내부 데이터 처리는 오픈소스, 일반 작업은 상용 API를 조합하여 비용과 보안의 균형을 맞추는 방식도 고려 가능
한눈에 정리하는 이번 챕터
Foundation Model은 사전 학습(Pretraining)된 범용 AI 모델을 의미하며 다양한 AI 응용의 기반이 된다. LLM은 Foundation Model의 한 종류로 자연어를 이해하고 생성할 수 있는 AI 모델이다. LLM의 핵심 요소에는 토큰, Context, Parameter, 멀티모달이 있으며, 각각이 모델의 성능과 이해력에 영향을 미친다. LLM은 Transformer 구조를 기반으로 작동하며, sampling기법을 활용해 언어를 생성한다. sampling 기법에는 temperature, top-k, top-p가 있다. LLM의 최적화를 위해 프롬프트 엔지니어링과 파인튜닝이 사용되며, 이를 통해 원하는 출력을 보다 정밀하게 조정할 수 있다. LLM은 강력한 성능을 갖추고 있지만, 데이터 편향, 높은 연산 비용, 정확성 한계 등의 문제를 고려해야 한다.
🚀 마무리
이 챕터에서는 LLM의 개념과 구조, 작동 방식, 텍스트 생성 원리, 최적화 기법, 그리고 한계점에 대해 살펴보았습니다. LLM은 방대한 데이터를 학습하여 자연어를 이해하고 생성할 수 있지만, 할루시네이션, 데이터 편향, 실시간 정보 부족 등의 단점도 존재합니다. 이러한 한계를 극복하기 위해 프롬프트 엔지니어링과 파인튜닝 같은 최적화 기법이 활용되며, RAG와 같은 보완 기술도 적용되고 있습니다. 이제 LLM을 더 효과적으로 활용하는 방법을 다룰 차례입니다. LLM의 응답을 원하는 방향으로 조정하는 가장 효과적인 방법 중 하나는 프롬프트 엔지니어링(Prompt Engineering)입니다. 다음 챕터에서는 프롬프트를 최적화하는 다양한 기법과 활용 방법에 대해 깊이 있게 다뤄보겠습니다.