<DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning>
중국의 AI 스타트업 DeepSeek-AI는 논문을 통해 기초 모델인 DeepSeek-R1-Zero와 개선 모델인 DeepSeek-R1, 두 가지 초거대 언어 모델(LLM)을 발표합니다. 두 모델은 모두 딥시크가 과거에 공개했던 DeepSeek-V3-Base를 기반 모델로 구축되었으며 흔하지 않은 학습 방식을 사용해 OpenAI o1에 필적하는 추론(reasoning) 능력을 달성하며 학계에서도 큰 주목을 받습니다.
<DeepSeek-R1-Zero>
기초 모델인 DeepSeek-R1-Zero의 특이성은 기존 LLM들과 달리 순수 강화학습만으로 학습된 모델이라는 점에 있습니다.
기존의 LLM들은 일반적으로 지도학습과 강화학습을 혼합하여 훈련되었습니다. 대표적인 예로 OpenAI의 GPT 시리즈는 사전에 준비된 데이터로 지도학습을 먼저 수행한 후, 인간의 피드백이 개입된 강화학습을 적용하는 방식으로 최적화되었습니다.
반면, DeepSeek R1-Zero는 사전학습 없이, 처음부터 끝까지 강화학습만으로 모델을 훈련되었습니다. 이는 비효율적 초기 학습, 낮은 훈련 안전성, 높은 연산 복잡도와 비용 등으로 인해 기존 연구들이 회피했던 방식이었습니다.
딥시크는 GRPO(Group Relative Policy Optimization)라는 새로운 최적화 공식과 AI가 AI의 답변을 평가하는 체계적인 평가 기준, 그리고 탄탄한 추론 프롬프트 설계 등으로 이러한 어려움을 극복하였다고 주장합니다. 순수 강화학습은 인간의 개입이 필요 없기 때문에 많은 인건비가 필요하지 않았고, 이러한 부분에서 개발 비용을 줄일 수 있었던 것으로 추측됩니다.
<DeepSeek-R1>
R1-Zero의 가독성과 language mixing(여러가지 언어를 섞어 답변을 출력) 문제와 비추론 분야까지의 성능을 개선하여 발표된 모델입니다.
DeepSeek-R1은 아래 4가지 단계로 학습되었습니다.
- 사전준비된 추론 예시로 V3-Base 모델 파인튜닝
- R1-Zero에서와 같은 방식으로 순수 강화학습
- 추론 및 비추론 데이터로 나누어 추가 지도학습
- 추론 분야는 rule-based, 비추론 분야는 인간의 피드백이 개입된 강화학습
위에서 말씀드린 '기존의 LLM들'에 적용된 방식과 비슷하지 않나요? 논문에서 순수 강화학습을 수십 번 강조한 것이 무색하게 딥시크도 최종 모델을 개발을 위해서는 LLM 개발의 정석적인 법도를 따랐습니다.
<평가절상 & 평가절하>
1) 학습에 80억 원밖에 들지 않았다?
언론에 자주 언급되는 학습비용 80억 원은 딥시크가 R1 & R1-Zero의 기반 모델인 DeepSeek-V3의 공식 최종 학습에 사용됐다 밝힌 비용입니다. 이번에 발표된 R1 계열 모델과는 크게 관련되지 않은 비용인 것이죠.
하나의 AI 모델을 학습하기 위해서는 수십, 수백 번의 실험 학습 과정이 필요하며 이 과정에서 수많은 실패를 겪기도 하고 이를 위해 수많은 개발인력이 투입됩니다. 연구자의 입장에서 논문에 관련 비용을 다룰 때 이렇게 마지막 단계에서의 공식적인 값만을 밝히는 것은 당연한 것이지만, '딥시크는 OpenAI 시리즈보다 비교할 수 없이 싸지만 비슷한 성능을 가진' 모델이라는 이야기는 언론에 의해 과장된 이야기에 가깝습니다.
2) LLM 학습 구조의 완전히 새로운 패러다임을 제시했다?
순수 강화학습을 차용하고 새로운 공식을 통해 지금까지의 한계를 극복한 것은 분명히 인상적입니다. 또한 논문의 전체적인 흐름을 "추론"에 집중하여 추론 강화학습 과정의 상세한 요소까지 분석한 것은 좋은 전략이었다고 생각합니다.
그러나 세상에 없던 완전히 새로운 혁신을 보여준 것은 아닙니다. 기반 모델 V3는 구글이 Gemini를 통해 발표한 MoE(Mixture of Experts - 모델 내부 요소들을 몇 개의 군으로 나누어 각각의 군에 다른 분야를 부여하고 해당되는 분야의 문제만 해결하게 하는 방식)를 차용하고 있습니다. 또한 최종 모델인 R1을 학습할 때는 위에 언급하였듯 LLM 구성의 정석적인 방식을 따라가기도 하였습니다.
<Into the Unknown>
딥시크 프로젝트의 부제입니다. 딥시크는 사실 평범한 '스타트업'은 아닙니다. 중국 4대 퀀트 해지펀드에서 지속가능한 수익성을 위해 만든 기업으로 든든한 자본력과 머신러닝/딥러닝에 조예가 깊은 전문가들을 많이 보유하고 있었습니다. 이를 기반으로 딥시크는 2023년 창립된 이후 2년이 조금 넘는 시간 동안 15개가 넘는 논문과 모델을 발표하며 Into the Unknown, 알 수 없는 AI의 새로운 세상으로 나아가기 위해 끊임없는 시도를 해왔습니다.
여러 논란이 있지만 딥시크는 분명 Into the Unknown을 향한 인류의 새로운 발걸음에 기여했다고 생각합니다. 또한 어려운 환경을 이겨내며 무엇을 해도 OpenAI에 상대가 될 수 없다고 생각하던 AI 시장 소수자들에게 희망을 주었습니다.
저 또한 직업인으로 몸 담고 있는 AI를 사랑하는 개발자로서, 그리고 내 고향 한국을 사랑하는 한 사람으로서, 조만간 한국에서도 LLM 시장에 파란을 일으킬 연구가 발표되고 자이언트스텝에서 Vision AI & Graphics 시장에 새로운 균열을 일으킬 모델이 탄생하기를, 또 이에 기여할 수 있기를 간절히 기원합니다.