안녕하세요 :) Cross Planning 본부 이현정입니다.
2025년 7월 1주차 뉴스레터 발송드립니다.📮
<GIANTSTEP News> 빠른 제보는 슬랙 메시지 💌 @XP 사업기획팀 이현정
(📢 매주 목요일 오전까지 접수, 이후 제보는 차주 발행) |
|
|
🤔 Reinforcement Pre-Training: 생각하는 학습
(플랫폼실 AI팀 기고) |
|
|
최근 발표된 Reinforcement Pre-Training (RPT) 논문은, 기존 GPT류 언어모델의 학습 방식을 강화학습(RL) 관점에서 재설계했습니다. 단순히 다음 단어를 맞히는 것을 넘어서, “왜 그런 답을 했는가?”에 대한 추론(reasoning) 과정을 모델 스스로 생각하고 학습하게 만든 것이 핵심입니다.
📌 왜 중요한가요?
-
GPT 계열 모델은 기존에 정답을 얼마나 잘 맞추는지만 기준으로 학습했습니다.
-
RPT는 정답을 맞췄는지보다, 그 답이 얼마나 논리적인지에 초점을 둡니다.
-
강화학습을 ‘사전학습’에 성공적으로 도입한 최초 사례 중 하나
-
reasoning을 "보상 구조"로 정의함으로써 일반화 가능성 확보
-
scaling law를 따른다는 점에서 산업적 가치 매우 높음
예시:
문제
- If each apple costs 3 dollars and John buys 4 apples, how much does he pay?
1) 기존 GPT-style 모델 (next-token 예측만)
- "12 dollars."
- 빠르고 간단하지만 왜 그렇게 말했는지 알 수 없음
- 틀렸을 경우, 어디서 잘못됐는지도 모름
2) RPT 모델 (chain-of-thought reasoning 포함)
- "Each apple costs 3 dollars. John buys 4 apples, so the total is 3 × 4 = 12 dollars."
🔍 어떻게 작동하나요?
- 모델은 토큰을 예측하기 전에 먼저 자기 생각(chain-of-thought)을 내부적으로 정리합니다.
- 예측 결과가 논리적으로 타당할수록 보상(reward)을 더 많이 받고, 그 방향으로 계속 학습됩니다.
- 이 과정은 기존처럼 대규모 텍스트 데이터를 사용하지만, 보상 구조를 강화학습처럼 구성합니다.
🧪 어떤 성과가 있었나요?
- 수학 문제, 논리 문제 같은 추론 기반 평가에서 성능 향상을 보였습니다.
- 모델 크기가 커질수록 효과도 더 뚜렷하게 나타났습니다 (scaling law 만족).
- 이후 RL fine-tuning을 할 때도 **더 튼튼한 기반(backbone)**이 되는 것으로 확인되었습니다.
🧭 적용 포인트
- reasoning-heavy한 도메인(예: 기획, 요약, 전략제안 등)에 더 적합한 학습 구조 설계 가능
- 장기적으로는 instruction tuning + RL을 동시에 고려하는 hybrid 학습이 일반화될 수 있음
|
|
|
📢 AI 기술에 대해 궁금한 점이 있으신 분들은 플랫폼실 AI팀으로 문의주시면
언제든 상담이 가능합니다. 💡 |
|
|
📢 구글, 'Veo 3' 영상 생성 모델 글로벌 출시
구글이 최신 영상 생성형 AI 모델 베오3(Veo 3)를 전 세계 159개국 제미나이(Gemini) 사용자에게 공식 출시했습니다. Veo 3는 구글 AI 프로 요금제 이상을 사용하는 유료 가입자에게 제공되며, 하루 최대 3개 영상만 생성할 수 있도록 제한됐습니다. Veo 3는 올해 5월 구글 I/O 개발자 컨퍼런스에서 첫 공개됐으며, 간단한 텍스트 프롬프트만으로도 자연스러운 움직임과 배경 효과를 살리면서 최대 8초 길이 고화질 영상을 만들 수 있게 합니다. 조시 우드워드 구글 제품총괄은 향후 이미지 입력을 기반으로 한 영상 생성 기능도 제미나이에 탑재할 계획이라고 밝혔습니다. [더보기] |
|
|
📹 바이두, 기업용 동영상 모델 출시…"중국 첫 영상-음향-음성 통합 모델"
바이두가 차세대 동영상 생성 모델 '뮤즈스티머(MuseSteamer)'를 출시했습니다. 구글의 '비오 3'처럼 영상과 음향, 음성 생성 기능을 통합한 것이 특징으로, 일반 소비자용이 아닌 기업용으로 공개했다는 것이 주목할만한 점입니다. 이 모델의 핵심은 일명 '통합 시청각 인텔리전스'인데요. 즉, 영상과 음향 효과, 음성 더빙을 하나의 도구로 조합할 수 있는 모델이라는 것입니다. 특히 중국에서는 통합 모델이 처음이라고 강조했습니다. 뮤즈스티머는 텍스트와 이미지 입력 둘 다 지원하며, 10초 분량의 1080p 영상을 생성합니다. 바이두는 영상의 시간적 일관성과 유기적 진행이 특징이며, 캐릭터의 미세한 표정과 카메라 움직임 효과 등 전문가급 수준의 섬세한 표현이 가능하다고 밝혔습니다. [더보기]
|
|
|
🎤 버추얼 아이돌 문보나, CGV 데뷔 쇼케이스 성료
버추얼 아이돌 ‘문보나(MOONBONA)’의 데뷔 쇼케이스가 지난 6월 27일 CGV 용산아이파크몰에서 성황리에 개최됐는데요, 전석을 가득 메운 관객의 열띤 호응 속에 진행된 이번 공연은 극장형 인터랙티브 콘서트라는 새로운 장르의 가능성을 강하게 부각시켰습니다. 관객들은 실시간 Q&A, 퀴즈, 감정 기반 토크 등 다양한 프로그램에 직접 참여하며, 단순한 관람을 넘어 공연의 일원이 되는 새로운 형태의 경험을 했다고 합니다. 이는 기존의 일방향 공연에서 벗어난 ‘참여형 콘서트’의 가능성을 보여주는 모델로 평가됩니다. 문보나는 향후 정식 음원 발매를 비롯해 온라인 콘텐츠 시리즈, 팬미팅 등 온·오프라인을 아우르는 다양한 활동을 전개할 예정입니다. [더보기]
|
|
|
|