안녕하세요 :) Cross Planning 본부 이현정입니다.
2025년 12월 1주차 뉴스레터 발송드립니다.📮
<GIANTSTEP News> 빠른 제보는 슬랙 메시지 💌 @XP 사업기획팀 이현정
(📢 매주 목요일 오전까지 접수, 이후 제보는 차주 발행) |
|
|
🖼 DyPE: Ultra-High Resolution 이미지 만들기
(플랫폼실 AI팀 기고) |
|
|
🖼 Ultra-High Resolution 이미지 만들기
최근 생성 AI 분야에서는 Ultra-High Resolution 이미지 생성이 중요한 다음 과제로 떠오르고 있습니다. 기존의 4K와 8K를 넘어, 그 이상의 해상도를 요구하는 산업적 수요가 빠르게 증가하고 있기 때문입니다. 그러나 현재 주력 아키텍처인 Diffusion Transformer(DiT)는 Self-Attention의 이차 복잡도와 Position Encoding 구조의 한계로 인해 해상도 확장에 근본적인 제약을 갖고 있습니다. 실제로 이렇게 거대한 해상도와 막대한 학습 데이터를 기반으로 모델을 직접 학습시키는 것은 비용 측면에서도 쉽지 않은 선택입니다. 이 문제는 이미지 생성 분야에만 국한된 것이 아닙니다. LLM 역시 학습 시 경험한 문장 길이를 넘어서는 길이로 텍스트를 생성해야 하는 동일한 구조적 한계를 받아왔습니다. 이를 해결하기 위해 다양한 포지셔널 확장 기법이 시도되어 왔으며, 그중 최근 간단한 적용 방식과 높은 성능을 동시에 보여준 방식이 바로 Dynamic Positional Extrapolation, DyPE입니다.
이번 뉴스레터에서는 이러한 DyPE 기법을 소개하고, Ultra-High Resolution 생성의 한계를 어떻게 뛰어넘는지 함께 살펴보고자 합니다!
😢 기존 Poisitional Scaling 방식의 한계
고해상도 이미지를 생성할 때 가장 먼저 부딪히는 문제 중 하나는 '학습 범위를 넘어서는 위치 정보(positional index)'를 모델이 처리해야 한다는 점입니다. 예를 들어, 모델이 1K 해상도로 학습되었더라도, 실제 생성 단계에서는 4K 이상의 이미지를 요구할 수 있습니다.
이를 해결하기 위해 여러 확장 방법이 사용되어 왔습니다:
- Positional Interpolation (PI)
- NTK-aware Interpolation
- YaRN: Yet another RoPE extensioN
이들 방식은 학습 범위 밖의 위치를 보정하거나 확장하는 데 효과적이었지만, 모두 공통적인 한계를 가지고 있었습니다. 바로 '확장 방식이 정적(static)이라는 점'입니다. Diffusion 모델은 sampling 단계에 따라 이미지의 구조와 디테일이 점진적으로 형성되는 성질이 있는데, 기존 방식들은 이를 고려하지 않고 고정된 비율로 positional scaling을 적용했습니다.
그 결과, 초고해상도 생성 시 다음과 같은 문제가 자주 발생했습니다:
- 구조적 왜곡
- 디테일 손실
- 반복 패턴 및 블러 현상
|
|
|
💡 DyPE의 핵심 아이디어
DyPE는 Diffusion sampling 과정의 특성을 반영해, Positional scaling의 강도를 timestep별로 줄여나가는 방식을 제안합니다.
-
초기 단계: 전반적인 구조와 구도 (저주파 정보)를 만드는 구간
→ positional 확장이 크게 필요
-
후반 단계: 세부 디테일과 고주파 정보가 생성되는 구간
→ 과한 scaling이 오히려 품질 저하를 초래
따라서 DyPE는 sampling step에 따라 scaling factor를 점진적으로 감소시키며, “언제 강하게 적용하고 언제 줄여야 하는지”를 동적으로 조절합니다. 결과적으로 DyPE는 구조 안정성과 디테일 보존 두 가지 문제를 동시에 해결합니다. 논문에서는 이 간단한 아이디어를 각각 PI, NTK-aware, YaRN에 적용한 Dy-PI, Dy-NTK, Dy-YaRN에 대해 소개합니다. 단순히 timestep에 dynamic scaling을 적용하였지만, 그 실험 결과는 굉장히 효과적이였습니다.
🧪 실험 결과 요약
DyPE 적용 시 모델은 초고해상도 생성 환경에서 다음과 같은 개선 효과를 보여주었습니다:
- 구조 왜곡 감소
- Texture와 디테일 유지
- 반복 패턴 및 aliasing 완화
특히 중요한 점은 DyPE가 기존 positional 방식과 상충하지 않으며, 이미 학습된 모델에도 간단히 적용할 수 있는 실용적인 접근이라는 점입니다. |
|
|
🧠 결론 및 고찰
DyPE는 Ultra-High Resolution Diffusion 모델들이 겪어온 positional 문제를, 의외로 가장 단순하고 직관적인 방식으로 해결한 기법입니다. Diffusion sampling의 “시간적 특성”을 반영함으로써, 한정된 학습 조건 내에서도 더 높은 해상도로 자연스럽게 확장할 수 있는 길을 제시합니다. DyPE는 복잡한 구조적 개편 없이도, Diffusion 모델의 핵심 메커니즘을 정확히 짚어내어, 단순한 전략으로도 고해상도 생성 품질에 상당한 개선을 가져올 수 있음을 보여주는 의미 있는 사례입니다. 자이언트스텝 AI팀 역시 해당 연구 흐름을 주목하고 있으며, 향후 관련 기술이 산업 환경에서 어떤 실질적 가치로 연결될 수 있을지 지속적으로 탐색해 나갈 것입니다.
프로젝트 페이지: https://noamissachar.github.io/DyPE/
논문: https://arxiv.org/pdf/2510.20766 |
|
|
📢 AI 기술에 대해 궁금한 점이 있으신 분들은 플랫폼실 AI팀으로 문의주시면
언제든 상담이 가능합니다. 💡 |
|
|
📢 런웨이, 벤치마크에서 '비오 3' 제친 동영상 생성 모델 출시
런웨이가 새로운 텍스트 기반 동영상 생성 모델인 젠-4.5(Gen-4.5)를 공개했습니다. 이번 모델은 이전 버전보다 물리적 정확도와 시각적 정밀도가 크게 향상되어, 실제 영상과 구분하기 어려울 정도의 결과물을 제작할 수 있다고 평가됩니다. 사람과 사물의 움직임에 무게감과 관성이 자연스럽게 표현되며, 액체나 유체 흐름 등 물리 기반 효과도 정교하게 구현되는 것이 특징입니다.
젠 4.5는 독립 평가기관의 비디오 아레나 리더보드에서 1위를 기록하며 구글의 비오 3와 오픈AI 소라 2 프로를 앞섰습니다. 다만 객체 영속성이나 인과관계 처리에서는 아직 한계가 있다고 밝혔는데요. 런웨이는 이번 모델을 통해 빅테크와의 경쟁에서 기술적 우위를 일부 확보했다는 평가를 받고 있으며, 젠 4.5는 이번 주 모든 사용자에게 순차적으로 적용될 예정입니다. [더보기]
|
|
|
📢 클링, 생성·편집·이해 가능한 통합 모델 출시…"동영상의 나노 바나나"
중국 콰이쇼우가 영상 생성부터 편집, 이해까지 하나의 모델에서 처리하는 통합 AI 비디오 모델 ‘클링 O1’을 공개했습니다. 텍스트, 이미지, 영상 입력을 모두 이해해 인물·배경·장면을 유지하면서 특정 부분만 정밀하게 보정하거나, 인물 교체와 배경 제거 등 고급 편집 기능을 제공하는 것이 특징입니다.
업계에서는 이번 모델을 이미지 편집 기술로 유명한 구글의 나노 바나나를 동영상 영역으로 확장한 사례라는 평가도 나오고 있습니다. 콰이쇼우는 클링 서비스가 출시 1년여 만에 전 세계 4500만 명 이상의 사용자 기반을 확보했으며, 영화제 시연을 통해 영상 산업 진출 가능성도 적극적으로 알리고 있습니다. 클링 기반 AI 비디오 도구는 유료 모델로 운영되고 있으며, 올해 3분기 매출은 약 3억 위안으로 집계됐습니다. [더보기] |
|
|
👓 안경 없이 3D 현실감…AI 디스플레이 '아이리얼' 공개
상하이 AI 연구소와 푸단대 연구팀이 안경 없이 초광각 3D 시청이 가능한 새로운 디스플레이 기술 ‘아이리얼’을 발표했습니다. 이 기술은 기존 무안경 3D 디스플레이가 가진 화면 크기와 시야각 간의 구조적 한계를 AI 기반 알고리즘으로 해결한 것이 특징입니다.
아이리얼은 다층 LCD와 간단한 광학 구조를 활용하고, RGB-D 카메라가 사용자의 눈 위치를 추적하면 AI가 해당 위치에서 입체적으로 보이는 이미지를 실시간으로 생성합니다. 초당 50Hz 이상으로 반응해 사용자가 움직여도 안정적인 3D 효과를 유지하며, 100도 이상의 시야각과 FHD 해상도로 더욱 자연스러운 입체감을 제공합니다. 연구팀은 이 기술이 디스플레이를 넘어 천체 물리학, 생명과학, AI 시뮬레이션 등 다양한 분야로 확장될 잠재력이 있다고 밝혔으며, 향후 다중 사용자 환경 지원도 개발 중입니다. [더보기] |
|
|
📱 음악 넘어 영상까지…스포티파이, 차세대 비디오 서비스 도전
스포티파이가 음악 스트리밍을 넘어 영상 중심 플랫폼으로의 전환을 가속하고 있습니다. 이달 말부터 미국에서는 인기 곡의 오디오와 뮤직비디오를 앱 안에서 바로 전환해 시청할 수 있게 될 예정인데요, 이는 최근 음반사 및 음악출판협회와의 새로운 라이선스 협약을 통해 가능해졌습니다. 스포티파이는 이미 50만 개 이상의 영상 팟캐스트와 쇼를 보유하고 있으며 수억 명의 사용자가 이를 시청하고 있어, 영상은 사용자 체류 시간을 늘리고 광고 기반 수익을 강화할 전략으로 평가됩니다.
업계는 음악 스트리밍 시장이 정체된 상황에서 영상 콘텐츠가 스포티파이의 성장 동력이 될 것으로 보고 있습니다. 스포티파이는 유튜브와 틱톡 수준의 사용자 제작 영상 기능을 도입할지는 검토 중이며, 현재는 아티스트와 크리에이터가 짧은 영상을 업로드할 수 있도록 지원하고 있습니다. 영상 확장 전략은 넷플릭스·삼성과의 협력 사례에서도 확인되며, 앞으로 스포티파이의 콘텐츠 생태계 변화가 더욱 가속화될 것으로 전망됩니다. [더보기]
|
|
|
|