안녕하세요 :) Cross Planning 본부 이현정입니다.
2025년 1월 3주차 뉴스레터 발송드립니다.📮
<GIANTSTEP News> 빠른 제보는 슬랙 메시지 💌 @XP 사업기획팀 이현정
(📢 매주 목요일 오전까지 접수, 이후 제보는 차주 발행) |
|
|
구글의 비운의 잊혀진 영상 제작 기술 Lumiere에 대해서...
(플랫폼실 AI팀 기고)
최근 1년간 AI 영상 제작 도구들이 큰 주목을 받고 있습니다. OpenAI의 Sora, Runway의 Gen-2, Luma AI의 Dream Machine 등 다양한 도구들이 등장하며 영상 생성의 새로운 가능성을 보여주었죠. 그리고 구글의 Veo2는 압도적인 성능으로 새로운 지평을 열고 있습니다. 오늘 소개할 기술은 Veo2의 전신 중 하나였던, 이제는 잊혀진 구글의 Lumiere입니다.
<기존 video 생성형 AI 기술의 문제점>
- 기존의 Video 생성형 AI는 여러 개의 연속된 이미지를 생성하여 영상을 만듭니다. 이 방식은 마치 교과서 구석에 낙서를 그리는 것처럼, 각 프레임이 따로따로 그려지는 형태입니다.
- 한 장씩 그리는 데 시간이 오래 걸리기 때문에, 여러 명이 협업한다고 가정해 봅시다. 예를 들어, 한명이 1~10쪽까지, 그 다음 사람이 11쪽에서~20쪽까지 그리게 됩니다.
- 그런데 각자가 그린 그림들이 자연스럽게 이어질 수 있을까요? 각 구간 간에 생기는 불연속한 연결을 'Temporal Inconsistency'라고 하며, 기존의 video 생성형 AI 기술에서 흔히 발생하는 문제입니다.
|
|
|
<Lumiere의 접근법>
구글은 이러한 문제(Temporal Inconsistency)를 해결하고자 Lumiere 프로젝트에서 새로운 모델 구조를 도입했습니다.
- Space-Time U-Net (STUNet)
- Lumiere는 비디오의 공간적 차원과 시간적 차원을 동시에 처리하는 STUNet을 사용했습니다. 기존 U-Net을 3D로 확장한 이 구조는 모든 프레임을 한 번에 생성함으로써 더 일관된 움직임과 시각적 연속성을 확보합니다. 또한, 시공간을 동시에 다운샘플링해 계산 효율성을 높였죠.
- Multi-diffusion
- 영상에 super-resolution을 적용하여 해상도를 높일때 시간적 segment로 분할하여 적용하기때문에 segment별 일관성을 유지해야합니다.
- Lumiere에서는 MultiDiffusion을 더욱 발전시켜 segment 경계에서의 시간적 부드러움을 향상시키는 방법을 제안합니다.
- 이를 통해 긴 비디오에서도 시간적 일관성을 유지할 수 있었습니다.
<결과>
|
|
|
<Lumiere의 한계>
- Lumiere는 짧은 비디오(5초, 80프레임)만 생성할 수 있다는 점, 해상도 제한, 높은 컴퓨팅 자원 요구 등의 한계가 있었습니다.
<Lumiere 그 이후>
- Lumiere의 발표 직후 OpenAI의 Sora가 더 나은 결과를 선보이며 많은 주목을 받으면서 Lumiere는 기억 속에서 잊혀졌습니다.
- 그러나 Lumiere에서 사용된 STUNet과 Multi-diffusion 기술은 구글의 VideoPoet을 거쳐 Veo2에 적용되며 발전을 이어갔습니다.
- AI 영상 제작은 아직 초기 단계에 있으며, 앞으로의 가능성은 무궁무진합니다. 현재 비디오 생성형 AI는 실용적인 수준에 도달하지 못했지만, 이 기술이 도입된 지 불과 1년밖에 되지 않았음을 기억해야 합니다.
- 따라서 AI 영상 제작 기술은 빠르게 발전할 것이며, 이제는 다양한 방식으로 실험하고 즐기며 활용해 볼 때입니다.
*위 요약본 외 원 논문 정리본이 궁금하시다면? [바로가기]
|
|
|
📢 AI 기술에 대해 궁금한 점이 있으신 분들은 플랫폼실 AI팀으로 문의주시면
언제든 상담이 가능합니다. 💡 |
|
|
세계 최초 웹3 AI 글래스 나온다…스마트폰 이을 혁신 될까 👓
인공지능(AI) 에이전트 운영체제인 업네트워크(Up Network) 및 기술 기업 드림스마트(DreamSmart)가 세계 최초의 웹3 AI 글래스를 출시한다고 발표했습니다. 사용자는 글래스를 통해 AI 에이전트와 상호 작용하고, 다른 웹3 활동에 참여함으로써 토큰화된 보상 인센티브를 얻을 수 있다고 하는데요. 사용자의 완전한 데이터 프라이버시를 보장하기 위해 모든 상호 작용은 기기에서 직접 처리됩니다. 데반쉬 카트리(Devansh Khatri) 업네트워크 공동 창립자는 "이 안경은 단순한 장치가 아니라 컴퓨팅과 분산 기술의 미래로 가는 관문으로, AI, XR, 웹3 인센티브를 하나의 강력한 생태계로 결합한다"고 전했습니다. [더보기] |
|
|
유력 테크 기업들, 비디오 생성AI 실전 배치...초반 레이스 누가 주도? 📹
오픈AI가 비디오 생성AI 툴인 소라(Sora)를 광범위하게 선보이면서 유력 테크 기업들 간 비디오 AI 레이스가 새로운 국면에 접어들었습니다. 텍스트 프롬프트(지시문구)로 현실적인 고품질 영상을 생성할 수 있는 비디오 AI 시장은 현재 시점에서 오픈AI, 구글, 런웨이 외에 어도비, 메타는 물론 중국 테크 기업들인 텍센트, 클링AI 등까지 가세하며 경쟁이 점점 고조되는 모양새인데요. 각 기업이 집중하고 있는 포인트는 이렇습니다. [더보기]
- 소라 : 주로 텍스트 프롬프트를 통해 짧은 소셜 미디어 및 마케팅용 콘텐츠를 생성하는 데 집중하고 있으며, 사용자에게 다양한 해상도와 길이의 영상을 제공
- 런웨이 : 상업적으로 안전한 비디오 생성 AI 서비스를 제공하며, 영화 기반 모델 학습과 독립적 AI 크리에이터 지원을 통해 상업적 활용을 중점적으로 다루고 있음
- 어도비 : 파이어플라이 비디오를 통해 저작권 문제를 해결하며, 상업적 사용에 법적 안전성을 제공하는 비디오 생성 AI에 집중
|
|
|
AI 기반 포토부스 ‘스냅파이’ 서울숲 플래그십 스토어 오픈 📸
서울시 성동구에 인공지능 포토부스 ‘스냅파이(SNAPAI)’의 플래그십 스토어가 오픈됐습니다. 총 3층으로 구성돼 1, 2층에는 스냅파이 포토부스가 들어서며 3층은 셀프 포토 스튜디오가 마련됐는데요. 1층 포토부스에서는 기본 베이직 촬영과 플레이툰, 캐리커쳐, AI프로필등 다양한 기능을 활용해 볼 수 있으며 2층은 DJ, 미니어쳐, 슈퍼마켓 등 다양한 컨셉으로 이뤄진 컨셉 사진을 촬영할 수 있습니다. 3층에서 이용할 수 있는 셀프 포토 스튜디오에서는 사진 촬영을 위한 전문 사진 기기가 마련돼 전문적인 촬영이 가능하다고 하네요. [더보기]
|
|
|
|