안녕하세요 :) Cross Planning 본부 이현정입니다.
2025년 9월 4주차 뉴스레터 발송드립니다.📮
<GIANTSTEP News> 빠른 제보는 슬랙 메시지 💌 @XP 사업기획팀 이현정
(📢 매주 목요일 오전까지 접수, 이후 제보는 차주 발행) |
|
|
🧑🎤 Kling-Avatar: 고품질 아바타 영상 생성 전문가
(플랫폼실 AI팀 기고) |
|
|
📰 Kling-Avatar, 아바타 생성의 새로운 기준
최근 Veo 3를 비롯한 생성형 AI 비디오 모델의 발전으로, 누구나 텍스트나 오디오만으로 사실적인 영상 을 만들 수 있는 시대가 열렸습니다. 이런 상황에서 지난 주 공개된 Kling-Avatar 는 단순한 합성을 넘어, 아바타 생성의 새로운 혁신을 보여주었습니다. 공개 직후부터 X(Thread)와 YouTube 등 커뮤니티 전반에서 뜨거운 반응이 이어지고 있는데요, 오늘은 이 Kling-Avatar가 무엇인지 자세히 알아보겠습니다.
🛤️ 연구 배경 |
|
|
‘남자가 노래를 부른다.’ 라는 프롬프트와, ‘슬픈 음악’의 오디오 내용에 일치하지 않는 영상이 생성되는 경우
최근 영상 생성 모델은 오디오, 이미지, 텍스트 지시 등 다양한 모달리티를 입력으로 활용하며 빠르게 발전하고 있습니다. 그러나 여전히 사용자의 의도와 감정을 얼마나 정확하게 이해하고 표현하는지는 아직까지 큰 과제로 남아 있습니다.
Kling-Avatar는 이러한 최신 영상 생성 모델의 한계, 즉 ‘멀티모달 지시 이해’ 부족 문제를 해결하고자 제안되었습니다. 기존 모델들은 입력 신호를 단순히 맞추는 수준에 머물러, 각 모달리티 간 의미적 충돌이 발생하곤 했습니다. 예를 들어, 위의 예시처럼, 시각적 합성은 매끄럽지만 인간의 기대와는 어긋나는 ‘불일치’가 나타나는 것입니다.
Kling-Avatar는 이러한 불일치를 제거하기 위해, MLLM Director를 도입해 오디오·이미지·텍스트 지시를 통합적으로 이해하고, 이를 기반으로 스토리라인을 구성합니다. 그 결과 아바타는 단순한 입모양 합성을 넘어, 감정·행동·카메라 무빙까지 일관성 있게 표현할 수 있습니다.
🚀 기술적 핵심 |
|
|
1. MLLM Director (스토리텔러 역할)
- 오디오(Whisper), 이미지(Qwen2.5-VL), 텍스트(T5)를 받아, 종합적인 스토리라인을 작성.
- 예: “화난 목소리 → 인상 찌푸리기 + 카메라 줌인” 같이 의도와 감정을 반영.
2. 2단계 계단식 제작 파이프라인
- Blueprint video: 전체 스토리의 큰 흐름을 잡는 영상 생성
- Sub-clip 병렬 생성: 블루프린트의 keyframe을 anchor로 삼아, 부분 영상을 빠르고 안정적으로 합성
- 결과: 긴 영상도 흔들림 없이 아이덴티티 유지, 병렬 생성으로 빠르게 영상 생성
3. 고품질 데이터 준비
- 수천 시간의 영상 중에서 전문 모델 기반의 필터링(입술 선명도, 오디오-영상 싱크, 미학 점수 등)을 통해 선별
- 벤치마크(375 샘플)에는 다국어·노래·애니메이션 캐릭터까지 포함 → 범용성 평가
- 150개의 영어, 150개의 중국어, 35개의 한국어, 40개의 일본어 샘플 사용
📊 성능 비교
- 경쟁 모델: OmniHuman-1, HeyGen
- Lip sync, 시각적 품질, 지시 이행력, ID 유지력 전반에서 우위
- 특히 HeyGen은 5초 동작 패턴 반복 → 안정적이지만 단조로움
- Kling-Avatar는 다양성·감정 표현·장기 안정성에서 압도
✨ 하이라이트
- Kuaishou의 Kling 팀이 공개한 Kling-Avatar는 오디오·이미지·텍스트 지시를 동시에 이해하는 멀티모달 아바타 영상 생성 모델
- 단순히 자연스러운 영상 생성이나 입모양 맞추기 수준을 넘어, 감정·행동·카메라 무빙까지 지시를 이해해서 표현
- 전체 문맥에 대한 이해를 갖춘 MLLM (Multimodal Large Language Model) 기반의 AI 감독이 세분화된 영상 생성 지시문을 생성
- 1080p·48fps 장시간 영상도 안정적으로 합성 → 라이브 방송, 교육, Vlog 활용까지 확장 가능
✅ 고찰
오늘 소개한 Kling-Avatar는 뛰어난 데모 영상을 통해 AI를 연구하고 활용하는 모두에게 강렬한 인상을 남겼습니다. 특히 흥미로운 점은 MLLM이 단순한 보조 역할을 넘어, 생성 과정에 직접 개입해 **연출자(Director)**로서 기능했다는 사실입니다. 이는 AI가 더 이상 하나의 블랙박스에 머무르지 않고, 서로 다른 모듈이 협력하며 새로운 시너지를 만들어내는 방향으로 진화하고 있음을 보여줍니다.
궁극적으로, 우리는 대규모 모델을 설계·구축하는 방식이 새로운 패러다임으로 전환되고 있음을 실감할 수 있습니다.
👉 Kling-Avatar의 다양한 생성 영상은 아래 링크와 본문에서 직접 확인해보실 수 있습니다.
|
|
|
📢 AI 기술에 대해 궁금한 점이 있으신 분들은 플랫폼실 AI팀으로 문의주시면
언제든 상담이 가능합니다. 💡 |
|
|
🎶 메타, AI 숏폼 영상 플랫폼 '바이브스' 공개…새로운 콘텐츠 흐름 제시
메타가 AI 기반 숏폼 영상 플랫폼 확장에 나섰습니다. 메타는 자사 AI 앱과 웹사이트에 새로운 피드 '바이브스(Vibes)’를 도입했는데요, 이는 AI가 생성한 짧은 영상들을 모아 제공하는 공간입니다. 사용자는 기존 영상을 변형하거나 처음부터 직접 제작할 수 있으며, 완성된 콘텐츠는 DM으로 공유하거나 인스타그램·페이스북에 교차 게시할 수 있습니다.
마크 저커버그 CEO는 이번 기능을 “새로운 제품 방향의 초기 단계”라고 설명하며, 메타 슈퍼인텔리전스 랩스가 미드저니, 블랙 포레스트 랩스와 협력해 향후 AI 프로젝트를 추진할 것임을 밝혔습니다. 이를 통해 메타는 인스타그램 릴스나 페이스북 스토리와 차별화되는 AI 중심의 영상 생태계를 구축하고, 생성형 AI를 핵심 전략에 더욱 깊이 편입하려는 의도를 드러내고 있습니다. [더보기]
- Introducing Vibes: A New Way to Discover and Create AI Videos [바로가기]
|
|
|
🕶 메타, 스마트 글래스 팝업 매장 오픈…소비자 체험 확대
메타가 AI 스마트 글래스 ‘메타 레이밴 디스플레이’ 출시를 앞두고 미국 주요 도시에 체험형 팝업 매장 ‘메타 랩’을 엽니다. 라스베이거스(10월 16일), 로스앤젤레스(10월 24일), 뉴욕(11월 13일)에서 순차적으로 운영되는 이번 매장은 소비자가 직접 제품을 착용하고 AI 기능을 경험할 수 있도록 기획되었으며, 맞춤형 피팅과 다양한 리얼리티 랩 제품 체험도 함께 제공됩니다.
AI 스마트 글래스 시장에 대한 관심이 높아지는 가운데, 메타는 메타 랩을 통해 소비자 경험을 극대화하는 전략적 행보를 이어가고 있습니다. 이번 팝업 매장이 단순한 전시를 넘어 AI 스마트 글래스 대중화의 기폭제가 될 수 있을지 주목됩니다. [더보기]
|
|
|
🎬 엔하이픈 VR 콘서트, 3만명 관객 동원..."역대 최대 성적"
어메이즈VR이 제작한 글로벌 그룹 엔하이픈의 첫 VR 콘서트 ‘엔하이픈 VR 콘서트 : 이머전’이 지난 18일 국내 상영을 마쳤습니다. 8월 8일 개봉 이후 약 3만 명을 동원하며 평균 43%의 좌석 점유율을 기록, 국내 VR 콘서트 사상 최고 성적을 달성했습니다. 단일관 개봉임에도 영화 흥행 기준인 30%를 크게 웃도는 성과를 보이며 극장가에 활기를 불어넣었습니다.
‘이머전’은 눈앞 0cm에서 아티스트를 만나는 듯한 초근접 체험으로 팬덤을 넘어 일반 관객까지 사로잡았고, 관람객 평점 9.9점과 “콘서트계의 혁명”이라는 호평을 이끌었습니다. 일부 팬은 9회차 관람을 기록할 정도로 열광적인 반응을 보였습니다. 국내 성공은 곧 글로벌 확장으로 이어져 멕시코, 홍콩, 일본 주요 도시, 대만, 영국, 독일, 베트남, 싱가포르 등 아시아·미주·유럽 40여 개 도시에서 순차 상영됩니다. 이는 K-POP VR 콘서트 사상 최대 규모 프로젝트로, 엔하이픈의 세계적 위상을 다시 입증하는 자리이기도 합니다. [더보기] |
|
|
(영상=엔하이픈 VR콘서트 리액션 영상, 어메이즈) |
|
|
⭐️ 심화하는 AI 챗봇 활용 사례…종교로도 확대
뉴욕타임스가 최근 보도한 바에 따르면, AI 종교 앱들이 세계적으로 큰 인기를 얻고 있습니다. 챗봇 형식으로 성경을 공부할 수 있는 ‘바이블 챗’은 3천만 건 이상 다운로드를 기록했고, 기독교 명상, 기도 앱 ‘할로우’는 지난해 앱스토어에서 넷플릭스·인스타그램·틱톡을 제치고 1위에 올랐습니다. 또 다른 앱 ‘프레이닷컴’은 2천5백만 건 다운로드 이후 AI 챗봇 기능을 추가했습니다. 국내에서는 로켓AI의 ‘운세박사 타로GPT’가 GPT스토어 라이프스타일 부문 글로벌 3위를 기록 중이며, 중국에서도 ‘딥시크’를 활용한 운세 분석이 확산되고 있습니다.
이들 앱은 연간 최대 70달러의 구독료를 받고 있으며, 이미 수천만 달러 규모의 투자를 유치했습니다. 종교계에서도 교회·회당 방문자가 줄어드는 상황에서 영적 앱이 신앙으로 들어가는 통로가 될 수 있다며 대체로 긍정적인 반응을 보이고 있습니다. 실제로 독일에서는 2023년 AI 챗봇이 교회에서 설교한 사례가 있었고, 트위치에서는 ‘AI 예수’ 챗봇이 게이머들과 소통하며 화제가 되기도 했습니다.
다만 전문가들은 신학적 깊이를 다루지 못하고 듣기 좋은 이야기만 제공하는 점, 환각·편견 등 기존 한계가 남아 있다는 점을 지적했습니다. 일부 이용자들은 위로와 확신을 얻고 있지만, 챗봇이 진정한 영적 분별력을 대신할 수 있는지에 대해서는 논란이 이어지고 있습니다. [더보기] |
|
|
|