안녕하세요 :) Cross Planning 본부 이현정입니다.
2025년 4월 1주차 뉴스레터 발송드립니다.📮
<GIANTSTEP News> 빠른 제보는 슬랙 메시지 💌 @XP 사업기획팀 이현정
(📢 매주 목요일 오전까지 접수, 이후 제보는 차주 발행) |
|
|
컴퓨터 비전 AI의 발전을 논할 때, 2014년 옥스퍼드 대학교 Visual Geometry Group(VGG)이 개발한 VGGNet을 빼놓을 수 없습니다. VGGNet은 단순하면서도 깊이 있는 합성곱 신경망(CNN) 구조를 통해 이미지 인식 정확도를 획기적으로 향상시켰으며, 다양한 비전 작업에서 널리 활용되며 딥러닝 연구의 초석이 되었습니다.
이제, VGG의 유산을 계승하며 새로운 혁신이 등장했습니다. 바로 Visual Geometry Grounded Transformer(VGGT)입니다. VGGT는 VGGNet의 철학을 확장하여 3D 컴퓨터 비전 문제를 해결하는 새로운 접근 방식을 제안합니다. 2D 이미지를 넘어 3D 세계를 이해하고 재구성하는 데 집중하며, 딥러닝과 기하학적 추론을 결합해 기존의 한계를 뛰어넘고 있습니다.
이번 뉴스레터에서는 VGGT가 무엇이며, 컴퓨터 비전 분야에서 어떤 새로운 가능성을 열어가고 있는지 자세히 살펴보겠습니다.
VGGT의 주요 특징
- 다양한 3D 속성 추론: VGGT는 카메라의 내·외적 파라미터, 깊이 맵, 점 맵, 3D 포인트 트랙 등을 동시에 예측할 수 있습니다. 이를 Multi-task Learning이라 하며, 이 방식을 통해 VGGT는 3D 세계를 더욱 깊이 이해하고 활용할 수 있습니다.
- 뛰어난 효율성과 속도: 기존 연구들은 Bundle Adjustment를 활용한 사후 최적화 방식으로 3D 속성을 추론하지만, 이는 계산량이 많아 속도가 느립니다. 반면, VGGT는 Single Forward Pass 방식으로 추론을 수행하며, 이미지를 1초 이내에 재구성할 수 있습니다. 후처리 없이도 기존 최첨단 기술을 능가하는 성능을 보여줍니다.
- 다중 작업 처리 능력: VGGT는 특정 작업에 국한되지 않고 다양한 3D 작업을 통합적으로 수행할 수 있습니다. 마치 2D 비전 분야에서 VGGNet이 강력한 Backbone Model로 자리 잡았듯, VGGT 역시 3D 작업 전반에서 폭넓게 활용될 수 있는 모델입니다.
아키텍처와 방법론
VGGT의 아키텍쳐의 특징은 3D를 위한 특별한 구조가 아니라는데에 있습니다.
- 트랜스포머 기반 설계: VGGT는 입력 이미지를 DINO를 통해 작은 패치로 나누고, 카메라 예측을 위한 토큰을 추가합니다. 이후 frame별 self-attention과 global self-attention layer를 번갈아 적용하여 이미지 간 일관성과 디테일을 확보합니다
- 대규모 데이터 학습: VGGT는 방대한 3D dataset으로 학습되었으며, 이를 통해 다양한 장면에서 높은 일반화 성능을 보입니다.
결과와 응용
VGGT는 다양한 3D 작업에서 최첨단 성능을 기록하며, 특히 로마 콜로세움과 같은 복잡한 구조물이나 실내 공간에서도 정교한 3D 재구성을 구현했습니다. 또한 사전 학습된 VGGT를 특징 backbone model로 활용하면 dynamic point tracking이나 novel view synthesis과 같은 downstreaming task에서도 성능 향상을 기대할 수 있습니다.
Demo영상
|
|
|
📢 AI 기술에 대해 궁금한 점이 있으신 분들은 플랫폼실 AI팀으로 문의주시면
언제든 상담이 가능합니다. 💡 |
|
|
GPT-4o부터 제미나이2.5까지…2025년 최신 AI 모델 총정리
생성형 인공지능(AI) 시장이 빠르게 변화하는 가운데, 여러 기업들이 새로운 AI 모델을 속속 공개하고 있는데요. 실제 사용자나 기업들에게 어떻게 활용되는지는 명확하지 않아 혼란을 야기하는 경우가 종종 발생합니다. 이러한 혼란을 줄이기 위해 IT매체 테크크런치는 2024년 이후 출시된 가장 진보된 AI 모델의 사용 방법 및 강점 등을 소개하고, 오픈소스 커뮤니티인 허깅 페이스(Hugging Face)가 보유한 약 140만 개 이상의 AI 모델 중 일부 상위 모델을 비교 분석했습니다. [더보기]
- Gemini 2.5 Pro Experimental (구글) : 웹 앱·코드 에이전트 구축에 특화된 추론 모델
- GPT-4o (오픈AI) : 텍스트와 이미지 생성 가능. 지브리 스타일 이미지로 인기 급상승, 서버 부하로 무료 기능 일시 제한.
- GPT-4.5 (오픈AI) : 세계 지식·감정 기능 강조. 일반 QA 정확도는 우수하지만 코딩·학술 벤치마크는 중간 수준.
- OpenAI Operator & Deep Research (오픈AI) : 웹 브라우저 조작 및 전문 리서치 자동화 기능 제공. 분석 보고서 생성까지 가능.
- Stability AI 3D 모델 : 단일 2D 이미지를 몰입형 3D 비디오로 변환. 복잡한 움직임(사람, 물 등)에는 아직 미숙.
- Aya Vision (Cohere) : 다국어 이미지 이해 및 텍스트 생성 가능한 VLM. 영어 외 언어에서도 성능 우수, 왓츠앱에서 무료 사용 가능.
- Le Chat 앱 (Mistral) : 멀티모달 개인 AI 비서. 다양한 입력 모드 지원, 앱으로도 사용 가능.
- Grok 3 (xAI/일론 머스크) : 수학, 과학, 코딩 분야에서 경쟁 모델보다 뛰어나다고 주장하는 플래그십 모델.
|
|
|
너도 나도 '지브리 프사' 하더니…챗GPT, 1주일 만에 이미지 7억장 제작
오픈AI의 챗GPT가 새롭게 도입한 이미지 생성 기능이 출시 1주일 만에 7억 장 이상의 이미지를 제작하며 큰 인기를 끌고 있습니다. 브래드 라이트캡 오픈AI 최고운영책임자(COO)는 4월 3일(현지 시간) 엑스를 통해 "아주 미친 첫 주였다. 1억3000만 명 이상의 사용자가 7억 개 이상의 이미지를 생성했다"고 밝혔습니다. 이 기능은 지난달 25일 공개된 GPT-4o 기반으로, 기존의 '달리(DALL-E)'보다 더 정교한 이미지 생성이 가능합니다. 특히 일본 애니메이션 제작사 '스튜디오 지브리'의 화풍을 모방한 이미지가 화제가 되었는데요. 이에 챗GPT 주간 이용자 수(WAU)와 유료 구독자 수가 지난 분기 말 기준 각각 5억명, 2000만명을 돌파했습니다. 지난해 말 대비 WAU는 1억5000만명, 유료 구독자 수는 450만명 늘었습니다.
한편, 지브리 화풍 이미지 생성에 대한 저작권 논란도 제기되고 있습니다. 지브리 스튜디오 설립자인 미야자키 하야오 감독은 과거 AI 기술로 애니메이션을 만드는 것에 대해 부정적인 견해를 밝힌 바 있으며, 일본 애니메이션 '원피스'의 감독 이시타니 메구미도 지브리 화풍 AI 이미지에 대해 비판적인 입장을 표명했습니다. [더보기]
|
|
|
클로버웍스, BTS 오리지널 스토리 『7FATES: CHAKHO』 및 TXT 오리지널 스토리 『별을 쫓는 소년들』 원작 단편 애니메이션 영화 공개
일본 애니메이션 스튜디오 클로버웍스(CloverWorks)가 방탄소년단(BTS)과 투모로우바이투게더(TXT)의 오리지널 스토리를 원작으로 한 약 10분 분량의 애니메이션 단편 영화를 공개했습니다.
『7FATES: CHAKHO』는 하이브(HYBE)와 BTS의 협업으로 탄생한 웹툰 및 웹소설 시리즈로, 조선시대 호랑이를 잡던 부대 ‘착호갑사’에서 영감을 받아 탄생했습니다. 부패한 근미래 도시 ‘신시’를 배경으로, 호랑이와 인간 사이의 대립을 그린 한국형 판타지 작품입니다.
또 다른 작품 『THE STAR SEEKERS』(별을 쫓는 소년들)는 TXT가 주인공으로 등장하며, 마법이 존재하는 세계 속에서 마법이 없던 아이돌 그룹 ‘스타원(Star One)’이 마법 능력을 각성하게 되며 벌어지는 이야기를 담고 있습니다.
이 두 작품을 원작으로 제작된 애니메이션 단편은 클로버웍스의 공식 유튜브 채널을 통해 감상할 수 있습니다. [더보기]
|
|
|
틱톡, 아티스트 전용 플랫폼 테스트 중…팬 소통·데이터 분석 지원
틱톡(TikTok)이 아티스트들의 커리어 구축을 지원하기 위한 새로운 플랫폼인 '아티스트 포 틱톡(TikTok for Artists)'을 테스트하고 있습니다. 이 플랫폼은 아티스트들이 팬들과 소통하고, 자신의 음악이 틱톡에서 어떻게 활용되는지에 대한 데이터를 분석할 수 있도록 설계되었습니다. 이를 통해 아티스트들은 자신의 음악 활동을 보다 효과적으로 관리하고 홍보할 수 있을 것으로 기대됩니다. [더보기] |
|
|
|