🧠 AI가 '보고' '말하게' 되기까지: BLIP 진화의 모든 것
최근 AI 커뮤니티의 가장 큰 화두는 단연 '멀티모달(Multi-modal)'입니다. 텍스트(Text)만 이해하던 AI가 이미지, 오디오까지 함께 이해하고 추론하는 시대로 접어들었습니다.
이 혁명의 중심에는 BLIP이라는 모델 계보가 있습니다. BLIP의 진화 과정을 톺아보는 것은, AI가 어떻게 '눈(Vision)'을 뜨고 '뇌(LLM)'와 연결되었는지 이해하는 가장 빠른 길입니다.
1세대: '이해'와 '생성'을 하나로 BLIP
BLIP 이전, 모델들은 역할이 나뉘어 있었습니다.
- CLIP: 이미지를 '이해'하고 텍스트와 '매칭'하는 데는 뛰어났지만, "이게 뭐야?"라고 물으면 텍스트로 답하지(생성하지) 못했습니다.
- VQA/Captioning 모델: 이미지를 '생성(설명)'할 수는 있었지만, CLIP만큼의 제로샷(Zero-shot) '이해' 능력은 부족했습니다.
- BLIP은 이 둘을 하나의 통합 아키텍처로 합치려는 첫 시도였습니다. '이해' 작업과 '생성' 작업(Decoder)을 모두 수행할 수 있었죠. 또한, 웹에서 수집한 저품질 데이터(Noisy Data)를 스스로 정제하는 '부트스트래핑(Bootstrapping)' 기법으로 성능을 높였습니다.
하지만 거대한 한계에 부딪혔습니다. AI 시장을 집어삼킨 '초거대 언어 모델(LLM)'의 등장이었습니다. BLIP 같은 통합 모델을 처음부터 다시 훈련시키는 것은 막대한 비용이 들었고, 이미 강력한 LLM의 '뇌'를 활용할 방법이 없었습니다.
2세대: LLM에 '눈'을 달아준 혁신 (BLIP-2)
"어떻게 하면 이미 훈련된 강력한 LLM에게 '시각 능력'을 효율적으로 이식할 수 있을까?"
Q-Former: 똑똑한 '시각 정보 번역기'
Q-Former는 ViT가 뿜어내는 수백 개의 방대한 시각 토큰(정보) 중에서, LLM이 '필요로 할 만한' 핵심 정보만을 '질의(Querying)'하여 압축/요약하는 역할을 합니다.
Q-Former는 이 '번역' 능력을 갖추기 위해 복잡한 '2단계 훈련'을 거쳤습니다.
- 1단계 : LLM 없이, ViT와 텍스트(캡션)만으로 3가지 시험(ITC, ITM, ITG)을 통과하며 '언어 친화적인' 요약본을 만드는 법을 미리 배웁니다.
- 2단계 : '고정된 LLM'에 연결되어, LLM이 정답을 잘 맞힐 수 있도록 '요약본'을 미세 조정하는 법을 배웁니다.
💡 “CLIP + LLaMA + Q-Former = 멀티모달 조립식 시대 개막.”
3세대: 더 '단순하게', 더 '강력하게' (BLIP-3)
BLIP-2는 성공했지만, 엔지니어들에게는 여전히 숙제가 있었습니다. "Q-Former의 1단계 훈련(ITC/ITM/ITG)이 너무 복잡하고 엔지니어링이 많이 들어간다."
이때 (2024.08), LLM 자체가 BLIP-2 시절보다 훨씬 더 똑똑해졌다는 것에 주목합니다.
Q-Former를 대체한 'Vision Token Sampler'
BLIP-3는 복잡한 Q-Former를 'Vision Token Sampler (Perceiver Resampler)'라는 초경량 아키텍쳐로 교체했습니다. 이 Sampler는 Q-Former의 '이해(ITC/ITM)' 기능을 모두 버리고, 오직 '토큰 개수 줄이기(압축)'라는 단순한 역할만 수행합니다. 이 단순함 덕분에, 훈련 방식이 '다음 단어 예측(LM Loss)' 단 하나로 통일될 수 있었습니다.
BLIP-3 이후
BLIP-3 단계부터 BLIP 계열은 더 이상 “이미지를 잘 설명하는 모델”을 넘어서, 멀티모달 능력을 강화하는 방향으로 발전해왔습니다.
특히 이후 모델들은 그 시점에 가장 강력하다고 평가받는 AI 아키텍처와 학습 패러다임을 적극적으로 흡수하며 BLIP의 표현력을 확장하는 데 초점을 맞췄습니다.
- BLIP-3o는 Autoregressive LLM과 Diffusion 기반 비전 생성 모델을 함께 활용할 수 있는 구조를 채택했습니다.
- BLIP-3-Next는 강화학습 (RL) 기반의 LLM 파인튜닝 기법을 도입했습니다.
가장 강력한 유산: “오픈소스”라는 철학 🌍
BLIP 시리즈의 진짜 영향력은 Q-Former나 Instruction Tuning 같은 개별 기술 요소를 넘어, “좋은 모델은 모두가 쓰고 발전시킬 수 있어야 한다"는 명확한 철학에서 나옵니다.
BLIP 계열을 만든 Salesforce Research 팀은 처음부터 다음을 핵심 가치로 삼았습니다:
- 연구는 공유될 때 더 빠르게 발전한다.
- 학습자, 개발자, 기업, 연구실 모두가 같은 출발선에 설 수 있어야 한다.
- 멀티모달 AI는 특정 Big Tech의 소유물이 되어서는 안 된다.
즉, BLIP은 "좋은 모델을 모두가 함께 더 좋은 모델로 만든다"는 Open Science의 대표적인 사례입니다. |