고품질 신속 이미지 생성의 필요성
고품질 이미지를 신속하게 생성하는 것은 자율주행차를 훈련시키기 위한 사실적인 시뮬레이션 환경을 만드는 데 필수적이며, 이는 예측할 수 없는 위험 요소를 잘 탐색하고 실제 도로에서의 안전성을 향상시키는 데 기여합니다.
현재 생성 방식의 도전과제
현재의 생성 AI 기술인 확산 모델은 인상적으로 사실적인 이미지를 생성하지만, 많은 용도에 비해 너무 느리고 계산적으로 무겁습니다. 한편, ChatGPT와 같은 대형 언어 모델(LLMs)을 구동하는 자기 회귀 모델은 더 빠르지만 낮은 품질의 이미지를 생성하여 종종 오류가 발생합니다.
하이브리드 솔루션 HART 소개
MIT와 NVIDIA의 연구자들은 두 모델의 장점을 결합한 새로운 솔루션을 제안했습니다. 그들의 하이브리드 이미지 생성 도구인 HART(Hybrid Autoregressive Transformer)는 자기 회귀 모델을 사용해 이미지를 빠르게 윤곽을 잡고, 더 작은 확산 모델로 세부 요소를 다듬습니다.
HART의 효율성과 다재다능성
HART는 선도적인 확산 모델의 품질에 맞거나 이를 초과하는 이미지를 생성하면서도 약 9배 더 빠르게 작동합니다. 일반적인 확산 모델에 비해 계산 자원을 덜 사용하여 표준 노트북이나 스마트폰에서도 실행할 수 있습니다. 사용자는 자연어 프롬프트를 HART에 입력하기만 하면 이미지를 생성할 수 있습니다.
HART의 확대되는 응용 분야
HART는 연구자들이 로봇을 복잡한 작업으로 훈련하는 데 도움을 주거나 디자이너들이 비디오 게임을 위한 매력적인 장면을 창조하는 데 유망한 응용 분야를 가지고 있습니다.
하이브리드 접근법 이해하기
확산 모델은 각 픽셀에서 무작위 노이즈를 단계별로 제거하는 방식으로 작동하며, 이는 높은 품질을 보장하지만 과정이 느리고 자원을 많이 소모합니다. 반면 자기 회귀 모델은 이미지 조각에 대한 순차적 예측을 수행하여 더 빠르지만 압축하는 과정에서 정보 손실로 인한 오류가 발생할 수 있습니다. HART는 기본 이미지 구조 예측을 위해 자기 회귀 모델을 활용하고, 세부 사항을 포착하기 위해 확산 모델을 활용하여 이전 모델의 잠재적 누락을 수정합니다.
AI 기반 이미지 생성의 밝은 미래
연구자들이 두 모델을 효과적으로 통합하는 데 어려움을 겪었지만, 최종 설계는 품질과 효율성 모두에서 상당한 개선을 이루었습니다. HART는 자기 회귀 모델에서 7억 개의 파라미터와 경량 확산 모델에서 3,700만 개의 파라미터를 결합하여 20억 개 파라미터의 확산 모델과 동등한 이미지를 제공하면서도 계산량은 31% 적게 소모합니다. 앞으로 팀은 HART 프레임워크를 바탕으로 시각-언어 모델을 개발하고 비디오 및 오디오 예측 작업에 적용하는 것을 목표로 하고 있습니다.