간단한 텍스트 명령어로 포토 편집의 혁신을 가져온 AI

구글의 제미니 2.0 플래시: 사진 편집의 새로운 시대

지난 주, 구글은 전문가가 아닌 일반 사용자들이 기술적인 지식 없이도 간단한 영어 명령어로 이미지 편집이 가능한 고급 버전의 제미니를 소프트 론칭했습니다. 실험적인 제미니 2.0 플래시는 이미지 생성 기능을 포함하고 있으며, 지난해에는 테스터들만 이용할 수 있었던 것이 이제는 모두에게 개방되었습니다.

기존의 대부분 AI 이미지 도구가 주로 이미지 생성에 집중하는 것과 달리, 구글은 기존 사진을 깊이 이해하여 자연어 대화를 통해 수정할 수 있는 시스템을 개발했습니다. 이로 인해 원본 콘텐츠의 많은 부분은 유지되면서도 특정 요소를 변경할 수 있습니다.

이 기능은 제미니 2.0의 다중 모달 특성 덕분에 가능한 것으로, 텍스트와 이미지를 동시에 이해할 수 있습니다. 모델은 이미지를 토큰으로 나누어 분석하며, 이는 텍스트를 처리하는 방법과 유사합니다. 이러한 이유로 시각적 요소를 언어 이해에 사용하는 신경 경로와 동일한 방식으로 다룰 수 있습니다. 이 통합된 접근 방식 덕분에 시스템은 서로 다른 미디어 유형에 대해 별도의 전문 모델에 의존할 필요가 없습니다.

구글에 따르면, “제미니 2.0 플래시는 다중 모달 입력, 향상된 추론 능력 및 자연어 처리를 결합하여 이미지를 생성합니다.” 사용자는 이야기를 만들 수 있으며, 모델은 이를 그림으로 표현해 주므로 캐릭터와 설정의 일관성이 보장됩니다. 사용자 피드백을 환영하여 이야기를 수정하거나 일러스트 스타일을 변경할 수 있습니다.

구글의 접근 방식은 이미지 생성을 위해 Dall-E 3를 사용하는 ChatGPT와 같은 경쟁자들과 확연한 대조를 이룹니다. ChatGPT는 여러 모델과 함께 작동하지만, 제미니는 보다 통합된 솔루션을 목표로 하고 있습니다.

비슷한 개념은 북경 인공지능 연구원에서 개발한 오픈 소스 프로젝트인 OmniGen에서 탐구되고 있습니다. OmniGen의 창립자들은 추가 플러그인 없이 다중 모달 명령을 통해 다양한 이미지를 생성할 수 있는 모델을 만들고자 노력하고 있습니다. 이는 GPT가 언어 생성을 처리하는 방식과 유사합니다.

제미니 2.0 플래시 테스트

제미니 2.0 플래시를 평가하는 과정에서 다양한 편집 작업에서의 성능을 탐구하며 놀라운 강점과 큰 한계를 모두 확인했습니다. 이 모델은 주제를 현실적으로 수정하는 능력을 보여주었으며, 변경이 이루어졌음에도 불구하고 그들의 인식 가능한 특징을 유지했습니다. 그러나 도구에는 특정 제약 사항이 있으며, 예를 들어 민감한 콘텐츠를 편집하는 것을 거부합니다.

스타일 변환 측면에서 제미니는 만화와 같은 다양한 예술적 스타일로 이미지를 전환하는 데 뛰어난 성과를 보였습니다. 일반적인 스타일 요청에는 잘 반응했지만, 특정 아티스트의 기법을 재현하라는 요청에는 어려움을 겪어 그들의 독창적인 작품을 그대로 재생산하는 경우가 많았습니다.

제미니는 또한 이미지 내 개체를 능숙하게 조작하는 능력을 보여주며, 직관적인 인페인팅 기능과 개체 교체를 제공합니다. 맥락이 풍부한 편집을 생성하는 데 인상적인 결과를 보였지만, 때때로 사소한 세부 사항의 불일치를 도입하기도 했지만 이는 표준 디지털 편집 도구로 쉽게 수정할 수 있는 부분이었습니다.

모델의 시점 변경 능력은 사용자가 새로운 각도에서 장면을 시각화할 수 있도록 하여 유용성을 크게 향상시킵니다. 비록 사소한 불완전함이 있긴 하지만, 이는 AI의 3차원성에 대한 이해가 크게 향상된 것을 의미합니다. 다만, 요청을 정확히 표현하는 것이 중요합니다. 왜냐하면 모델이 의도한 배경 대신 전체 구성을 수정할 수 있기 때문입니다.

결국, 제미니 2.0 플래시는 현재 다양한 지역에서 구글 AI 스튜디오와 제미니 API를 통해 개발자들에게 제공됩니다. 또한 구글 플랫폼이 아닌 대안을 찾는 이들을 위해 Hugging Face에서도 제공되고 있습니다. 구글의 이 숨겨진 보석은 이미지 편집을 위한 생성 AI의 독특한 기능을 보여주며, 사용자들이 그 잠재력을 탐험하고 즐길 수 있도록 초대합니다.

Leave a Comment