OpenAI가 GPT-4o를 공개하다: 혁신적인 이미지 생성으로 사용자들의 마음을 사로잡다

일일 및 주간 뉴스레터를 구독하여 최신 업데이트와 독점적인 인사이트를 받아보세요. 자세히 알아보기

2024년 5월 OpenAI가 다중 모달 모델 GPT-4o를 발표한 첫 번째 기념일이 다가오고 있으며, 이 모델은 여전히 상당한 능력을 보여주고 있습니다.

최근에 OpenAI는 ChatGPT 플랫폼 내에서 기본 다중 모달 이미지 생성 기능의 활성화를 발표했습니다. 이 기능은 Plus, Pro, Team 및 Free 등급의 사용자들이 이용할 수 있습니다. 또한 기업 사용자, 교육 플랫폼, API를 통한 접근도 곧 가능해질 것이라고 밝혔습니다.

이 새로운 이미지 생성 기능은 이전에 제공되었던 생성적 AI 이미지 모델인 DALL-E 3와는 다릅니다. DALL-E 3는 이미지 재구성에 중점을 둔 확산 변환기 모델을 기반으로 했던 반면, GPT-4o의 이미지 생성은 텍스트와 코드를 생성하는 동일한 프레임워크 내에 통합되어 다양한 미디어 유형에 대한 더 일관된 이해를 가능하게 합니다.

OpenAI의 회장인 Greg Brockman은 2024년 5월 이 기능에 대한 예고를 했지만, 회사는 최근까지 발표를 지연시킨 것으로 보입니다. 이는 Google의 Gemini 2 Flash Experimental 모델과의 경쟁 때문일 가능성이 있습니다. 이러한 지연된 공개로 인해 GPT-4o는 더 현실적인 이미지와 의미 있는 텍스트 통합을 생성하는 고급 이미지 생성기로 자리잡았으며, 사용자는 이미 그 품질에 대해 긍정적인 반응을 보이고 있습니다.

OpenAI는 GPT-4o의 이미지 기능을 훈련하기 위해 사용된 특정 데이터셋에 대해 공개하지 않았지만, 인터넷에서 수집된 다양한 예술 작품이 포함되어 있을 것으로 보이며, 그 중 일부는 저작권이 있을 수 있어 원작자에게 잠재적인 우려를 주고 있습니다.

Table of Contents

ChatGPT와 Sora에서의 이미지 생성 통합

OpenAI는 자사 AI 제품 내에서 이미지 생성을 개선하기 위한 노력을 강조하고 있습니다. GPT-4o의 발전 덕분에 사용자들은 ChatGPT에서 직접 이미지를 생성하고 대화 중에 상호작용적으로 수정할 수 있습니다.

이 기능은 OpenAI의 비디오 생성 플랫폼인 Sora에도 확장되어 다중 모달 기능이 더욱 강화됩니다. OpenAI는 X에서 GPT-4o의 이미지 생성 기능이 다음과 같은 가능성을 제공한다고 자세히 설명했습니다:

표지판, 메뉴, 정보 그래픽을 만들기 위한 이미지 내 텍스트 정확한 렌더링.
복잡한 프롬프트를 따르는 정밀함, 정교한 디자인의 품질 유지.
이전 출력물을 기반으로 여러 요청에 걸쳐 시각적 일관성 유지.
사진 실사에서 스타일화된 형식까지 다양한 예술적 스타일의 유연성.

사용자는 ChatGPT를 통해 이미지에 대한 설명을 쉽게 작성하고, 비율과 색 구성 등을 지정할 수 있으며, 일반적으로 1분 이내에 결과를 생성할 수 있습니다.

주요 특징 및 응용 프로그램

GPT-4o의 설계는 시각적으로 매력적인 결과를 달성하는 것뿐 아니라 실용적인 응용을 목표로 하고 있습니다. 주요 용도는 다음과 같습니다:

브랜딩 및 디자인 – 텍스트 배치가 정확한 로고, 포스터, 광고 제작.
교육 및 시각화 – 교육 목적으로 과학 다이어그램 및 정보 그래픽 제작.
게임 개발 – 다양한 디자인 반복을 통해 캐릭터 일관성 보장.
마케팅 및 콘텐츠 생성 – 특정 브랜드 요구에 맞춘 소셜 미디어 자산과 이벤트 초대장 생성.

DALL-E에 대한 개선 사항

OpenAI는 GPT-4o가 이전 모델에 비해 제공하는 여러 가지 개선 사항을 강조합니다:

향상된 텍스트 통합: GPT-4o는 이미지 내에서 텍스트를 명확하게 삽입합니다.
더 나은 맥락 인식: 사용자는 이미지를 상호작용적으로 수정할 수 있으며, 생성 간 흐름을 유지합니다.
고급 다중 객체 배열: 10-20개 객체를 동시에 정확하게 배치할 수 있습니다.
다양한 스타일 조작: 스케치에서 높은 품질의 실사 이미지까지 다양한 스타일 생성.

과제 및 안전장치

비록 많은 발전이 있었지만, GPT-4o는 여러 제한 사항에 직면해 있습니다:

크로핑 문제: 때때로 큰 이미지를 너무 타이트하게 자릅니다.
비 라틴 스크립트의 텍스트 문제: 비영어 문자가 정확하게 렌더링되지 않을 수 있습니다.
작은 텍스트의 명확성: 세부 사항이 불분명해질 수 있습니다.
편집 적응성: 이미지의 한 부분에서의 변경이 의도치 않게 다른 부분에 영향을 줄 수 있습니다.

OpenAI는 이러한 문제를 지속적인 모델 개선을 통해 해결하기 위해 적극적으로 노력하고 있습니다.

안전 프로토콜 및 이미지 검증

OpenAI의 책임 있는 AI 개발 관행과 일치하게, GPT-4o로 생성된 모든 이미지는 AI 출처를 확인하기 위해 C2PA 메타데이터가 삽입됩니다. 회사는 또한 AI로 생성된 이미지를 식별하기 위한 내부 검색 기능을 개발하고 해로운 콘텐츠 생성을 방지하기 위한 엄격한 조치를 시행하고 있습니다. 특정 제한 사항은 안전성을 높이기 위한 실제 인물의 이미지에 적용됩니다.

OpenAI의 CEO인 Sam Altman은 이번 릴리스를 창의적 자유의 이정표로 간주하며, 이러한 발전이 사용자에게 다양한 비주얼을 생성할 수 있는 기회를 제공한다고 강조했습니다. AI 기반 이미지가 더 정밀하고 접근 가능해짐에 따라 GPT-4o는 다양한 창의적 응용을 위한 텍스트-이미지 기술의 주류화를 위한 중요한 발전을 이룩했습니다.