텍스트와 이미지를 결합한 첫 AI모델

오픈AI가 25일(현지시간) 새로운 이미지 생성 인공지능(AI) 모델을 출시한다고 밝혔다. ‘챗GPT-4o(포오) 이미지 생성(ChatGPT-4o Image Generation)’ 모델로 챗GPT-4o를 이미지 생성 AI 모델을 결합한 형태다.
뉴욕타임스(NYT)에 따르면 오픈AI는 이날부터 챗GPT-4o 이미지 생성 모델의 무료 및 유료 버전으로 제공된다고 밝혔다. 한국어로도 이미지 생성이 가능하다.
이전 버전의 챗GPT도 이미지를 생성할 수 있었지만, 여러 개념을 혼합해 신뢰성 있는 이미지를 생성하지는 못했다. 2022년 말 처음 출시된 챗GPT에는 이미지 생성 기능이 없었다. 1년 뒤 오픈AI는 이미지 생성형 AI 달리(DALL-E)를 출시했다.
오픈AI에 따르면 챗GPT-4o 이미지 생성 모델은 달리보다도 더 정교하고 쉽게 이미지를 생성한다. 또 챗GPT-4o가 학습한 모든 것을 이미지 생성에 활용한다.
관련 뉴스
가브리엘 고 오픈AI 연구원은 “이것은 완전히 새로운 종류의 기술”이라며 “우리는 이미지 생성과 텍스트 생성을 분리하지 않는다. 모든 것이 함께 이뤄지길 바란다”고 설명했다.
기존 AI 이미지 생성 모델은 일반적인 이미지와 다른 이미지를 만드는 데 어려움을 겪기도 했다. 예를 들어 기존 모델은 삼각형 바퀴가 달린 자전거 이미지를 요청하면 성공해내지 못했지만, 챗GPT-4o 이미지 생성 모델은 가능하다는 것이다.
또 네 개의 패널로 구성된 만화를 그려달라는 요청도 쉽게 해낸다는 게 오픈AI의 설명이다. 각 패널에 등장하는 캐릭터와 서로에게 하는 말도 텍스트로 정교하게 삽입해 그려낸다. 이외에도 자연법칙에 관한 이미지도 쉽게 만들어낸다.
NYT는 챗GPT가 단순히 텍스트를 생성하는 모델에서 채팅은 물론 이미지 생성 등 다양한 기능을 결합한 도구로 발전해가고 있다고 평가했다.