오픈AI, 글 읽고 그림 그리는 GPT-3용 새 모델

일론 머스크 등이 설립한 인공지능 연구소 오픈에이아이(OpenAI)가 텍스트를 보고 이미지를 창작해 그릴 수 있는 새로운 AI 모델 달·리(DALL·E)를 5일(현지시각) 공식 블로그를 통해 공개했다. 

극강 자연어처리(NLP) GPT-3 자기회귀 언어모델에 컴퓨터 비전 기술을 결합한 새로운 모듈 DALL·E는 부자연스러운 텍스트를 입력해도 그에 대응하는 이미지를 창조해 낸다.

DALL·E는 에스파냐 초현실주의 화가 살바도르 달리(Salvador Dalí)와 픽사(Pixar) 영화 월·리(WALL·E)를 합성한 이름이다.

DALL-E로 생성한 <파란색 모자, 빨간 장갑, 녹색 셔츠, 그리고 노란색 바지를 입은 아기 펭귄의 이모지> 이미지. 출처: OpenAI

GPT-3는 오픈 AI가 신경망이 텍스트 처리와 생성에 어느 정도까지 도달할 수 있는지를 보여주기 위해 개발됐다. GPT-3는 그간 인간처럼 각종 언어 관련 문제풀이, 랜덤 글짓기, 간단한 사칙연산, 번역, 주어진 문장에 따른 간단한 웹페이지 제작, 코딩, 디자인 등이 가능하다.

무려 1,750억개 매개변수를 가지고 있는 GPT-3가 생성하는 문장은 질은 매우 높다. 인간이 작성한 문장과 구별하기 어려울 정도다. 2020년 5월 28일 GPT-3 논문을 발표한 오픈AI 연구팀이 GPT-3 잠재적 위험을 경고할 정도다. 

연구팀은 이러한 능력을 공간지능으로 확장했다. 사용자가 문장을 입력하고 DAL·E는 그래픽과 이미지를 사용해 새로운 내용을 생성한다. 이를테면 사용자가 “고양이 발톱과 새꼬리를 가진 개”를 입력하면, 시스템은 이러한 특징을 가진 개가 아닌 만화 같은 이미지를 생성한다. 원본 문장에 대해 관련성이 떨어지는 두 사물을 그럴듯하게 합성한다. 

이 시스템은 인터넷 웹페이지 말뭉치(코퍼스)를 사용해 이미지를 생성한다. 텍스트 내용의 사물이 어떻게 생겼는지 조사한다. 수천 개의 개 사진을 검색 분석하고 고양이들과 발톱이 어떻게 생겼는지, 또 새들과 꼬리를 분석한다. 그럼 다음 여러 그래픽 이미지로 결합해 다양한 결과를 제공한다.

하지만 한계도 보인다. DALL·E가 선보인 공간추론 능력이나 여러 사물을 그리는 능력을 보여줬지만 공개된 DALL·E를 접한 해외 네티즌들은 “캡션에 사물이 많이 포함될수록 그릴 대상이 무엇인지 명확히 파악해 이를 조합하지 않고 그대로 그린다”며, “또한 같은 의미 단어로 캡션을 바꾸면 때때로 다른 결과가 생성된다. 이는 DALL·E가 새로운 이미지를 생성하기보다 온라인에서 접한 이미지를 모방하고 있다”고 지적했다.

그럼에도 시각적 이해를 바탕으로 한 자연어처리 학습이 인공지능을 훨씬 더 똑똑하게 만드는 방법을 적용했다는 점은 주목할 만하다. 마치 인간처럼 말이다. 

한편, 같은 날 오픈AI는 아주 적은 데이터만으로도 높은 정확도로 이미지를 식별하고, 이미지에 캡션을 붙일 수 있는 새로운 신경망 모델 ‘클립(CLIP)‘도 공개했다. 

기존 이미지넷(ImageNet) 데이터 세트는 25,000명 이상 작업자가 22,000개 개체 범주에 1,400만 개 이미지에 주석을 달아야 했다. 반면 클립은 이미 인터넷에 공개된 텍스트-이미지 쌍에서 학습한다. 이는 GPT-2, GPT-3 언어 모델과 유사한 적은 데이터로 효율적인 학습이 가능한 ‘제로 샷 러닝'(Zero-shot learning)을 적용했다. 

오픈 AI는 지난 2015년 인류에게 이익을 주는 것을 목표로 하는 비영리 인공지능 연구소로 처음 설립됐다. 일론 머스크와 알트만 등이 주요 벤처캐피털들과 공동 설립했다. 이 단체의 목적은 특허와 연구를 대중에 공개함으로써 다른 기관들 및 연구원들과 자유로이 협업하는 것이다. 현재는 이윤을 목적으로 하는 기업 ‘OpenAI LP’와 그 모체 조직인 비영리 단체 ‘OpenAI Inc’로 구성되어 있다. 

김들풀 기자 itnews@