달리에게 아이보리색 재킷과 붉은 스커트를 입은 여성 마네킹의 텍스트를 지시한 결과 나온 이미지들
달리에게 아이보리색 재킷과 붉은 스커트를 입은 여성 마네킹의 텍스트를 지시한 결과 나온 이미지들
지난 1월에 선보인 화가 AI '달리(DALL-E)'가 화제입니다. 텍스트로 지시하면 그림으로 바로 전환하는 것도 그렇지만 인간의 상상력을 자극하는 그림들이 수십~수백개씩 쏟아지는 것도 관심을 끄는 주제입니다.
이 AI에 대해 벌써 디자인과 패션업계는 달리의 활용을 놓고 논란이 확산되고 있다고 합니다. 관련 업계를 도와주는 보완재가 될 것인지, 아니면 업계를 파괴하는 괴물이 될 것인지는 아직 판단하기에 이른 것같습니다. 마케팅에서도 이를 응용한 아이디어들이 많이 나오고 있습니다. 달리를 개발한 오픈AI는 마이크로소프트가 출자한 기업입니다. 마이크로소프트에서 달리에 대한 독점 라이선스를 가질 수도 있습니다. 달리가 비즈니스 관점에서 어떤 AI인지 알아봅니다.

화상 2500만건 학습

달리(DALL-E)는 텍스트를 이해해 그림을 그리는 대표적인 인공지능입니다. 영어 문장과 관련한 각각의 화상과 일러스트 2500만건을 학습했습니다. 텍스트에 포함돼있는 두개의 개념을 조합해 그릴 수도 있습니다. 오픈AI는 지난해 자연스런 문장을 쓰는 AI GPT-3를 개발하면서 달리의 개발도 동시에 한 것으로 알려지고 있습니다.
GPT-3및 달리의 기반이 되는 기술은 트랜스포머(Transformer)로 불리는 기술입니다. 데이터를 분석할 때 의미가 있는 부분에 보다 주목하고 필요하지 않은 데이터를 제거하는 '어텐션(Attention)'이라는 기술을 활용합니다. 심층 학습에서 당연하게 여기는 CNN과 RNN 기술을 사용하지 않고도 고도의 언어 처리 수행이 가능합니다. 트랜스포머는 기존 모델에 비해 병렬화가 쉬워 모델 학습 시간이 훨씬 줄어드는 장점을 갖고 있습니다. GPT-3는 문장 생성에 트랜스포머를 적용한 것이지만 달리는 이를 화상에 적용한 것입니다. 달리에서는 화상을 일정한 크기의 패치(조각)로 나눠 번호를 매깁니다. 하나하나의 패치가 텍스트의 한 단어와 같이 취급됩니다. 텍스트에서 단어들의 법칙성을 발견하고 문장을 쓰는 것처럼 조각조각을 연결해 한 장의 그림을 만듭니다. 아보카도형을 한 의자, 거북이형 기린 등 기묘한 그림이 이렇게 해서 탄생합니다.
일반적으로 하나의 텍스트에 대해 512장의 화상을 먼저 만들게 됩니다. 그림이 문장 내용을 얼마만큼 표현할 수 있는지 다른 AI로 판정해 32개를 끄집어 냅니다.이 때 32개를 추출해 내는 AI를 클립(CLIP)이라고 합니다. 클립은 달리가 비즈니스에서 실용화될 때 가장 중요한 AI라고도 할 수있습니다.

건축에도 큰 영향 끼칠 듯

지난 1월 오픈AI가 블로그에서 달리를 게시한 이후 AI업계에선 달리의 API에 대한 엑세스 권한을 얻기위해 애타게 기다리고 있다고 합니다. 각 업계에선 이미 무엇을 할 수있는지에 대한 아이디어를 갖고 있으며 이 AI에 접근만 된다면 바로 상용화가 가능한 제품과 서비스를 만들 수있을 것으로 보고 있습니다. 가장 먼저 기대하는 분야가 패션과 인테리어라고 합니다. 디자이너는 불과 몇 초만에 웹사이트를 개선하고 이용자가 최초로 보는 웹페이지인 랜딩 페이지를 구축할 수있습니다. 수많은 디자이너가 달라붙어 옷감을 디자인할 필요가 없어졌습니다. 아이콘과 일러스트를 만드는데 시간을 절약할 수도 있습니다. 비즈니스 인텔리전스 전문가는 복잡한 그래프와 대시보드를 달리를 통해 그릴 수있습니다. 건축가가 건물을 시각화하거나 고고학자가 고대 구조물에 생명을 불어넣는데 사용할 수있습니다. 어떠 분야에서도 상상하는 만큼 활용이 기대된다고 말하는 전문가들도 많습니다. 하지만 아마존처럼 달리가 패선업계를 파괴할 수도 있다고 보는 시각도 있습니다. 그보다 마이크로소프트가 독점을 행사해 이 AI를 자사 제품에만 쓰게 한다면 상당한 제약이 뒤따를 것이라고 업계는 보고 있습니다.
ohchoon@hankyung.com