답답해서 직접 뛰었다…대학 교수의 메타버스 개발 일기

‘메타버스’ 키워드에 대한 시장의 관심이 가라앉고 있습니다. 코로나19 당시의 위세와 대조적입니다. 비관적 예측을 하는 이들이 늘어나는 한편, 일각에서는 다른 전망을 내놓기도 합니다. ‘겨울’을 맞이했던 인공지능(AI)이 화려하게 부활한 것처럼 위기 속에 옥석이 가려지고 다시 부상할 것이란 기대입니다. 김준호 동서울대 교수는 코로나19 기간 수업 재개를 위해 메타버스 플랫폼 개발에 뛰어든 인물입니다. 직접 가상 수업 공간을 만들어낸 그가 한경 긱스(Geeks)를 통해 ‘Web 3.0’과 ‘합성 미디어’ 개념과 역사를 소개하고, 그간의 경험으로 메타버스의 재도약 향방을 분석합니다. AI의 발전이 메타버스의 부흥을 다시 만들 것이라는 전망이 핵심입니다.

'Web 3.0' 이전, 가상과 현실 '분절의 역사'

인터넷은 1969년 미국 국방성의 지원으로 미국 4개 대학을 연결하기 위해 구축한 ‘알파넷(ARPANET)’으로 시작됐다. 1973년에는 TCP/IP라는 통신 프로토콜을 이용해 정보를 주고받는 컴퓨터 네트워크가 됐다. 인터넷은 HTTP와 웹 브라우저를 통해 전 세계 수십억 명의 사용자들에게 정보를 제공하는 가상공간(웹페이지)을 연결한다. 전 세계가 인터넷을 통해 연결되는 세상이 시작됐으며 이것을 소위 ‘Web 1.0’ 시대라고 한다. Web 1.0 시대의 사용자들은 홈페이지 정보를 읽을 수만 있었다.

사용자도 정보 제공에 참여할 수 있어야 한다는 시대적 요구에 따라 블로그와 같은 서비스가 등장하고, ‘참여·공유·개방’이라는 슬로건을 앞세워 ‘Web 2.0’이 나타났다. 이러한 시대적 흐름은 인터넷에 사람이 연결되는 SNS로 진화했다. 페이스북으로 대변되는 SNS는 가상공간과 사람을 연결했고, 이 가상공간을 통해 사람과 사람이 연결됐다. 여기에 더해 모바일 혁명으로 불리는 스마트폰의 등장은 누구나 언제 어디서든 인터넷에 접속할 수 있는 세상을 만들었다.

그러나 거대한 SNS 업체의 과도한 개인정보 수집과 이용에 대해 사용자들은 반발했다. 이에 대한 대안으로 탈중앙화라는 개념과 블록체인 기술이 등장했다. 그리고 이를 ‘Web 3.0’으로 이야기하는 사람들이 생겨났다. 하지만 블록체인과 탈중앙화는 인터넷이라는 거대한 네트워크를 연결하는 대상의 진화라는 관점에서 보면, 가상공간을 하이퍼링크로 연결하는 Web 1.0과 가상공간을 통해 사람과 사람을 연결하는 Web2.0 이후에 새로운 연결 대상을 제시하지 못하고 있다. 엄밀히 말하면 블록체인과 탈중앙화는 Web2.0의 문제점을 해결하는 대안일 뿐이다.

그렇다면 Web 3.0은 무엇을 연결하게 될 것인가? 인터넷은 사람이 컴퓨터를 통해 가상공간에 접속해서 연결되는 개념이다. 그런데 기존의 가상공간 접속은 컴퓨터의 모니터, 스마트폰의 디스플레이로 출력되는 2차원(2D) 화면으로 연결된다. 동시접속 개념이지만 실제로는 가상공간과 현실 공간이 분리되어 있다. 현실 속의 나는 가상공간을 연결하는 SNS 계정과 연결되어 있다. 가상공간은 평면적인 것이다.

멀티버스 세상, 아바타가 '나'를 대변한다

2014년 메타의 마크 저커버그가 가상현실(VR) 기기 전문업체 오큘러스를 20억달러(2조5400억원)에 인수하면서 가상현실에 대한 기대감이 증폭됐다. 헤드마운트디스플레이(HMD)만 착용하면 입체적이고 실감 나는 VR에 접속할 수 있다는 기대감이 커졌다. HMD 속의 가상현실은 3차원(3D) 공간을 의미한다. 그러나 초기 HMD로 접속하는 VR은 이미 인터넷이라는 가상공간을 통해 이어진 사람들을 더 연결하지 못했다. HMD를 착용해야 하는 불편함, 막대한 컴퓨팅 파워 등의 기술적 한계는 둘째치고, 나 혼자 VR에 있어야 한다는 것이 가장 큰 문제였다.

이미 사용자들은 PC와 모바일 게임을 통해 실감 나는 3D 환경에서 친구들과 함께 즐기고 있었고, 게임 이상의 경험을 제공하지 못하는 HMD를 착용하고 혼자 3D 공간에 접속하는 것은 이해하기 힘든 일이었다. 사람과 사람 사이의 상호작용이 없는 3D 공간은 의미가 없다는 것이다. 이러한 상황에서 코로나19가 전 세계를 휩쓸고 지나갔다. 밖에 나가지 못하고 집에만 있어야 하는 상황, 이전에는 경험해보지 못한 초유의 비상사태가 벌어졌다. 할 수 있는 일은 집에서 인터넷에 접속하는 것이 전부였다. 모든 것을 가상에서 접속해 처리해야만 하는 상황이 되자, 사람들은 2D의 가상 세계에서 발전된 3D 공간 가상 세계에 관심을 기울이기 시작했다. 이른바 ‘메타버스’의 등장이다.

기존 VR과 코로나19 때 등장한 메타버스의 차이점은, 가상공간 안에서의 커뮤니케이션 유무라고 할 수 있다. 메타버스는 3D 공간, 아바타, 액티비티라는 3요소를 가지고 있다. 현실의 나를 대신하는 아바타들이 3D 공간에 모여서 상호작용하는 개념이다. 아바타들이 함께 모일 수 있는 3D 공간은 PC나 모바일에서도 가능하며 HMD가 필수적인 것은 아니다. 즉, 메타버스는 3D 공간에서 현실의 나와 연결된 아바타들이 서로 연결되어 상호작용하는 것을 의미한다. 그래서 메타버스는 ‘3D 공간 기반의 인터넷 서비스’라고 정의될 수 있다. 그리고 메타버스는 현실도 포함하는 ‘멀티버스(Multiverse)’ 형태로 분류돼야 하는 것이다.

멀티버스는 각 메타버스를 포함하는 개념이고, 메타버스는 현실과 연결되어 있으며, 현실과 메타버스를 연결하는 매개체는 아바타다. 그리고 멀티버스는 같은 시간에 다양한 메타버스와 연결된다. 그렇다면 다시 한번, Web 3.0은 무엇을 연결할 것인가? 이제 이 질문에 대한 답을 구할 수 있게 된다. Web 3.0은 기존에 2D 가상공간을 연결하던 인터넷이 3D 가상공간으로 전환되는 것이며, 2D에서 3D로 전환되는 디지털 대전환과 맞물려 있다. 또한 3D 가상공간으로의 디지털 대전환은 4차 산업혁명과도 맥을 같이 한다.

메타버스 직접 개발해보니…문제는 '돈'

2020년 3월, 동서울대에서 최초로 진행된 서틴스플로어 ‘XR Class’ 강의. 김 교수가 수업을 진행하고 있다. 동서울대 제공

코로나19가 전 세계를 강타한 후, 내가 근무하는 동서울대를 포함해 전 세계 모든 학생이 학교에 갈 수 없는 상황이 발생했다. 학교뿐만 아니라 모든 대외 활동이 불가능해졌다. 대면과 비대면이라는 용어가 새롭게 등장했다. ‘비대면이면서 대면과 같은 상황을 만들 수 없을까?’라는 고민을 하게 됐고, 가상공간에 다수의 아바타를 입장시켜서 실제 강의처럼 진행할 수 있는 방법을 구상했다. 개발을 진행해 강의에 적용했을 때가 2020년 3월 31일이었다. 코로나19 사태가 발생한 지 약 3개월 후다. 정규 교과목에서 VR 온라인 강의가 진행된 것은 국내 최초였다. 메타버스라는 용어가 대중들에게 알려지지 않은 시기였다.

처음에는 교수와 학생들 모두 HMD를 착용하고 가상 강의실에 입장해 강의를 진행했으나, 이후 학생들의 요청으로 PC 버전과 모바일 버전을 개발해 제공했다. 3D 가상공간에 학생들과 연결된 아바타들이 입장해서 서로 커뮤니케이션을 할 수 있게 됐다. 학생들의 만족도가 매우 높았고, 다양한 피드백도 받을 수 있었다. 3D 공간에 강의실 말고도 회의실, 콘퍼런스, 극장 공간을 추가했다. 학생들이 수업만 듣고 회의만 하는 것이 아니기 때문에 더 많은 3D 공간이 필요했고, 추가할 계획을 가지고 있었다.

그러나 현실적으로 3D 공간을 만드는 작업이 만만치 않았다. 3D 공간뿐만 아니라 3D 공간을 구성하는 오브젝트들도 새로 만들어야 하기 때문이다. 평면으로 되어있는 모든 것을 3D 디지털 데이터로 전환해야 한다. 이를 구현하려면 막대한 전환 비용이 발생한다. 말 그대로 디지털 대전환이 필요한 시기인데, 누가 이것을 할 것인가? 그리고 그에 따르는 막대한 비용은 어떻게 할 것인가? 현실적인 문제에 봉착했다.

위와 같은 문제는 학교뿐만 아니라 ‘3D 디지털 공간 기반 인터넷 서비스’ 즉, 메타버스를 만들어가는 데 있어서 가장 큰 문제점이었다. 다양한 메타버스 서비스가 많이 나와야 각각의 메타버스를 연결하는 Web 3.0 시대를 앞당길 수 있을 텐데, 현실에서는 불가능에 가까웠다. 코로나19 당시에 메타버스에 엄청난 관심이 집중됐다. 수많은 업체가 메타버스를 표방하면서 서비스를 준비하고 출시하기도 했다. 하지만 대부분 소리소문없이 사라지고 있는 것도 이와 무관하지 않다.

생성 AI 발전에서 비용 문제 해결책 찾다

AI 아트 갤러리 서비스 '오픈아트'. 다양한 AI 이미지를 찾을 수 있다. 오픈아트 홈페이지 캡처

지난해 7월경, 텍스트를 입력하면 AI가 이미지를 만들어준다는 이야기를 접했다. 웹사이트를 뒤져서 베타테스트 서비스를 찾았다. 스테빌리티AI가 오픈소스로 공개한 이미지 합성 AI ‘스테이블 디퓨전 2-1’이었는데, 몇 번의 테스트를 해보니 너무 많은 시간이 걸렸다. 원하는 품질의 이미지를 만들어내기도 어려웠다. 텍스트로 이미지를 만든다는 발상은 대단했지만, 다소 실망스러웠다. 당시만 하더라도 더 많은 시간이 필요할 것으로 예상했다.

그해 11월 말 오픈AI에서 챗 GPT를 출시했고, 그야말로 난리가 났다. 프롬프트에 질문을 입력하면 AI가 답을 해주는데, 기대 이상의 결과를 제시하는 것에 엄청난 충격을 받았다. 챗 GPT는 대화형 GPT(Generative Pre-trained Transformer)다. 글자 그대로 미리 학습된 생성형 AI 변환기다. 챗 GPT로 메타버스에서 챗봇을 만들면 흥미로울 것 같았다. AI 챗봇 개발은 엄청난 비용이 발생하는 프로젝트인데, 챗 GPT는 저렴한 비용으로 가능하게 해준다.

시계 방향 기준으로 어도비 생성 AI 서비스 ‘어도비 파이어플라이’에 ‘오로라가 있는 만리장성’을 입력해서 만든 이미지, 아마존웹서비스(AWS)의 text to 3D Avatar 서비스 ‘컨바이’에서 아바타를 만드는 과정, 블록에이드랩스의 AI 3D 이미지 생성 서비스 ‘스카이박스’에서 ‘Statue of Liberty’를 입력해 만든 360도 이미지, 루마AI에서 ‘a single colorful expensive koi fish’를 입력한 결과물.

실제로 오픈AI의 챗 GPT가 출시된 이후 엄청난 AI 서비스들이 하루가 멀다고 쏟아졌다. 지금 이 순간에도 새로운 AI 서비스들이 출시되고 있다. 챗 GPT 이전에도 텍스트를 이미지로 바꿔주는 ‘text to image’ ‘DALL-E 2’ 등 서비스가 있었다. 이들 서비스는 불과 몇 달 만에 상상하지 못한 영역까지 발전한 것을 확인할 수 있었다.

이젠 텍스트로 이미지를 만드는 것을 넘어서, AI가 만들어준 이미지만 모아 놓은 포털 서비스가 있을 정도다. 챗 GPT 출시보다 더 큰 충격이었다. 특히 포토샵, 일러스트레이터, 프리미어 등을 서비스하는 어도비의 생성 AI 서비스는 한글 프롬프트가 지원된다는 점에서 인상 깊었다. 아직은 테스트 버전이 많지만, 텍스트를 입력하면 3D 모델링을 만들어주는 서비스도 다수 있었다. 텍스트로 3D 모델링을 만들고 결과물을 gltf, fbx, glb 등 3D 모델링 파일로 다운로드받을 수 있는 형태다.

AI로 3D 모델링 개발…시간은 '5분'·비용 '0원'

텍스트 입력으로 3D 아바타를 만드는 것도 가능했다. 텍스트를 입력해서 만든 아바타를 메타버스 개발 엔진인 언리얼(Unreal), 유니티(Unity)로 처리할 수 있도록 응용 프로그램 인터페이스(API)를 지원하는 형태다. AI로 360도 이미지를 만들 수도 있다. 이렇게 메타버스의 360도 가상배경을 AI로 만들고, 3D 오브젝트를 AI로 만들어서 넣고, 아바타도 AI로 만들어서 넣을 수 있다면, 3D 가상공간을 만드는 문제도 해결할 수 있겠다는 생각이 떠올랐다.

나는 64개 전문대학이 참여한 메타버스 공유대학 ‘메타버시티(Metaversity)’ 컨소시엄에 개발 총괄로 참여하고 있다. 사용하는 메타버스 플랫폼 이름은 스타트업 메타캠프의 ‘데어’다. 이 서비스에 생성형 AI를 활용할 수 있도록 테스트를 해봤다. 첫 번째로 챗 GPT를 적용해봤다. 기존 챗봇에 챗 GPT를 연결하니까 빈 강의실에서도 심심하지 않았다. 다음은 메타버스 강의실 배경을 AI로 만든 배경으로 변경해봤다. 매번 새로운 강의실에서 강의하는 기분을 느낄 수 있었다. 이어 AI로 만든 3D 오브젝트를 추가해봤다. 데어 전시회에 물고기 모델링을 추가했다.

시계 방향 기준으로 메타버스 플랫폼 ‘데어’에 챗 GPT를 연결한 화면, AI로 만든 3D 오브젝트를 적용한 화면, AI 기반 360도 이미지를 적용한 화면.

메타버스에 생성형 AI를 적용해보니 누구나 쉽게 3D 가상공간을 만드는 것이 가능했다. 360도 배경을 만들고 3D 오브젝트를 만드는 시간은 약 5분, 비용은 0원이었다. 만약 디자이너와 개발자가 만들었다면 상당한 시간과 비용이 발생했을 것이다. 문제를 생성 AI가 아주 간단하게 해결해줬다. 무엇보다 생성 AI는 우리가 생각하는 것보다 훨씬 빠르게 진화하고 있다. 오늘보다 내일 더 정교한 결과를 만들고, 한 달 후에는 더 대단한 결과물을 만들어낼 수 있다.

Web 3.0은 기존에 2D 가상공간을 연결하던 인터넷이 3D 가상공간으로 전환되는 것이며, 2D 디지털에서 3D 디지털로 전환되는 디지털 대전환의 과정이다. 이 과정에서 생성형 AI의 등장은 가속기 역할을 하게 될 것이다. 메타버스와 생성 AI의 만남은 진정한 Web 3.0의 시작을 의미한다.

또 다른 핵심, AI와 함께 다가온 ‘합성 미디어’

인터넷의 등장은 전통적인 미디어를 초토화시켰다. 신문, 방송, 라디오 등 엄청난 영향력을 가지고 있던 올드 미디어는 인터넷의 성장과 함께 등장한 뉴미디어에 자리를 내주게 됐다. 신문은 네이버와 다음 같은 포털 서비스에 자리를 빼앗긴 지 한참이고, 근근이 연명하던 방송은 SNS를 기반으로 성장한 소셜 미디어에 완전히 밀려났다.

스마트폰과 함께 성장한 소셜 미디어는 사용자들의 콘텐츠 소비 패턴을 완전히 바꿨다. 시간에 맞춰 콘텐츠를 소비하는 형태, 즉 ‘본방 사수’라는 말을 사라지게 했다. 올드 미디어나 뉴미디어는 모두 기업의 광고를 기반으로 운영된다. 소비자가 광고를 보는 조건으로 콘텐츠와 정보를 무료로 제공하는 것이다. 그런데 소비자의 생활 패턴과 콘텐츠 소비 패턴이 모바일로 이동하니 광고주의 광고비용 지출도 당연히 이동하기 시작했다. 올드 미디어의 광고 수익이 줄면 콘텐츠를 제작하기 어려워지고 시청률도 떨어지게 된다.

소셜 네트워크 서비스를 기반으로 하는 소셜 미디어의 등장으로 이러한 현상은 더욱 심화하고 있다. 콘텐츠 소비부터 쇼핑에 이르기까지 산업 전 분야에 걸쳐 소셜 미디어의 영향력은 점점 증가하고 있는 상황이다. 소셜 미디어의 성장으로 미디어의 영향력을 발휘하던 인플루언서가 개인으로 확대되고 그 영향력이 기존 인플루언서를 넘어서는 수준으로 확대됐다. 특히 이러한 현상은 코로나19 사태를 거치면서 더욱 심화했다.

그렇다면 Web 3.0 시대에는 어떤 미디어가 등장할 것인가? 바로 합성 미디어(Synthetic Media)다. 합성 미디어란 AI 알고리즘에 의해 부분적으로 또는 전체적으로 생성된 모든 유형의 미디어(텍스트, 이미지, 음성, 음악, 비디오 등)를 말한다. Web 3.0은 3D 가상공간을 연결하는 서비스고, 이 3D 공간으로 전환되는 요소들은 모두 생성 AI 기술로 가능하며, 그 자체가 합성 미디어의 영역에 포함될 수 있다.

콘텐츠 생산 변화, 메타버스 재확장 이끈다

데어의 홍보 영상은 생성 AI로 만들어졌다. 영상에 포함된 모든 요소가 사람이 만든 것이 아니다. 영상 속 사람은 물론 배경음악과 더빙까지 모두 AI가 만들었는데, 결과물의 품질이 여러 사람이 투입되어 만든 영상과 비교해도 뒤처지지 않는 수준이다. 영상 제작에 드는 시간, 인력, 비용을 비교하면 이제 전통적인 콘텐츠 제작 방식은 생성 AI를 따라갈 수 없다.

여기에 실제 사람과 연결된 고도화된 아바타, 3D 공간, 그 안에서 커뮤니케이션이 자유로운 메타버스가 함께 한다면 어떻게 될까? 인플루언서가 유튜브나 인스타그램에서 방송을 하면 팔로어나 팬들이 슈퍼챗을 쏘거나 상품을 구매하며 연결이 된다. 하지만 이젠 인플루언서와 같은 공간까지 공유할 수 있다. 메타버스와 생성 AI가 융합된 합성 미디어는 이를 가능하게 해준다. 즉, 합성 미디어는 같은 공간에서 함께 보고 들을 수 있는 미디어인 것이다. 이것은 실감 미디어와는 조금 다른 영역이다. 같은 공간에서 함께 한다는 의미가 현실과 유사한 공간이라는 의미는 아니기 때문이다. 고해상도, 대형 디스플레이로 실감 나고 몰입도가 높아질 수는 있지만 공간에 함께 한다는 느낌을 줄 수는 없다.

네이버제트가 운영하는 메타버스 플랫폼 ‘제페토’는 최근 2D 애니메이션 스타일의 아바타 서비스를 시작했다. 2030년까지 17조원 규모로 성장이 예상되는 버추얼 유튜버 시장을 겨냥한 것이다. 이미 아바타를 바탕으로 사용자들과 소통하는 제페토 라이브 서비스는 올해 상반기까지 누적 재생수가 3억 회를 넘어섰다. 제페토의 이러한 행보는 Web 3.0 시대의 새로운 미디어의 등장을 예측할 수 있게 한다. 생성 AI는 지금도 미디어 전 분야에 걸쳐 거침없이 확장하고 있다. 마치 풍선과 같이 팽창한다. 풍선은 임계점에 도달하면 터진다. 생성 AI라는 거대한 풍선의 출구는 메타버스가 될 것이다.