아마존 웹 서비스와의 경쟁에서 이기려면 탈중앙화와 데이터 거래

“아마존 웹서비스(AWS)도 딥브레인체인 안으로 들어 올 수 있다”

지난 27일에 열린 블록체인 개발자 컨퍼런스 ‘이것이 블록체인이다(This is Blockchain)’행사에 참여한 딥브레인체인의 펭 허 대표는 AWS도 딥브레인체인에 노드가 될 수 있다고 말했다. 펭 허 대표는 AI 클라우드 컴퓨팅 플랫폼에서 낮은 가격을 기본으로 뽑았다. 물론 낮은 거래만 경쟁력만 있는 것이 아니라고 했다. AWS가 실현하지 못한 것은 데이터 거래를 실현 할 수 있으며, 토큰을 통해 다양한 데이터 기업에도 투자 할 수 있다고 밝혔다.

딥브레인체인의 트랜잭션 처리속도에 대한 질문에는 “블록체인은 고성능을 추구해야 한다는 생각이 잘못되었다”며, “블록체인 프로젝트가 고려할 점은 탈중앙화, 성능, 안정성. 확장성을 균등하게 가져가야만 하기 때문에 백 만 TPS도 가능하지만 절대적인 성능만을 추구하는 것은 다른 성능의 저하를 불러올 수 있다”고 지적했다.

딥브레인체인에 저장되는 AI데이터가 무엇인지에 대해서 딥브레인체인의 브루스 펭(Bruce Feng) 기술부문 부사장은 “등록한 컴퓨팅 파워 기록, 블록체인 트랙잭션 정보, AI유저의 단가 정보. 채굴기에 대한 가격정보 등이 영구적으로 저장된다”며, “대용량의 데이터의 경우 데이터를 블록체인에 저장하게 된다면 대량의 낭비를 초래하기 때문에 블록체인에 저장하지 않고 분산식 스토리지 네트워크에 전송한다”고 밝혔다.

이날 토론에 한국인 패널로는 SK텔레콤 신정호 데이터사이언티스트, 멋쟁이 사자처럼 이두희 대표, 챗봇 김민열 대표, 힐스톤 파트너스 황라열 대표가 참여했다.

이하 토론 전문

Q. “DBC(딥브레인체인) is Uber in AI Computing.” 이라는 표현을 했다. DBC의 지향점이 AI Cloud Computing Platform 이라는 의미로 받아들여지는데, 이 회사가 ‘누구’에게 ‘무엇’을 Sales하는 회사인지 즉, 쉽게 말해 고객이 누구이고 파는 상품이 무엇인지 간략하게 설명 부탁한다.

A. 인공지능 기업을 대상으로 하고 있다. 인공지능 컴퓨팅 수요가 있는 기업이 고객이다. 우버가 차량을 공유하는 회사라면 우리는 GPU와 컴퓨팅파워를 공유하는 회사다. 인공지능 분야의 데이터 트레이닝을 하고 있는 기업들도 우리의 고객이 될 수 있고, 인공지능 이미지 인식, 스마트 도시 개발, 자율주행자동차 기업 또한 고객 대상이다. 이미 중국에서는 거대한 시장이 형성되었다.

Q. 딥브레인체인의 백서에 보면 ‘Deep learning algorithm : Communication-efficient learning of deep networks from decentralized data’라는 내용에서 ‘Communication-efficient learning’이 어떤 의미인지?

A. 블록체인 네트워크는 아키텍쳐와 밀접한 관련이 있다. 네트워크의 경우 몇가지 특징이 있다. 첫번째로는 실제 균일하지 않다는 것이고 둘째는 노드간에 신뢰하지 못하는 환경이 발생한다는 것이다. 이 문제를 해결하기 위해서는 데이터 전송에 대한 고성능이 요구된다. 그래서 우리는 이런 것들을 Communication-efficient 라고 정의내렸다. 데이터는 여러가지 분산식 노드에 분포되어있고, 노드에서 연산한 이후 중앙 노드에 전송하게 되는데 이런 방식으로 네트워크의 전송을 단축시킬 수 있다. 이 타이밍에 AI의 트레이닝 효과를 크게 볼 수 있다. 여러가지 단말기에서 대규모 트레이닝을 할 필요가 없다. 트레이닝을 종료하고 효과적인 모델을 구축하고 다시 전이학습을 하게 되면 좋은 효과를 볼 수 있다. 그래서 우리 AI 트레이닝 프레임은 필연적으로 블록체인과 밀접하게 결합되는 것이다.

Q. ‘Reinforcement learning’이 에너지 소비를 줄이는데 사용된다고 말했다. 강화 학습은 상호 작용을 통한 결과를 학습하면서 목표를 달성하는 방법을 찾는 머신러닝 알고리즘인데, 구체적으로 어떤 문제를 풀기 위해서 어떤 데이터를 가지고 강화 학습을 적용했는지 State, Action, Reward 관점에서 설명 부탁한다.

A. 강화 학습은 구글에서 최초로 운영한 방식이다. 강화학습에는 여러가지 장점이 있다. 에너지 소비를 줄일 수 있다. 딥브레인체인은 대량의 채굴장을 보유하고 있다. 하지만 네트워크 노드가 몇 십만 개까지 확장이 된다면 에너지를 감축할 수 있는지를 고려해야만 한다. 우리도 냉각을 통해서 온도를 컨트롤 할 수 있는 방법에 대해 끊임없이 연구 중이며 이것이 가장 전형적인 냉각 솔루션이다. 하지만 전세계 몇 십 만개의 노드가 강화 학습을 할 수 있다면, 이것이 에너지 감축에 대한 가장 우수한 해결책이 될 것이다.

Q. 블록에 기록되는 AI정보가 무엇인지 궁금하다. 그리고 연산을 하려면 노드 단독으로 연산을 해야 하는게 아니라 노드 간에 통신을 통해 연산을 해야 할 텐데, 블록체인은 기본적으로 단일 노드 연산을 한다. 어떤 방식으로 해결을 했나? 그리고 이 경우 딥브레인체인이 AI 클라우드 컴퓨팅 플랫폼으로 객체들이 네트웍으로 연결되어 있을 텐데, 체인을 구성하는 노드 간 통신을 하다가 일부 자원이 셧다운되면 연산 중이었던 트랜잭션은 어떻게 처리되는가?

A. 블록체인에 대량의 정보를 전송하고 저장한다. AI데이터는 몇 가지로 나뉘는데, 등록한 컴퓨팅 파워 기록, 블록체인 트랙잭션 정보, AI유저의 단가 정보. 채굴기에 대한 가격정보 등이 영구적으로 저장된다. 또한 다양한 정보를 전송된다. 전통적인 토큰 거래 트랜잭션 정보, TB단위의 인공지능 데이터 등을 전송하다 보면 이에 대한 전송 방식도 달라지게 된다. 예를 들어 굉장히 큰 TB급의 데이터같은 경우는 분산식 스토리지 네트워크에 전송한다. 이런 경우는 블록체인에 기록되지 않는다. 왜냐하면 이런 데이터를 블록체인에 저장하게 된다면 대량의 낭비를 초래하기 때문이다. 또한 어떤 채굴기의 진행상태를 조회하고 싶다면 P2P 전송 방식을 선택하게 된다. 이런 것처럼 데이터의 종류, 전송방식 등에 따라 우리가 채택하는 방법 또한 달라진다.

분산 방식에 있어서 반드시 고려해야 할 점은 노드가 유실될 수 있다는 것이다. 이런 데이터 소실의 경우 우리는 fail over라고 부르는데, 이 경우 우리는 사용할 수 있는 소스를 선택해야만 한다. 만족스럽지 못한 자원을 어떤 방식으로 도태시켜야 하는지는 분산식 배치에서 반드시 고려해야할 사항이다. 그래서 모든 네트워크 설계, 노드 설계에서는 실효성을 고려해야 한다. 데이터를 어디다가 저장할지, 어디서 소멸되어야 할지를 고려해야한다. 실제 데이터가 예를 들어서 AI트레이닝 데이터라한다면 분산식 네트워크에 저장되어야 한다. 하지만 네트워크에서 얼마나 많이 저장할 수 있는지, 노드가 퇴출될 때에는 다른 노드로 변환할지를 고려해야 한다. 그래서 이러한 데이터를 복사하여 카피본을 보유해야 한다. 네트워크가 퇴출될 때에는 페널티를 받게 된다. 이러한 구조를 통해서 네트워크의 건전성을 유지할 수 있다.

Q. DBC의 컨센서스 알고리즘이 DPOS와 POI를 합친 것이라고 했는데, 왜 POW, POS가 아닌 POI 방식을 채택했는지 설명해달라.

A. 전통적으로는 POW 방식을 많이 쓰지만, POW 방식은 에너지 소모가 심하고 효율이 떨어진다는 문제점이 있다. 매일 수 천 만명이 사용하는 서비스에서 POW 컨센서스는 굉장히 비효율적이다. 딥브레인체인 네트워크에서는 일부 컨센서스 노드는 DPOS를 사용하고 일부 노드는 POI를 활용하여 노드가 네트워크에 기여하도록 한다. AI알고리즘과 함수화의 두가지 방식을 결합하여 랜덤으로 네트워크에 기여할 수 있는 노드를 선별하고, 이를 통해 공동으로 네트워크의 안정성과 보안을 보장받는다. 이런 방식이 전통적인 방식의 에너지 소모의 문제를 해결할 수 있다. 기존의 DPOS는 탈중앙화가 부족하다. 성능을 위해서 탈중앙화를 포기한 것이기 때문이다. 우리도 비슷하긴 하지만 몇 십 개, 몇 백 개의 노드가 아닌, 수백만 노드로의 확장이 가능하다. 우리는 노드 자체의 선택과정에서 수 만개 선택 옵션을 가지고 있다. 그 중에 인공지능 알고리즘에 의해 수 십개의 노드가 컨센서스시 선택된다. 이런 방식으로 에너지 소모의 문제와 효율의 문제를 해결했다.

Q. 상위 노드(Witness) 는 어떤 역할을 하는지, 그리고 어떤 기능을 하는지 설명해 달라

A. 상위 노드는 실질적으로 검증 노드다. 선택한 노드의 역할은 2가지가 있는데 첫번째는 기장을 하는 패키징 역할입니다. 두번째는 검증의 역할이다. 노드 검증 후에는 분산식 기장을 할 수 있게 된다.

Q. DPOS(Delegated Proof of Stake)방식은 위임지분증명 방식이라 하여 네트워크를 구성하는 모든 노드들의 투표 결과로 정한 상위 노드에게 권한을 위임해 합의하도록 한다. 상위 노드 수가 적기 때문에 POW 방식에 비해 같은 시간에 압도적으로 많은 트랜잭션을 처리할 수 있다. Steem의 경우 20명, EOS는 21명의 상위 노드가 블록을 생성한다고 하는데, DBC는 몇 명의 상위 노드가 합의 알고리즘에 참여하는 구조인가?

A. 21개의 노드와 랜덤으로 선별하는 노드가 공동으로 상위 노드 역할을 하고 있다. 네트워크를 통해 랜덤으로 선정하여 안정성을 확보하고, 해커의 DDOs 공격을 막을 수도 있다. 중앙화된 클라우드 본체 노드는 이런 지속적인 침투에서 안정성을 확보하기 어렵다.

Q. POW에 비해 속도는 빨라지지만. 상위 노드가 적어서 탈중앙화가 맞는가하는 의심이 있을 수 있다.

A. 중앙화의 중요한 평가 요소는 하나의 문제가 생기면 공격에 취약하다는 단점이 있다. 네트워크 규모를 키우는 경우. 랜덤함수를 선택하면 예측이 불가능하다. 이런 방식으로 탈중앙화가 가능하다. 랜덤 방식이기 때문에 어떤 노드가 중심인지 모르기 때문이다. 효율성과 안정성을 균등하게 가져갈 수 있다.

Q. 아무리 트랜잭션이 빠르게 설계되었다 쳐도, 1 million TPS가 정말 가능한가? 비트코인이 7 TPS, 이더리움이 20 TPS이고, DPOS방식의 EOS도 1,000 TPS인데 어떤 원리로 1 million TPS가 가능한가?

덧붙여 한가지 더 질문을 하자면, 특정한 클러스터와 워크스테이션에 있는 데이터가 트레이닝 데이터와 테스트 데이터로 나뉠 때, 어떻게 일정부분은 트레이닝 데이터로, 일정부분은 테스트 데이터로 나뉠 수 있는지 궁금하다. 만일 트레이닝 데이터 또는 테스트 데이터가 부족하다면 다른 클러스터와 워크스테이션에서 데이터를 끌어올 수 있나?

A. 블록체인은 고성능을 추구해야 한다는 생각이 잘못되었다. 타오바오, 알리바바의 경우 11만 TPS다. 블록체인 프로젝트가 고려할 점은 탈중앙화, 성능, 안정성. 확장성을 균등하게 가져가야만 한다는 점이다. 1,000,000 TPS도 가능하지만. 네트워크가 균일한 상황을 유지할 필요있다. 절대적인 성능만을 추구하는 것은 다른 성능의 저하를 불러올 수 있다. 우리는 성능의 확장성을 먼저 고려한다. 확장성은 예견할 수 있다. 서로 다른 체인에서 가장 높은 성능이 얼마만큼 도달할 수 있을지를 파악한다면 네트워크의 최고 속도를 예측할 수 있다. 우리는 전체적인 네트워크의 확장성을 더 중시하고 있다. 현재 샤딩이 부족하다면 우리는 재샤딩을 통해 네트워크 성능을 높일 수 있다. 이것은 네트워크의 설계부터 고려해야 하는 사항이다.

데이터가 다른 워크스테이션인 경우. 그것은 유저가 스스로 진행한다. 우리는 이런 트레이닝 데이터를 유저들이 올릴 수 있게 해주고 테스트 데이터로 다시 검증을 한다. 물론 소유권은 유저에게 있다.

우리는 내년에 데이터 거래 시장을 구축할 예정이다. 데이터를 보유하고 있지 않을 경우 데이터를 거래시장을 통해 구매할 수 있다. 이런 방식으로 제품 출시 시기를 단축시킬 수 있다. 탈중앙화의 스토리지에서 표준화된 데이터셋을 만들도록 노력할 것이다.

Q. AI 개발을 위한 컴퓨팅 파워를 제공하는 클러스터와 워크스테이션에 대한 보상으로서의 코인은 충분한 경제적 가치를 지닐 정도의 보상인지? 보상이 충분치 않을 경우 토큰 구매자와 토큰 사용자와의 모순점이 발생할 것 같다.

A. 수익 모델을 설계하며 굉장히 고려를 많이 했던 부분이다. 이 문제를 해결하지 못한다면 이 프로젝트가 성공하지 못할 것이라고 생각했다. 이 문제는 의외로 해결하기 쉬운 문제다. 전체 GPU의 가격은 USDT에 의해서 계산을 한다. 예를 들어 네트워크에서 10개의 GPU가 있다고 했을 때 모든 GPU의 시간당 사용 총합을 2개 USDT라고 가정하자. 만약에 이 경우 DBC를 통해 지급을 할 때 DBC와 USDT를 결합하여 계산한다. 하나의 DBC가 0.1 달러라고 한다면 2개의 USDT의 경우는 20개 DBC가 된다. DBC 가격이 1달러로 상승하게 된다면, 인공지능 분야에서는 매우 기쁜일이다. 왜냐하면 단지 2DBC만 지급하면 되기 때문이다. 그래서 이런 토큰 이코노미를 설계할 때 유저나 채굴자나 투자자의 경우 모두 DBC의 가격이 상승되면서 수익을 얻을 수 있게 설계했다. 특히 인공지능 업체들의 경우는 더욱 큰 이득이다. 비용을 감축할 수 있을 뿐만 아니라 오히려 수익을 얻을 수도 있다.

Q. DBC가 블록체인 기반의 AI 클라우드 컴퓨팅 플랫폼을 지향하고 낮은 가격으로 플랫폼 사용이 가능하다면, AI 개발 인프라를 처음부터 모두 갖춰야 하는 스타트업이나 중소 기업의 경우 큰 도움을 받을 수 있을 것 같다. 그런데, 사실 아마존 웹 서비스(AWS)라는 지구 최강의 클라우드 사업자가 있다. 도커(Docker)에 텐서플로우(Tensorflow)같은 딥러닝 프레임워크나 Reinforcement learning을 쉽게 구현할 수 있는 Keras를 설치해서 개발자들이 이미 쉽게 인공지능 서비스 개발을 시작할 수가 있다. DBC의 코인가격이 오르면 오를수록 사실 AWS와의 경쟁이 더 어려워지는 것인데, 이 부분에 대한 경쟁 전략은 어떻게 준비하고 있는가?

A. 가격은 기본적인 것이다. 네트워크를 배포할 때 가장 먼저 할 일은 저가로 제공하는 것이다. 물론 가격이 전부는 아니다. 더욱 더 많은 기업들이 진입하게 되면 더 많은 데이터가 모이게 된다. 데이터를 거래할 때 데이터를 보호받을 수 있게 하는 것이다. 이것은 AWS가 현재 실현하지 못한 기능이다. 중앙화된 노드의 단점은 소스가 오픈되지 않는다는 점이다. 딥브레인체인의 경우 데이터를 효과적으로 거래할 수 있다는 장점이 있다. 설치 및 사용은 AWS와 거의 동일하다. AWS보다 나은 점은 블록체인 기반이며 토큰의 매커니즘이 적용되었다는 점이다. 그래서 인공지능 기업에 있어서 좋은 융자 플랫폼이 될 수 있다. 인공지능 전문가들이 DBC를 보유하고 있기 때문이다. DBC를 통해 컴퓨팅 파워뿐만이 아니라 데이터를 구매하거나 기업에 투자를 할 수 있다. 여러 전문가들이 체인 위에 올려진 기업의 기술 및 제품을 정확히 평가할 수 있기 때문이다. 이 모든 절차가 굉장히 빠르게 진행될 수 있다. 우리는 이를 통해 전세계 인공지능 기업들이 빠르게 성장하고 그에 대한 도움을 줄 수 있게 되기를 기대한다. 오히려 10년 정도의 시간이 지난 후 AWS가 거꾸로 딥브레인체인 안으로 들어올 수도 있다고 생각한다. 우리는 전세계를 포괄할 비전을 가지고 있다.

AWS의 경우 딥브레인체인의 노드가 될 수도 있다. 극단적인 예로 AWS가 가격을 0으로 낮춘다면 많은 채굴자들이 AWS의 GPU서버를 딥브레인체인의 채굴 소프트웨어에 편입시킬 것이다. 이것이 바로 우리가 AWS와 다른 단계에서 경쟁하고 있다는 것을 보여준다. 기업들이 AWS를 사용해도 그것은 AWS를 더 좋게 해줄 뿐이지 이익을 제공하지 않지만, 우리는 전체 커뮤니티의 공동된 이익을 추구한다. 이것이 바로 탈중앙화와 중앙화의 차이이며, 우리의 가장 큰 경쟁력이라 생각한다.

김형진 한경 경제교육연구소 연구원 starhawk@hankyung.com

IT·과학

아마존 웹 서비스와의 경쟁에서 이기려면 '탈중앙화와 데이터 거래'