'디지털 생물학의 새로운 시대(New era in digital biology)가 열렸다.'

지난달 29일 세계적 과학저널 사이언스의 헤드라인이다. 알파벳(구글 모회사)의 영국 자회사인 딥마인드가 알파폴드를 활용해 2억1400만개 단백질 구조를 공개하자, 사이언스는 "인류가 파악한 거의 모든 단백질 구조가 베일을 벗었다"고 환호했다.

단백질은 각종 질병 원인을 파악하고 치료제 백신 등을 개발하는 데 쓰이는 필수 요소다. 세계 과학계가 유전체 등 설계도를 파악한 단백질은 2억개가 넘는다. 하지만 이를 토대로 실제 단백질 구조를 재현할 수 있었던 것은 19만개 정도였다. 인간 유전체가 해독됐지만 질병 극복의 시대를 열지 못했던 이유다. 딥마인드는 인공지능(AI)을 활용해 오랜 난제를 해결했다. 6년 전 알파고로 이세돌을 꺾었던 딥마인드가 이번엔 생물학 분야에서 세상을 놀라게 했다는 평가다.

2억1400만개 단백질 구조 모두 예측

단백질 탄수화물 지방은 인체의 필수 구성요소다. 탄수화물은 에너지를 공급하고, 지방은 에너지를 저장한다. 몸 속 각종 기관과 호르몬, 효소 등을 이루는 핵심 요소는 단백질이다. 몸 속 수 많은 단백질의 정확한 기능을 알게 되면, 이를 이용해 암 등을 치료하고 감염병을 예방할 수 있다. 노화 단백질을 활용하면 이론적으로 노화를 늦추거나 막을 수도 있다.

단백질 기능을 결정하는 것은 구조다. 단백질이 어떻게 생겼는지에 따라 역할이 달라진다. 단백질이라는 골격을 만들기 위해 생명체는 DNA를 설계도로 쓴다. DNA 서열이 아미노산 서열로 바뀌고, 다시 단백질을 만들면서 생명체가 살아간다.

2003년 인간의 DNA 서열을 모두 파악한 게놈프로젝트가 끝난 뒤 과학자들은 수십년 간 이를 활용해 단백질의 정확한 구조를 알아내는 데 집중해왔다. 설계도를 손에 넣었지만 실제 구조물을 만드는 것은 간단치 않았다. 2차원 설계도가 다양한 방향으로 뭉쳐지고 꼬이면서 3차원 단백질로 바뀌는 '단백질 접힘' 현상 탓에 원리를 파악하는 게 어려웠기 때문이다.

과학자들은 엑스레이나 현미경을 활용해 단백질 결정 등을 촬영하고 모양을 추정하는 작업을 50여년간 이어왔다. 하나의 단백질 모양을 파악하는 데 수개월에서 수년이 걸렸다. 세계 과학자들이 확보한 단백질 설계도는 2억개가 넘었지만 실제 구조를 파악한 단백질은 19만개에 불과했다. 딥마인드는 알파폴드를 공개한 지 1년 만에 이를 모두 파악하는 데 성공했다.

2020년 말 CASP서 가능성 확인

알파폴드에 아미노산 서열을 넣으면 수초만에 단백질 모양을 보여준다. 딥러닝을 활용해 공개된 설계도와 단백질 구조를 학습한 결과다. 사람 뿐 아니라 동물 식물 세균 곰팡이 등을 구성하는 모든 단백질이 포함됐다.

미 콜로라도 볼더대 연구진은 알파폴드로 대장균의 구조를 파악해 내성 문제를 해결한 새로운 항생제 개발에 나섰다. 사라져가는 꿀벌의 면역력을 높여주는 연구도 진행되고 있다. 영국 포츠머스대 연구진은 효소 단백질 구조를 파악해 플라스틱을 100% 분해하는 기술을 개발 중이다. 한센병 주혈흡충증 등 감염 질환을 해결하는 데에도 알파폴드가 활용되고 있다. 에릭 토폴 미 스크립스연구소 창립자는 "거의 모든 단백질의 세계를 확인할 수 있게 되면서 매일 더 많은 생물학적 미스터리가 풀릴 것"이라고 했다.

알파폴드가 세상에 모습을 드러낸 건 2020년 세계 단백질구조예측능력(CASP) 평가에서다. 당시 92.4점으로 1위를 차지했다. 알파폴드가 설계도를 보고 예측한 단백질 구조가 실험실에서 엑스레이 등으로 파악한 구조와 거의 같다는 의미다. 후발 주자들은 70점대였다.

하지만 과학계에선 의구심을 보냈다. 논문 등으로 결과를 입증하지 않았다는 이유에서다. 지난해 7월 딥마인드는 알파폴드 원리와 학습 결과 등을 국제학술지에 공개했다. 단백질 36만5000여개를 검색할 수 있는 서비스도 공개했다. 인체 구성 단백질 서열 2만5000개 중 98% 이상이 포함됐다. 지난해 말엔 이 숫자가 100만개까지 늘었다. 1년 만에 190개국에서 50만명 넘는 연구진이 서비스에 접속해 단백질 구조물을 200만건 넘게 확인했다.

화합물 등 구조 파악엔 한계

'게임체인저'로 불리는 알파폴드에도 한계는 있다. 하나의 단백질 구조만 파악하는 데 특화됐기 때문에 여러 단백질이 뭉쳐지면서 생기는 변화 등은 예측하지 못한다. 치료제 개발 등에 쓰이는 소분자(리간드 등)나 약물 등을 단백질에 인위적으로 붙인 구조물이 어떤 모습일지도 정확히 알아내진 못한다. 딥마인드는 지난해 11월 알파폴드를 활용해 신약을 개발하는 '아이소모픽랩스'를 창업했지만 아직 이렇다할 결과물을 내놓진 못했다.

AI를 활용해 단백질 구조를 예측하는 기술은 미래를 바꿀 혁신 기술로 꼽힌다. 기술 상용화에 도전하는 국내 기업도 늘고 있다. 지난달 카카오브레인은 국내 바이오기업 갤럭스와 함께 항체 신약 설계 플랫폼을 개발하겠다고 발표했다.

동구바이오제약의 자회사인 로프티록인베스트먼트의 투자를 받기도 한 갤럭스는 석차옥 서울대 화학과 교수가 2020년 세운 회사다. 석 교수는 CASP 평가위원으로도 활동하고 있다.

굿인텔리전스도 AI를 활용한 바이오베터를 개발하고 있다. 고등과학원 교수인 이주영 대표는 1994년부터 단백질접힘 연구를 해왔다. 파노로스바이오사이언스 디어젠 팜캐드 인세리브로 등도 단백질 구조 등을 AI로 분석해 신약을 개발하고 있다.

이지현 기자 bluesky@hankyung.com