AI 딥 러닝으로 생의학 연구 급변
치료되지 않은 세포의 현미경 이미지를 보고 그 특징을 확인하는 일은 생각보다 어렵다. 과학자들은 통상 세포의 특성을 맨 눈으로 확인하기 위해 화학물질을 사용해 세포를 죽인 뒤 관찰한다.
최근에 발표된 한 획기적인 연구는 이런 침습적인 방법을 사용하지 않고도 컴퓨터로 세포의 세부 이미지를 살펴볼 수 있는 기술을 선보였다. 이 기술은 치료되지 않은 세포들을 조사할 수 있을 뿐만 아니라 과학자들이 발견할 수 없는 많은 데이터도 확보할 수 있다. 실제로 컴퓨터가 처리한 이미지는 생각했던 것보다 훨씬 많은 정보를 담고 있다.
미국 샌프란시스코 소재 글래드스톤 생의학연구소 이사 겸 선임연구원인 스티븐 핑크바이너(Steven Finkbeiner) 박사는 구글 컴퓨터 과학자들과 인공지능 접근법으로 컴퓨터를 훈련시킨 결과, 과학자들에게 인간의 통상 능력을 능가하는 새로운 연구 방법을 제시할 수 있다는 사실을 발견했다.
연구팀이 사용한 방법은 데이터 분석과 패턴 인식 및 예측을 할 수 있는 알고리듬을 포함하는 기계 학습의 한 유형인 심층 구조 학습(deep learning)이다. 생명과학저널 ‘셀’(Cell) 12일자에 발표된 이번 연구는 생물학에서 딥 러닝을 응용한 첫 사례 중 하나로 꼽힌다.
그런데 이번에 발표한 세포 대상 연구는 단지 빙산의 일각에 불과하다.
핑크바이너 박사는 “이 방법은 변형이 가능하다”며, “심층 구조 학습은 앞으로 우리가 수행하는 생의학 연구 방식을 근본적으로 바꿀 뿐만 아니라 중요한 의학적 치료방법을 찾는데 도움을 줄 것”이라고 설명했다.
핑크바이너 박사팀은 구글 인공지능 연구팀과 협동해 생의학 연구에 획기적인 변화를 가져올 수 있는 인공지능 심층 구조 학습 방법을 개발했다. 사진은 위상차로 나타난 인체 유도 만능줄기세포 뉴런들(회색 화소)이 예측된 형광 레이블들(컬러 화소)과 중첩돼 있는 모습. 사진 : Google
생물학이 인공지능을 만나다
글래드스톤 연구소의 핑크바이너 박사팀은 약 10년 전 개별 세포들을 몇 시간이나 며칠 혹은 몇 달씩 추적할 수 있는 완전자동 로봇 현미경을 개발한 바 있다. 이 로봇 현미경이 하루에 3~5테라바이트 용량의 데이터를 생산해 내자 연구팀은 엄청난 양의 정보를 분석할 수 있는 강력한 통계 및 전산 방법도 개발했다.
핑크바이너 박사는 수집된 데이터의 크기와 복잡성을 감안해 연구를 향상시킬 수 있는 한 방법으로 심층 구조 학습 활용을 모색하기 시작했다. 이 방법은 인간이 수행할 수 없는 통찰력을 제공해 줄 수 있을 것으로 기대됐다. 그는 이 분야 인공지능의 선두주자인 구글과 접촉했다. 구글의 인공지능은 상호 연결된 많은 뉴런 층을 통해 정보를 처리하는 사람 두뇌를 느슨하게 모방한 인공 신경망을 기초로 했다.
구글 가속 과학(Google Accelerated Science) 팀의 엔지니어링 이사인 필립 넬슨(Philip Nelson) 박사는 “대형 문제 해결을 위해 기계 학습에 대한 우리의 열정을 활용하고 싶었다”며, “글래드스톤과의 협력은 확장되는 인공지능 지식을 응용해 다른 분야의 과학자들이 실제적인 방법으로 사회에 기여할 수 있도록 돕는 훌륭한 기회를 제공했다”고 말했다.
이 일은 완벽하게 궁합이 맞았다. 핑크바이너 박사는 첨단 컴퓨터 과학지식이 필요했고, 구글은 심층 구조 학습이 가능한 충분한 양의 자료를 생성해 낼 수 있는 생의학 연구 프로젝트가 필요했다.
핑크바이너 박사는 처음에는 기성품 소프트웨어 솔루션을 사용해 제한적인 성공을 거뒀다. 이때 구글은 구글 인공지능 엔지니어들이 개발한 대중적인 심층 구조 학습 오픈-소스 라이브러리인 텐서플로(TensorFlow)로 맞춤 모델을 제공했다.
초인적 업무수행 할 수 있도록 신경망 훈련
생명과학자들은 많은 연구를 현미경 이미지에 의존하고 있으나 생물학 표본들은 대부분이 물로 이루어져 있어 세포 안에서 필요한 요소를 찾아내는데 오랫 동안 애를 먹어 왔다. 시간이 지나면서 생명과학자들은 인간의 눈으로는 정상적으로 볼 수 없는 특징들을 파악하기 위해 세포에 형광 표지를 덧붙이는 방법을 개발했다. 그러나 이 기술은 연구하려는 세포를 죽이기 위한 시간이 걸리는 등 눈에 띄는 단점들이 있었다.
핑크바이너 박사와 논문 제1저자인 에릭 크리스찬슨(Eric Christiansen)은 이런 추가단계들이 필요치 않다는 사실을 발견했다. 밝혀진 바와 같이 이미지는 눈으로 보는 것보다 훨씬 많은 정보를 포함하고 있다.
이들은 ‘인 실리코 레이블링’(in silico labeling)이라는 새로운 심층 구조 학습방법을 개발했다. 이 방법은 컴퓨터가 레이블을 붙이지 않은 세포 이미지에서 특징을 찾고 예측할 수 있는 방법으로, 이를 통해 문제가 될 수 있거나 과학자들이 찾기가 불가능한 중요한 정보들을 발견할 수 있다.
구글 가속 과학팀 엔지니어인 크리스찬슨은 “우리는 신경망에게 같은 세포의 두 종류 매칭 이미지 즉 하나는 레이블이 없고 다른 하나는 형광 레이블이 붙은 이미지를 보여주며 이 망을 훈련시켰다”며, “이 과정을 수백만 번 반복한 다음 신경망에 전에 본 적이 없는 레이블 없는 이미지를 제시하자 형광 레이블들이 어디에 속하는지 정확하게 예측할 수 있었다”고 밝혔다.
이 심층 구조 학습 네트워크는 세포가 죽었는지 살았는지 식별할 수 있으며 그 현장에서 98%의 정확도를 보인다. 수많은 살아있는 세포군에서 하나의 죽은 세포도 골라낼 수 있는데, 인간이 일반적으로 80%의 정확도로 죽은 세포를 식별해 내는데 비해 훨씬 높은 정확도를 보인다. 실제로 매일 세포를 살펴보는 경험 많은 생물학자들에게 똑 같은 세포 이미지를 두 번 제시하면 때로 다른 대답을 할 수 있다.
핑크바이너와 넬슨 박사는 신경망이 일단 훈련을 받으면 지속적으로 스스로의 성능을 향상시키고 새로운 과업을 수행할 수 있는 능력과 속도를 증가시킬 수 있다는 사실을 알게 됐다. 그래서 이들은 세포 핵이나 명령센터의 위치를 정확하게 예측하도록 훈련시켰다.
이 모델은 또한 서로 다른 세포 유형들을 구별할 수 있다. 예를 들면 여러 세포가 섞여있는 배양접시에서 뉴런 한 개를 식별해 낼 수 있는 것. 한 걸음 더 나아가 비슷하게 보이는 뉴런에서의 확장된 부분이 축색 돌기인지 수지상 돌기인지도 예측할 수 있다.
넬슨 박사는 “모델이 더 많이 배울수록 새로운 과업을 위해 배워야 할 데이터가 줄어든다”며, “네트워크가 어떤 이미지 유형에 대해 배운 것을 완전하게 새로운 유형에 적용하는 이런 종류의 전이 학습은 인공지능 분야에서 오랫 동안 과제가 돼 왔기 때문에 여기에서 잘 작동하는 모습을 보고 매우 흥분했다”고 말했다. 그는 “우리 네트워크는 이전의 학습을 새로운 과업들에 적용함으로써 성능이 계속 개선되고, 이번 연구에서 측정한 것보다 더 많은 자료에 대해서도 정확하게 예측할 수 있다”고 덧붙였다.
일부 연구비를 지원한 미국 국립 신경학적 장애 및 뇌졸중 연구소의 마가렛 서덜랜드(Margaret Sutherland) 박사는 “이 방법은 생의학 연구에 혁명을 불러일으킬 수 있는 가능성이 있다”고 평했다. 서덜랜드 박사는 “연구자들은 현재 엄청난 양의 정보를 생산해 내고 있으며, 기계가 정보 분석을 돕도록 훈련시키는 일은 신경과학자들에게 뇌세포들이 어떻게 결합돼 있는지 그리고 신약 개발과 관련된 응용분야에서 어떤 반응을 나타내는지에 대한 이해를 가속화할 수 있음을 의미한다”고 말했다.
“심층 구조 학습이 생의학을 변모시킨다”
일부 심층 구조 학습 응용프로그램들은 스마트폰에서부터 자율주행차에 이르기까지 거의 보편화되었다. 그러나 이 기술에 익숙지 않은 생물학자들이 실험실에서 인공지능을 도구로 사용하는 것은 쉽지 않을 수 있다.
핑크바이너 교수는 “이 기술을 생물학자들이 사용하도록 하는 것이 중요한 목표”라고 말했다. 그는 “토의를 할 때 동료 연구자들은 우리가 개념적인 수준에서 수행하려고 하는 것을 이해하는 순간 더 이상 들어보지 않고 자신의 생각을 얘기한다”며, “일단 답할 수 없는 문제 해결에 심층 구조 학습이 어떻게 도움을 줄 수 있을지 상상하기 시작하면 저마다 아이디어를 토해내며 흥분된 시간이 된다”고 말했다.
심층 구조 학습의 생물학적 응용 가능성은 무한하다. 핑크바이너 교수는 연구실에서 알츠하이머병이나 파킨슨병, 루게릭병(ALS) 같은 신경퇴행성 질환을 진단, 치료할 수 있는 새로운 방법을 찾고 있다.
그는 “우리는 아직까지 이들 환자의 90%가 어떤 원인에 의해 병에 걸렸는지 정확히 모르고 있다”며, “더욱이 모든 환자가 같은 원인을 가지고 있는지 아니면 다른 유형으로 분류해야 하는지조차 모르고 있다”고 지적했다. 심층 구조 학습 도구는 질병을 어떻게 연구해야 할 것인지에서부터 임상시험을 수행하는 방법에 이르기까지 큰 영향을 미치는 질문에 대한 답을 찾는데 도움을 줄 수 있다는 것이다.
질병 분류를 정확히 알지 못하면 엉뚱한 환자군에게 약을 테스트할 수 있고, 그 약이 맞는 다른 환자들에게는 제대로 작용할 텐데도 효과가 없는 것으로 나타날 수 있다. 유도 만능줄기세포 기술에서도 과학자들은 환자의 세포와 임상 정보를 일치시킬 수 있으며, 심층 구조 학습 네트워크를 통해 두 데이터세트 간의 관계를 확인하고 연결성을 예측할 수 있다. 이는 같은 세포 특성을 가진 하위 환자 그룹을 식별해 이들에게 적합한 치료법을 찾아주는데 도움이 될 수 있다.
핑크바이너 박사는 “수많은 첨단 기술의 발전에 따라 우리는 이미지의 힘을 과소 평가하는 것 같다”며, “이번 연구는 현미경의 중요성을 재확인시켜 준다”고 말했다. 그는 “흥미로운 점은 우리가 심층 네트워크를 훈련시킬 때 사용한 몇몇 이미지들은 내가 대학원생이었을 때 사용한 방법으로 제작한 것인데, 그 이미지들에서 유용한 자료를 뽑아내고 몇 년 전에 사용을 중지했다고 생각했으나 놀랍게도 영상들에는 인간이 파악할 수 있는 것보다 더 많은 정보가 들어있음을 알게 됐다”고 덧붙였다.
인공지능의 도움을 통해 이미지에서 얻을 수 있는 특성들의 숫자는 거의 무한하다. 연구팀은인간 상상력의 한계가 유일한 장벽일지 모른다고 보고 있다.