by 인용호 : 바이오인포메틱스㈜ 연구소 소장, inyh66@bioinfomatix.com
1. 바이오인포매틱스 둘러 보기
근래의 인터넷과 컴퓨터의 발전은 우리 생활의 여러 가지를 바꾸어 놓고 있다. 각 가정마다 컴퓨터를 가지고 있으며, 심지어 초등학생까지도 여러 가지 게임은 물론 학습 자료를 컴퓨터를 이용해 자유 자제로 활용할 수 있는 여건이 된 것이 사실이어서 이제 인터넷과 컴퓨터는 우리 생활의 일부가 되었다고 해도 과언이 아니다. 이제는 일상생활에서 뿐 아니라 각각의 학문분야에서도 전산학의 역할이 점점 중요해 져가고 있는데, 이미 오래 전부터 MIS(management information system)란 이름으로 대두되었던 경영정보학이 좋은 예가 될 수 있을 것 같다. 생물학에 있어서도 이러한 변화는 예외가 아니며, 일련의 생물학 실험방법론의 발전을 통한 대량데이터의 생산은 이제 컴퓨터를 이용하지 않고서는 연구 자체를 수행할 수 없는 상황을 만들었다고 볼 수 있다.
미국의 인사이트 게노믹스사의 경우 하루에 2000만 개의 염기 서열을 결정할 수 있는 능력을 가지고 있으며, 셀레라 게노믹스사는 거의 10만 개 컴팩트디스크 분량의 염기서열을 가지고 있는 것으로 알려져 있다. 이러한 예를 통해 볼 수 있듯이 앞으로는 생물학분야가 기존의 물리학이나 항공공학 등의 고용량 시스템을 요구하던 분야를 앞질러 갈 것으로 예상할 수 있다. 이러한 가능성은 인간 게놈 프로젝트로 대변되는 거대 프로젝트들의 성과물 처리 과정에서 이미 예견된 것이며, 이제는 유전자 염기 서열 결정 이후 단백질 구조 예측, 신약 타깃 예측 등을 통한 신약 개발에 이르는 산업적 요소가 가미되어 마치 금광을 찾아 서부로 향하던 것과 같은 바이오인포매틱스(Bioinformatics, 생물정보학) 붐을 조성하고 있다. 이러한 현상은 일개 대학연구소나 기업체에 국한된 것만이 아니며, 각국 정부가 앞장서서 이러한 생물지식 산업의 발전 및 선점을 위해 산업 정책을 추진하는 등 여러 가지 노력을 하고 있다.
바이오인포매틱스는 여러 가지 특징이 있는데 그 중 몇 가지를 꼽자면 다음과 같은 것을 들 수 있다. 첫째, 생물 데이터는 자료가 워낙 방대하기 때문에 효과적인 연구를 위해서는 체계적인 분류를 할 필요가 있으며 따라서 데이터 베이스화가 필수적이다. 둘째, 학문 발전과 동시에 산업화가 진행되고 있는 분야라는 점이다. 이러한 점 때문에 생물학이나 전산학뿐 아니라 수학, 통계 등 학제 간 융합이 반드시 필요한 분야인 것이다.
이런 생물정보학의 특성상 이 분야에 대한 전문가에게 필요한 능력이 과연 어떤 것인가를 설명하는 것도 무척 어려운 것이 사실이다. 생물정보학 전문가라 하면 생물학, 혹은 생물 전반에 관한 지식을 공부하고 여기에서 도출되는 생물학적 과제를 전산학적인 방법으로 접근해 해결할 수 있는 능력이 있는 인력, 전산학에 대한 해박한 지식을 갖고 있으며 생물학에 관련된 제반 문제를 이해할 능력을 갖추고 있는 인력, 수학이나 통계학을 이용하여 생물학적 과제를 해석할 수 있는 인력 등 매우 포괄적인 능력을 갖고 있는 사람 정도로 설명할 수 있을 것이다. 하지만 실제로 이런 능력을 모두 갖추는 것은 매우 어렵다. 그리고 바이오인포매틱스 분야가 점점 학문, 산업 영역에서 자리를 잡아감에 따라 이런 포괄적인 능력보다는 해당 전문 분야에 대한 특화 된 전문 지식을 소유하는 것이 점점 더 중요해 질 것이다. 이미 생물정보학 분야에서 앞서나가고 있는 미국의 경우도 생물정보학 전문가를 찾기는 쉬운 일이 아니며 장기적인 인력 양성에 있어서도 최근에야 체계를 잡아 가고 있다고 할 수 있다. 학교에서는 필요에 따라 강의를 할 수 있는 분야에 초점을 맞춰 부분적으로 강의를 개설하거나 이제 막 개설하려고 준비하고 있는 단계라고 보면 된다. 어찌 보면 이미 준비된 생물정보학 전문가를 찾는다는 것 자체가 무리일수도 있는 것이다. 미국을 포함해 현재 생물정보학 분야에서 앞서가고 있는 국가들의 경우 대다수의 인력들은 각종 관련 프로젝트의 수행을 통해 양성되었으며, 강의자료 혹은 교재의 면에서도 최근에서야 비로소 생물정보학과 관련된 각종 서적들이 출판되고 있다.
국내에서도 관련 인력 양성은 상당히 중요한 문제 중 하나이며 특히 생물정보학 관련 거대 프로젝트가 부재한 현 상황에서 체계적인 교육의 필요성은 더욱 크다고 할 수 있다. 현재 국내에서는 부산대 대학원에 생물정보학 협동과정이 개설되어 있으며, 숭실대에 생명정보학과가 올 초 신입생을 유치하였다. 또한 서울대를 포함한 몇 개 대학들이 내년도 개설을 목표로 준비 중인 것으로 알려져 있다. 무엇보다 중요한 것은 앞서 언급한 것과 같이 생물정보학 분야가 워낙 넓은 분야이고 또 다양한 전문지식을 가진 인력들이 서로 융합 되어야 진정한 상승효과를 볼 수 있는 영역이므로 우리나라의 생물정보학의 미래는 얼마나 자질 있는 인력들을 모을 수 있으며 어떻게 연구에 집중할 수 있는 인프라를 구축할 수 있는 가가 관건일 것이다. 이 분야를 연구하는 생물전공자는 생물학적 과제를 전산학이나 수학전공자 들에게 조리 있게 설명하여 문제를 명확하게 인식할 수 있게 해줄 수 있어야 한다. 생물학자가 실제 구현된 프로그램을 이해하고 활용할 수 있는 최소한의 전산지식을 습득한다면 당장은 큰 무리 없이 융합 될 수 있을 것으로 생각되며, 처리된 생물 데이터의 해석은 생물전공자 들의 몫이 될 가능성이 더 크기 때문이다. 전산전공자 들에게 있어서는 구체화된 생물문제의 원리를 이해할 수 있을 정도의 생물학 지식을 가지는 것이 중요한데, 이러한 기반 지식을 바탕으로 현재 구현되어 있는 프로그램의 단점을 파악하고 다양한 인력들과 협의함으로써 좀더 나은 프로그램으로 개선하는 것이 필요할 것이다. 최근 국내에서도 프론티어 사업을 포함한 거대 프로젝트들이 시작되고 있어 이들 과제로부터 생산되는 막대한 양의 데이터를 처리하기 위한 생물정보학 관련 인력의 필요성이 대두되고 있으며, 이런 필요에 따라 국립 보건원의 경우에는 올 초부터 단기 인력양성 제도를 마련해 좋은 평가를 받고 있다. 현재 인간 유전체 사업단, 자생 식물 사업단 등의 프론티어 사업단이 자체 정보 인력을 가지고 연구를 진행 중이며, 위에서 언급한 몇 개 대학들에서 인력 양성에 박차를 가하고 있다. 그 외 아직 정식으로 학과는 개설되지는 않았지만, 생물 관련 학과나 전산 관련 학과의 연구 인력들도 각각의 분야에서 생물정보학 연구를 진행 중에 있다. 산업계의 경우는 주로 바이오 벤처를 중심으로 왕성하게 진행되고 있는데, 특히 이들 회사들은 다양한 미생물 게놈 시퀀싱 프로젝트를 통해 염기 서열 기반의 데이터베이스 구축 혹은 분석 시스템 연구를 시작으로 DNA 칩 데이터 분석 시스템, 프로테옴 데이터 분석 시스템, 신약 개발과 관련된 부분까지 다양한 접근을 시도하고 있다. 대기업의 경우 다소 소극적이긴 하나 자체 팀을 구성하거나 외부 기관과 연계하여 주로 신약 개발과 연관된 연구를 수행하고 있으며 향후 그 규모를 키워 나갈 것으로 보도되고 있다. 국가적으로도 생물정보학의 중요성을 인식하고 있는 상태여서 향후 다양한 과제들이 국내 연구 인프라 구축을 위해 진행될 것으로 예상된다.
우리나라의 경우 정부차원에서 IT인력 양성 및 정보통신 분야 육성에 힘입어 인터넷 보급률 세계 1위라는 인프라를 이미 가지고 있고 다양한 분야의 생물관련 연구자들이 각 분야에서 연구 중이며 수학이나 통계에서도 그 어느 나라에 뒤지지 않으므로 체계적인 교육시스템과 융합할 수 있는 정책이나 분위기가 조성된다면 국제적으로도 충분한 경쟁력을 가질 수 있을 것으로 생각된다.
2. 바이오인포매틱스 입문자를 위한 조언
이상에서 바이오인포매틱스에 대한 대강의 윤곽을 짚어 보았다. 이제 바이오인포매틱스가 무엇인지 감을 잡았을 것이므로 좀더 많은 정보를 얻고 싶을 것이다. 부지런한 사람만이 앞설 수 있다. 우물가로 데려가는 일이야 필자가 해줄 수 있다 손 쳐도 물을 떠 마시는 일은 순전히 독자들의 몫이니 이 글을 읽은 후 부지런히 정보를 수집하기 바란다. 여러 분이 바이오인포매틱스 분야의 초심자라면 우선 아래의 홈페이지들을 둘러 보기 바란다. 초심자들을 위한 정보를 정리해 둔 곳으로 유용한 정보들을 얻을 수 있을 것이다.
생물정보학 연구에 사용되는 언어는 과제에 따라 혹은 개발자의 취향에 따라 차이가 있긴 하지만, 현재까지는 펄(Perl)이 가장 많이 쓰인다고 할 수 있다. 스트링 처리 알고리즘을 개발하는 데 가장 적합한 언어라는 점, 그리고 현재 개발되어 있는 많은 툴들이 펄을 사용한 것이라는 점, 데이터 소스가 풍부하다는 점 등에서 장점을 가지고 있으나 최근에는 파이썬(Python)과 자바(Java)가 빠른 속도로 그 자리를 대체하고 있는 상황이다.
통상 응용소프트웨어의 핵심 엔진은 C, C++로 만들어서 모듈화해 놓고 펄, 파이썬, 자바를 써서 응용하기 때문에 무엇을 사용하는지는 개인에 따라 상이할 수 있을 것이다. 어떤 기반 위에서 생물정보학 분야에 접근하는가에 따라 습득해야 하는 지식과 기술이 너무도 다양해 질 수 있기 때문에 어떤 것부터 공부를 해야 하는가 하는 질문에 대답한다는 것은 어떻게 보면 좀 황당한 일이라고 할 수 있다. 이 글을 통해 각 분야의 전문가가 되기 위해서 어떤 책을 보고 어떤 분야의 기술을 습득해야 한다는 것을 일일이 제시할 수는 없지만, 기본적으로 바이오인포매틱스 분야를 이해하기 위해서는 어떤 주제, 혹은 어떤 분야가 있는지 정도를 제시할 수는 있을 것이다.
- 서열비교 분석
바이오인포매틱스 연구의 가장 기본이 되는 분야로 서열정보 데이터베이스의 증가는 그 유용성을 더욱 증가시킨다. 서열로부터 ORF 찾아내고 상동성 검색에 의해 그 기능을 예측하는 것을 포함한다. 더군다나, 유전체 레벨에서의 서열 정보들이 쏟아지는 이때, 비교유전체학이라는 분야가 말하듯이 서열비교분석은 그 중요성을 간과할 수 없을 것이다. 다양한 통계학적 방법들을 사용하여 그 유사성정도를 측정하는 광범위한 연구분야이다.
- 구조 예측
서열비교분석 다음으로 생명현상의 기능을 담당하는 분자구조에 대한 연구가 생물정보학의 주 연구 분야이다. 서열 -> 구조 -> 기능으로 이어지는 일련의 생명현상의 기본을 이해하기 위해서 구조를 연구해야 함은 당연한 과제이다. 그러나 아직까지 서열로부터 구조를 정확히 예측하는 정확한 이론은 없으며, 수많은 연구자들이 다양한 방법으로 접근하고 있다. 또한, 기존의 구조결정 방법들, x-ray 결정, NMR등의 많은 한계점들을 극복하고자 정보학을 이용하는 연구, 단백질 활성부위예측연구 등이 활발하게 진행되고 있으며, 이 분야는 실제 신약개발로 이어지는 중요한 단계로서 다양한 접근 방법들이 대두되고 있다.
- 대량 실험법에 의한 생물네트워크 연구
최근 DNA칩에 2만개이상의 cDNA를 올려놓을 수 있고, 단백질체 연구에서는 만개이상의 spot을 관찰 할 수 있기에 이들 많은 데이터들이 시간변화, 약물치료변화, 병세변화 등 외부환경에 어떻게 변화하는지의 패턴을 연구하게 되면, 이로부터 생물학적 네트웍, 대사경로, 신호전달 등의 정보들을 뽑아낼 수 있다. 이 분야 역시 데이터로부터 정보를 뽑아내고, 이 정보로부터 지식을 만들어내는 일련의 과정이라고 할 수 있으며, 이 과정에는 많은 통계학적 접근방법들이 가세하고 있으며, 이를 유용하게 해석할 수 있도록 하기 위한 전산학적 솔루션개발은 현재 생물정보학 분야 중에 가장 왕성한 연구를 보이는 분야이다.
- 생물 종 간의 연구
생물정보학의 또 다른 연구분야는 종간의 다양성을 이해하고, 이로부터 계통분석 및 비교 유전체학 등의 연구결과를 얻어내는 분야와, 종 내의 변이, 즉 SNPs, 연구를 통한 종 내의 유전적 변화과정 연구를 통한 개별 맞춤 의학에로의 적용 등이 있다. 유전체정보를 통한 계통발생학적 연구는 단순한 생명현상의 이해의 범위를 넘어서, 실제 신약 타겟을 예측하고, 생물학적 네트웍 상에서의 중요성 정보를 제공할 수 있다.
- 데이터 통합
최근의 생물정보학 방법들에 의해서 많은 데이터들은 개개의 성격에 맞도록 특성화되어 있다. Genbank의 서열정보를 가지고, 바로 병세정보 및 단백질구조 정보들을 바로 얻어낼 수는 없는 상황이어서, 이들 데이터들을 효과적으로 서로 통합시키고, 연결시키는 과정이 생물정보학의 큰 도전으로 여겨지고 있다.
그 외에도 유전자예측 알고리즘 등 여기 소개되지 아니한 생물학관련 모든 분야들을 포함하고 있어 그 만큼 해야 할 일이 무궁무진하다는 얘기도 될 수 있을 것이다. 바이오인포매틱스의 영역과 가능성에 관해서 조금 더 알고 싶다면 다면 이 기사를 참고해 보라.
바이오인포매틱스에 관한 전반적인 지식과 관련 애플리케이션에 관련된 지식을 습득하기 위해서는 다음의 책들을 참고할 수 있을 것이다.
- 바이오인포매틱스(Developing Bioinformatics Computer skill) (Cyntbia Gibas, Per Jambeck 저, 한빛미디어, 2001)
- Bioinformatics Methods and Protocols (Stephen Misener, Stephen A.krawetz 저, humana Press)
- Bioinformatics : Sequence and Genome Analysis(David W.Mount 저, cold SPRING HARBOR LABORATORY PRESS)
현재 바이오인포매틱스에서 사용하는 운영 체제(유닉스, 리눅스)에 익숙하고 관련 소프트웨어를 개발하고 있거나 개발한 경험이 있는 사람이라면 아래의 책이 유용할 것이다.
- Computational Molecular Biology: An Algorithmic Approach (Pavel A. Pevzner 저, MIT Press)
생물학과 관련된 서적들은 여러 가지 종류가 출판되어 있어 쉽게 구할 수 있을 것으로 생각된다.
여기에 제시한 도서들은 절대적인 것이 아니며, 좀 더 체계적인 커리큘럼을 알고 싶다면 위에서 살펴본 홈페이지들에서 더 자세한 정보를 얻을 수 있을 것이다. 현재 외국에 개설되어 있는 바이오인포매틱스 관련 학과의 커리큘럼 역시 확인해 볼 수 있다.
이제 바이오인포매틱스의 성장은 어찌 보면 여러 가지 면에서 필수 불가결한 것이며, 향후에도 그 성장 속도는 대단할 것이다. 한 가지 안타까운 것은 상당히 많은 초심자들이(생물쪽에서 접근하든, 전산쪽에서 접근하든) 바이오인포매틱스에 접근하는 것을 두려워하고 있는 부분인데, 쉬운 것은 아니지만 할 수 있다는 자신감을 갖는 것이 중요할 것 같다. 바이오인포매틱스의 특성상 상당 부분 인프라의 성격을 가지고 있는 것이 사실이어서 국내 인프라를 어느 방향으로 풀어나가는가에 따라 국내 바이오인포매틱스 연구와 관련 산업계의 판도가 달라질 수 있을 것이다. 데이터 생산과 데이터 분석의 양면이 서로 간의 입장을 이해하며 양보할 때 진정한 윈-윈 전략이 될 수 있을 것으로 생각한다. 새 천년은 정보 전쟁의 시대다. 생물 정보 능력을 키우는 것이 자신의 가치를 높이는 것은 물론 나라의 경쟁력을 키우는 길이 될 것이다.
바이오인포메틱스㈜는 사명에서 나타나는 것과 같이 생물정보학 연구개발에 주력하고 있는 회사로서 약 30여명의 연구원들이 게노믹스, 프로테오믹스 등을 통해 생성되는 대량의 데이터분석을 위한 생물정보처리 솔루션개발에 주력하고 있다. KAIST, 생명공학연구원, 포항공대 등 국내 유수의 연구 기관들 및 바이오벤처들과 공동 혹은 위탁연구를 통하여 경쟁력 있는 제품개발에 박차를 가하고 있으며, 주 연구분야는 미생물 게놈분석 솔루션, 2D 겔 DB구축 및 분석시스템, 생물학 Meta DB 서비스 등이 있다.