Protein
프로틴은 아미노산 잔기의 긴 체인으로 구성된 molecule. 단백질의 구조를 발견하면 단백질이 기능을 수행하는 방법과 약물 설계에서(단백질이) 어떻게 영향을 받는지, 그 단서 제공 가능.
단백질 구조 예측
단백질 구조 예측 방법은 구조가 실험적으로 결정되지 않은 단백질에 대해 plausible한 구조를 생성하는 수단으로 제공하려 시도. 이론상 분자 형성을 계산적으로 예측하는 모델 개발. structural genomic (구조 유전체학) 의 goal은 해결된 구조에 충분한 표현을 제공, 남아있는 (대부분의) 구조를 모델링 하는 것.
perfect sequence alignment 일때만 매우 정확한 모델 생성가능. 그래서 sequence alignment는 바로 구조 예측 작업의 병목 현상. intermolecular interactions는 더 복잡한 계산 문제임. e.g. 분자 도킹, 단백질-단백질 상호작용 예측.
단백질은 18세기 Antoine Fourcroy 등에 의해 별개의 생물학적 분자로 인식되기 시작. Protein Data Bank 에는 현재 171,313개 이상의 단백질 구조가 있음. 인간서부터 바이러스까지 모든 생물은 다백질과 핵산(DNA, RNA)를 필수적으로 가짐. 생물의 세포 중 물은 전체의 70 \% 정도를 차지, 단백질은 그 다음으로 많은데 보통 세포의 15-20% 차지. 예로, 대장균은 단세포 생물인데 3000 여 종의 단백질을 포함. 고등 생물인 인간의 전체적인 단백질 종류는 약 10만 종류가 있음. 그리고 인간과 돼지같은 다른 동물에서는 작용상 같으나 구조가 약간 다른 단백질이 보통 존재.
지구 상 생물 총 150만 종. 각각 수천 - 10만 종 단백질 보유. 지구 상 전체 단백질 1조 종류에 이름. (A.L. Lehninger의 생화학中)
단백질의 분자는 거대 분자임. 분자는 물질의 가장 작은 구성 단위, 원자로 이루어져 있음. 분자 쪼개면 물질 성질 사라짐. 분자 크기는 분자량으로서 비교. e.g. 물 분자량 18, 산소 32, 이산화탄소 44, 설탕은 342 분자량. 단백질 분자량은 가장 작은 것이 5000정도. 보통 수만 - 수십만. 수백만 분자량인 단백질도 존재. 거대 분자 라고 부르긴 하나, 사실 그 크기는 매우 작아 현미경으로 관찰 불가.
단백질 분자는 공모양 / 막대모양. 그러나 모두 끈 으로 이루어져 있음. 그 끈은 많은 원자로 구성됨. 원자들은 탄소, 산소, 수소, 질소 원자 등. 이 원자들이 모여 아미노산이 되고, 단백질의 구성물인 아미노산은 총 20종. 아미노산 구조식을 쓸 때는 평면이지만 실제로는 3차원적 구조.
그러니까, 시청각 정보 처리나 자연어 처리와 마찬가지로 머신러닝 기법을 적용하기에 유용하다.
단백질의 아미노산 배열 순서 결정은 최초로 F.Sanger가 함. 노벨상 두 번 수상
. 그 때 결정된 단백질이 바로 인슐린. 총 몇 종류의 단백질 아미노산 배열 순서가 있는지 알려지지 않음. 아미노산 배열 순서 연구는 생물 진화의 계통수(tree) 만드는데 도움. 예로, 시트크롬C라는 단백질 100개의 아미노산으로 구성, 사람과 원숭이 것은 단지 한 군데 차이인 반면에 사람과 소는 열 군데 차이가 나고, 사람과 파리 사이에는 29군데가 다름. 시트크롬C 구성 약 100개의 아미노산 중 27개는 모든 생물 공통 존재. 어떤 특정 생물의 특정 단백질은 동일 아미노산 배열 가짐. 만약 그 유전자 돌연변이 일어나면 (아미노산)
에 치환 생겨 이상 단백질 만들어짐. 질병과 관련, 단백질의 아미노산 배열순서는 거의 무규칙성. 서로 관계없느 단백질 비교시 아미노산 몇 개가 공통 배열된 일도 거의 없음. 아미노산은 총 20종 존재하고, 5개의 아미노산 배열에는 $20^5$가지 가능성 존재. 그래서 아미노산 다섯 개 같은 배열 순서를 우연히 취할 수 없다고 할 수 있음.
단백질은 입체구조인데, 이것은 Linus Pauling의 업적임. 이 사람도 노벨상 두 번 수상
. 단백질 사슬은 총 세가지 종류로 분류.
- 우右선회 나선 구조인 $\alpha$ 나선,
- 인접 사슬 사이 수소 결합이 만들어지는 $\beta$ 구조,
- 세가닥 사슬 꼬아져 좌左선회 나선구조
단백질 구조에는 레벨이 존재함.
- 1차 구조: 아미노산 배열 순서
- 2차: $\alpha$ 나선. $\beta$구조 등, 사슬이 만드는 규칙적 구조
- 3차: 사슬이 접혀 만들어진 공모양 구조
- 4차: sub-unit 결합해 더 큰 구조체 형성한 것과 그 구조를 지칭. e.g. 헤모글로빈
특정 단백질 구분함으로서 특정 단백질의 성질 및 작용을 조사 가능해짐. 아미노산 배열 순서, 입체구조 연구, 의료, 산업 등에 응용됨. 단백질의 아미노산 배열 순서는 그 단백질의 가장 기본적인 정보임.