Review: MolTrans
MolTrans: sub-structural pattern mining algorithm, interaction modeling module.
- For 더 정확, 더 해석가능한 DTI예측.
augmented transformer encoder:
- unlabeled 생의학데이터에서 추출한 substructures 간의 의미관계 더 잘 추출및 캡쳐.
데이터 세트 폴더에는 MolTrans에서 사용되는 세 가지 처리 된 데이터 세트인
-
BindingDB, DAVIS 및 BIOSNAP
-
BIOSNAP: full dataset for main experiment, also missing data experiment
(70%,80%,90%,95%)
, unseen drug, unseen protein datasets
moltrans
Molecular Interaction Transformer for Drug Target Interaction Prediction
Motivation
DTI. 비용,시간多 -> Deep Learning challenges: ignore sub-structure, not focus unlabeled molecular data.
Results
address these limitations via:
- knowledge inspired sub-structural pattern mining algorithm, interaction modeling module
(더정확,더해석가능DTI)
- augmented transformer encoder.
(unlabeled data에서추출한substructures간의의미관계 더잘추출,캡쳐)
Supplementary Materials to MolTrans
FCS 는 데이터셋의 타입에 관계없이 (독립되게)
유사한 sub-structures 집합을 생성한다.
-
단백질-호모사피엔스에 연합한것, uniprot 데이터셋
-
약물-drugbank, chembl 셋트
이것들을 비교, 공유되는 sub-structure 가 얼마나 되는지 계산.결과는 38.4%의 drugbank 의 하부구조가 chembl 셋에 존재한다. 좀더 범위를 넓히기 위해서, 시퀀스의 시작 혹은 끝중 하나의 character difference 까지 포함하면 20.2% 더해져 total 58.6% 의 유사세트를 찾을수 있다.
fcs’ & PrefixSpan PrefixSpan:
-
for sequential pattern mining. find all of the frequent sub-sequences. fcs는 prefixspan에 더해 빈번 subsequence의 ordered sequence로 분해되기원함. subsequences는 오리지날의 파티션이므로 그것들의union은 오리지날의 모든 element를 복구한다. 각 subsequence는 exclusive, not be overlapped decomposition
분해)
는 prefixspan에없고 BPE알고리즘으로해결. -
분해스텝은 essential for explainability. 왜냐? overlapepd subsequence fp는 동일 subsequence에 multiple scores제공 -> 모호성유발.
Supplementary 끝
drug discovery process는 다음을 포함: DTI predictions, …
DTI as a classification problem.
deep neural network(DNN)
은 딥러닝모델중 하나이다. (그 외:DBN, CNN,..)
약물,단백질 sub-structures 만 포함하는게 아니라, interaction are sub-structural. 이전 연구들은 이 점을 놓쳤다.
또한 full-structural molecular representations는 노이즈 만들고, 예측 성능에 영향미침.
data mining is: extract, discover patterns
knowledge inspired == data-driven == 많은 데이터(인풋)
필요하다.
MolTrans derives a data-driven method called Frequent Consecutive Sub-sequence (FCS) mining. that is adaptable to extract high-quality fit-sized sub-structures for both protein and drug.
mining through millions of drugs and proteins sequences. Also augment the representation using transformer.
MolTrans는 일종의 framework이다.
(MolTrans중에서도)
FCS mining: 내가구현할것.
Given the input drug and protein data, a FCS mining module first decomposes them into a set of explicit sequences of sub-structures using a specialized decomposition algorithm. In particular, we propose a data-driven (데이터-기반)
sequential pattern mining algorithm called FCS algorithm to find recurring sub-sequences across drug and protein databases.
FCS는 먼저 고유한 아미노산 토큰 또는 SMILES 문자열 문자의 어휘세트 (V)를 초기화하고 토큰이 주어지면 전체 약물/단백질 corpus를 tokenize한다. tokenized된 세트(W)를 호출, 그것(W)
를 스캔함으로써 가장 빈번한 연속 토큰(A, B)
를 식별한다. 그런다음 FCS는 토큰화된 세트 (W)의 모든 (A,B)
를 새토큰(AB)
로 교체,업데이트하고 이 (AB)
를 어휘 세트 (V)에도 추가한다. 이러한 “스캔”,”식별”,”업데이트”를 계속 반복한다. threshold에 도달할때까지 혹은, (V)의 크기가 사전에 정의한 최대값(l)에 도달할때까지. 결국 마지막에는, 빈번한sub-sequences는 한 토큰으로 병합되어지고, 그렇지 않은 sub-sequences는 더짧은 토큰 세트로 분해되어진다.
FCS results in a sequence (C={C_1,…,C_k}) of sub-structural drug/target proteins with size of (k),where each (C_i) is from the set (V).
The significance of FCS is threefolds:
-
It distinguishes from previous sub-structure fingerprinting methods as it is more explainable. FCS drug encoding is capable of giving explicit hints as it decomposes each drug molecule into discrete and moderate size partitions of sub-structures.
It allows for leveraging the massive un-labeled data for improved sub-structure mining. For example,we use the Uniprot dataset (Boutetet al., 2007) consists of 560,823 unique protein sequences and the ChEMBL database(Gaultonet al., 2012)
which includes 1,870,461 drug SMILES strings.
충분히 큰 데이터셋은 성공적으로 더 큰 sequence pool을 식별해 낼수 있다. -
FCS can capture fundamental and meaningful biomedical semantics. 생성된 substructures는 자주 발생하는 약물 및 단백질의 fundamental unit과 관련된다.
FCS is robust against dataset characteristics.