특허

자연어 처리 모델을 이용한 약물-표적 상호작용 예측 방법
자연어 처리 모델을 이용한 약물-표적 상호작용 예측 방법
작성자 라이프사이클 기반 시니어헬스
조회수 31 등록일 2023.03.20

○ 출원등록구분: 출원


○ 출원등록국가: 대한민국


○ 출원등록번호: 10-2022-0184891


○ 출원등록일: 202212


○ 출원자명: 충남대학교 산학협력단


○ 발명자명: 윤휘열


○ 주요내용

단백질과 상호작용을 하는 약물들이 치료 약물의 후보로 선도물질(lead compound)이 되며 선도물질을 빠르고 정확하게 찾아내는 것이 신약 개발의 첫 단계라고 할 수 있다. 이 기간을 줄이기 위해서 물리화학적 시뮬레이션이 도입되었으나 물리화학 시뮬레이션을 모든 약물과 단백질에 대해서 실행하는 것은 시간이 많이 소요되는 한계점이 있다. 이를 보완하기 위해서 약물의 패턴을 파악하기 위한 방법으로 심층학습(deep learning)이 사용되고 있다. 이중에 자연어 처리 모델은 번역과 상담원 대행 등의 기술에 사용되고 있으며 자연어의 패턴을 파악하는 방식으로 구현이 되어있다. 최신의 자연어 처리 모델들은 뉴스, 백과사전 등에서 수집한 문장의 일부분을 가린 후 복원 하는 방식으로 대량의 데이터로 모델을 학습하여 높은 성능을 보여주고 있다. 이를 자연계에서 존재하는 단백질과 화합물의 상호작용에 대한 패턴을 학습하기 위해서 자연어 처리 모델을 사용할 수 있으며 이에 대한 연구가 활발하다. 이를 단백질 서열과 화학식에 적용한 자연어 처리 모델이 등장하였으며 이를 미세조정(Fine-tuning)하여 물리화학적 성질의 예측에 사용한다. 이 기술은 서로 상호 작용하는 단백질과 화합물 쌍을 찾아내는 모델을 개발하는 것이 신약개발을 가속화하는데 필수적이라 할 수 있다. 기존의 약물과 단백질 간의 상호작용이 있는 패턴 분석을 통해서 새로운 약물이 단백질과 상호작용할 것인지 판정한다. 약물과 단백질 간의 상호 작용을 실험이나 시뮬레이션으로 파악하기 전에 어떤 약물과 단백질 쌍이 상호작용을 하는지 파악할 수 있어 어떤 약물-단백질 쌍부터 실험이나 시뮬레이션할지 우선순위를 정할 수 있다.


입력값은 단백질 정보를 FASTA 형식의 아미노산 서열과 SMILES(simplified molecular-input line-entry system) 형식의 화합물 서열이다. 단백질 자연어 처리모델이 아미노산 서열을 벡터값(P)으로 요약하고, 화합물 자연어 처리 모델이 화합물 서열을 벡터값(C)으로 요약한다.

결합예측부에서는 아미노산 서열 요약정보P와 화합물 서열 요약정보C를 입력받은 후 입력받은 벡터값들을 결합한 값을 Feedforward network에 통과시켜 결합 확률을 출력한다.


본 발명에 의하면 기존에 합성 가능한 화합물의 정보와 자연계에 존재하는 단백질 정보를 기반으로 기존의 화합물 또는 새로운 화합물의 단백질과의 결합 가능성을 예측할 수 있다.