이 문서는 CC 4.0 라이선스에 따라 arxiv에서 볼 수 있습니다.
저자:
(1) 켄터키 대학교 수학과 Md Masud Rana;
(2) Duc Duy Nguyen, 켄터키 대학교 수학과 & ducnguyen@uky.edu.
결론, 데이터 및 소프트웨어 가용성, 경쟁 관계, 승인 및 참고 자료
이 섹션에서는 여러 벤치마크 데이터세트에 대해 제안된 모델의 검증 및 평가를 수행합니다. 우리는 GGL-PPI1과 GGL-PPI2의 두 가지 유형의 GGL-PPI 모델을 개발합니다. 첫 번째 모델인 GGL-PPI1은 섹션 3에서 설명한 기하학적 그래프 기능만을 기반으로 구축되었습니다.
반면에 GGL-PPI2는 Wang et al.에 의해 자세히 설명된 대로 기하학적 그래프 기능과 보조 기능을 모두 통합합니다. [41]. 보조 구성 요소에 대한 정전기 전위 계산은 MIBPB 소프트웨어를 사용하여 수행됩니다[42].
모델을 검증하기 위해 주로 AB-Bind 데이터 세트 [25], SKEMPI 1.0 데이터 세트 [23] 및 SKEMPI 2.0 데이터 세트 [24]를 고려합니다. 우리는 각 데이터 세트에 대해 10회 10배 교차 검증(CV)을 수행하여 엄격한 평가 방법을 사용합니다. 평균 Pearson 상관 계수( Rp )와 평균 제곱근 오차(RMSE)가 평가 지표로 사용됩니다.
제안된 모델의 CV 성능을 기존의 다른 방법과 비교할 때 TopNetTree [41], Hom-ML-V2 [43] 및 Hom-ML-V1 [43]을 구체적으로 평가합니다. TopNetTree와 Hom-ML-V2는 각각 토폴로지 기반 및 Hom-complex 기반 기능과 함께 보조 기능을 통합합니다. 반면 Hom-ML-V1은 보조 기능을 활용하지 않고 Hom-complex 기반 기능에만 의존합니다.
AB-Bind S645 데이터 세트에 대한 검증 AB-Bind 데이터 세트에는 32개의 항체-항원 복합체에 대한 1,101개의 돌연변이 데이터 포인트가 포함되어 있어 돌연변이 시 실험적으로 결정된 결합 친화도 변화를 제공합니다. Pireset al. 29개의 항체-항원 복합체에서 관찰된 645개의 단일 지점 돌연변이로 구성된 AB-Bind S645[44]로 알려진 하위 집합을 선별했습니다. 데이터 세트는 안정화(20%) 돌연변이와 불안정화(80%) 돌연변이의 혼합으로 구성됩니다.
또한 데이터 세트에는 분석의 민감도 범위 내에서 어떠한 결합도 표시하지 않는 27개의 비결합제가 포함되어 있습니다. 이러한 비결합제의 경우 결합 자유 에너지 변화는 8kcal/mol 값으로 균일하게 설정되었습니다. 모델 정확성과 견고성을 보장하려면 모델 개발 및 평가 중에 이러한 비바인더를 이상값으로 고려하는 것이 중요합니다.
GGL-PPI2는 그림 2a와 같이 AB-Bind S645 데이터 세트에서 Rp 0.58을 달성했습니다. 표 1의 비교 결과는 우리 모델이 Hom-ML-V2 43과 공동 2위를 차지했으며 TopNetTree[41]가 최고 위치를 차지했음을 나타냅니다.
그러나 데이터 세트에서 27개의 비바인더를 제외하면 우리 모델이 다른 모든 기존 모델보다 성능이 뛰어납니다. 특히, 비바인더를 제거한 후 Rp 값은 0.58에서 0.74로 증가합니다(그림 2b).
또한 순수 기하학적 그래프 기반 기능 모델인 GGL-PI1은 AB-Bind S645 데이터 세트에서 Rp 0.57로 경쟁력 있는 성능을 보여주었습니다. 흥미롭게도 비바인더를 제외하면 GGL-PPI1은 향상된 Rp 0.73으로 다른 모든 모델을 능가했습니다.
이러한 성능은 우리의 다중 규모 가중치 색상 기하학적 그래프가 생체분자 복합체의 광범위한 상호 작용을 효과적으로 특성화할 수 있음을 보여줍니다.
SKEMPI 1.0 S1131 데이터 세트에 대한 검증 SKEMPI 1.0 데이터 세트는 문헌 소스에서 얻은 158개 복합체의 3,047개 돌연변이 모음으로 구성되며, 여기서 복합체는 실험적으로 결정된 구조를 가지고 있습니다[23]. 데이터 세트에는 단일 지점 돌연변이와 다중 지점 돌연변이가 모두 포함됩니다.
구체적으로 데이터 세트에는 SKEMPI S2317 세트로 통칭되는 단일 지점 돌연변이를 나타내는 2,317개의 항목이 있습니다. 또한 1,131개의 비중복 인터페이스 단일 지점 돌연변이의 하위 집합이 SKEMPI S2317 세트에서 선택되어 SKEMPI S1131 세트로 표시되었습니다[45]. 이 하위 집합은 단백질-단백질 상호 작용에 대한 단일 지점 돌연변이의 영향을 연구하는 데 중점을 둡니다.
표 1: AB-Bind(S645) 데이터 세트에 대한 Pearson 상관 계수(Rp) 측면에서 다양한 방법의 성능 비교.
그림 2c는 우리 모델 GGL-PPI2가 S1131 데이터세트에서 10배 CV로 Rp 0.873과 RMSE 1.21 kcal/mol을 달성했음을 보여줍니다. 표 2는 제안된 모델 GGL-PPI1 및 GGL-PPI2를 포함하여 S1131 데이터 세트에 대한 다양한 방법의 성능 비교를 보여줍니다.
그 중 우리 모델인 GGL-PPI2는 돌연변이로 인한 결합 친화력 변화를 예측하는 데 있어 그 우수성을 강조하면서 가장 높은 성능을 달성했습니다.
특히, 보조 기능이 없더라도 GGL-PPI1은 보조 기능을 활용하는 TopNetTree 및 Hom-ML-V2 방법보다 성능이 뛰어났습니다. 이는 기하학적 그래프 기반 분자 표현의 효능을 다시 강조합니다.
표 2: SKEMPI 1.0(S1131) 데이터 세트의 단일 지점 돌연변이에 대한 Pearson 상관 계수(Rp) 측면에서 다양한 방법의 성능 비교.
SKEMPI 2.0 S4169 및 S8338 데이터 세트에 대한 검증 SKEMPI 2.0 데이터 세트는 다양한 소스에서 수집된 새로운 돌연변이를 통합한 원본 SKEMPI 데이터 세트의 업데이트 및 확장 버전입니다[24].
2018년에 출시되어 크기가 크게 증가하여 현재 단일 지점 및 다중 지점 돌연변이를 모두 포함하여 총 7,085개의 항목을 포함하고 있습니다. 데이터는 SKEMPI 1.0 [23], AB-Bind [25], PROXiMATE27 및 dbMPIKT46을 포함한 여러 데이터베이스를 병합하여 얻은 것입니다.
또한 문헌의 새로운 데이터를 수동으로 선별하여 데이터 세트에 추가했습니다. 돌연변이는 프로테아제 억제제, 항체-항원 및 TRCpMHC 복합체와 같은 광범위한 단백질 복합체를 포괄합니다. 돌연변이 중 약 3,000개는 단일 지점 알라닌 돌연변이이고, 2,000개는 단일 지점 비알라닌 돌연변이이고, 또 다른 2,000개는 다중 돌연변이와 관련됩니다.
특히, mCSM-PPI2[8] 방법의 저자는 단일 지점 돌연변이를 필터링하여 139개의 서로 다른 복합체에 4,169개의 변이체로 구성된 S4169 세트를 생성했습니다. S4169에서 파생된 S8338 세트는 음수 값을 갖는 가상의 역돌연변이 에너지 변화를 나타냅니다. 이 포괄적인 데이터 세트는 단백질 상호 작용과 열역학적 특성을 연구하는 데 귀중한 리소스 역할을 합니다.
성능 측면에서 GGL-PPI2 모델은 그림 2d에 표시된 대로 S4169 데이터 세트에 대해 RMSE 1.03kcal/mol로 Rp 0.81을 게시하여 모든 기존 모델을 능가합니다(표 3). 기하학적 그래프 기반 기능에만 의존하는 GGL-PPI1 모델은 GGL-PPI2와 비슷한 성능을 보여 Rp가 0.80, RMSE가 1.06kcal/mol인 TopNetTree 및 mCSM-PPI2를 능가한다는 점은 주목할 만합니다.
S8338 데이터세트의 경우 mCSM-PPI2와 유사한 계층화된 교차 검증 접근 방식을 적용했습니다. 우리는 가상의 역 돌연변이가 데이터 세트 분할 중에 훈련 또는 테스트 세트에 일관되게 배치되어 교차 검증 프로세스 전반에 걸쳐 해당 원래 돌연변이와의 관계가 그대로 유지되도록 보장했습니다.
GGL-PPI2는 그림 2e에 표시된 대로 1.07kcal/mol의 RMSE로 0.85의 Rp를 달성했으며, GGL-PPI1도 거의 뒤따르며 동일한 RMSE 값으로 0.84의 Rp를 달성했습니다. 표 3에서 알 수 있듯이 GGL-PPI2는 TopNetTree와 동등하며 S8338 데이터 세트에서 mCSM-PPI2보다 성능이 뛰어납니다.
표 3: SKEMPI 2.0(S4169 및 S8338) 데이터 세트의 단일 지점 돌연변이에 대한 Pearson 상관 계수(Rp) 측면에서 다양한 방법의 성능 비교.
단백질-단백질 상호 작용의 결합 자유 에너지(BFE) 변화를 예측하기 위해 제안된 모델을 평가하기 위해 ProTherm 데이터베이스에서 가져온 두 가지 데이터 세트를 고려합니다[22].
Pucci et al.이 신중하게 선택한 첫 번째 데이터 세트. [36], S[sym] 데이터세트로 명명되었습니다. 이 데이터는 342개의 직접 돌연변이와 그에 상응하는 역 돌연변이로 구성된 ProTherm의 684개 돌연변이를 모아서 균형 잡힌 데이터세트를 만듭니다.
데이터세트는 특히 3D 구조가 해결된 15개 단백질 사슬의 돌연변이에 중점을 두고 있어 최소 2.5˚A의 해상도로 고해상도 데이터를 보장합니다.
실험적으로 측정된 ΔΔG 값과 안정화 및 불안정화 돌연변이의 균형 잡힌 표현을 제공함으로써 S[sym] 데이터세트는 돌연변이 유발 결합 친화력 변화를 예측하는 맥락에서 예측 편향을 평가하는 데 유용한 리소스 역할을 합니다.
데이터 유출 문제를 해결하고 방법의 일반화 기능을 향상시키기 위해 Q1744 데이터 세트를 사용했습니다[47]. Quanet al. [48]은 ProTherm에서 Q3421 데이터 세트를 수집했는데, 이는 이용 가능한 PDB 구조를 갖춘 150개 단백질에 걸쳐 3421개의 단일 지점 돌연변이로 구성되었습니다. 그러나 훈련 세트와 테스트 세트 모두에 상동성 단백질이 존재하면 상호 의존적인 돌연변이 효과가 발생하여 모델 성능이 저하될 수 있습니다.
이를 완화하기 위해 Li et al. [47]은 중복되는 데이터 포인트를 제외하고 Q3421과 S[sym] 데이터 세트 간의 단백질 수준 상동성을 정제하여 파생된 Q1744 데이터 세트를 생성하여 1744개의 별개의 돌연변이를 생성했습니다.
또한 Q3488 데이터세트는 Q1744 세트의 역돌연변이를 증가시켜 생성되었습니다. 우리는 Q3488 데이터 세트를 훈련 세트로 활용하여 PPI의 BFE 변화를 정확하게 예측하는 ΔΔG 예측기의 기능을 향상했습니다.
우리는 직접 돌연변이와 역 돌연변이 모두에 중점을 두고 블라인드 테스트 세트 S[sym]에 대한 모델 평가를 수행합니다. 성능을 평가하기 위해 Pearson 상관 계수와 평균 제곱근 오차를 기본 지표로 활용합니다. 또한 예측 편향을 식별하기 위해 Rpdir-rev 및 δ라는 두 가지 통계 측정값을 통합했습니다.
전자는 직접 돌연변이와 역 돌연변이에 대한 예측 간의 피어슨 상관관계를 계산하는 반면, 후자는 두 유형의 돌연변이에 대해 예측된 ΔΔG 값의 합을 나타냅니다. 가설은 편향되지 않은 예측 변수가 Rpdir−rev = −1이고 평균 δ(̅δ)가 0 kcal/mol이라는 것입니다.
우리의 주요 초점은 모델인 GGL-PPI2의 효율성을 강조하는 것입니다. 특히 강력한 기하학적 그래프 기반 분자 기능화를 강조합니다. GGL-PPI2는 직접 돌연변이와 역 돌연변이 모두에 대해 일관성을 유지하면서 탁월한 예측 정확도를 입증했습니다. 그림 3a 및 3b에 설명된 대로 우리 모델은 0.57의 일관된 Rp 값과 1.28kcal/mol의 RMSE를 달성하여 직접 돌연변이에 대한 과적합에 대한 효율성을 나타냅니다.
또한 분석에 따르면 돌연변이의 상당 부분이 0.5kcal/mol 및 1.0kcal/mol의 예측 오차에 속하며, 그림에 표시된 대로 직접 돌연변이의 경우 34.6% 및 65.8%, 역 돌연변이의 경우 35.1% 및 66.0%가 포함됩니다. 3d 및 3e.
또한 그림 3c는 GGL-PPI2가 -0.999의 거의 완벽한 Rpdir-rev 값과 0.006 kcal/mol의 매우 낮은 평균 ̅δ를 달성하여 예측 편향을 효과적으로 해결한다는 것을 보여줍니다. 마지막으로, 그림 3f의 분포도는 돌연변이의 99.4%가 0.05 kcal/mol 미만의 예측 편향을 나타냄을 보여줍니다.
표 4에서는 모델의 예측 결과를 제시하고 다른 ΔΔG 예측 변수와 포괄적인 비교를 수행합니다. 우리는 GGL-PPI2 모델이 모든 평가 측정에서 상동성 감소 세트 Q3488에 대해 훈련된 ThermoNet[47]보다 성능이 우수하다는 것을 관찰했습니다. 직접 돌연변이의 경우 ThermoNet보다 21.3%, 역 돌연변이의 경우 18.7% 성능이 뛰어납니다.
또한 기하학적 그래프 기반 기능만 사용하는 GGL-PPI1 모델은 직접 예측 및 역방향 예측 작업 모두에서 ThermoNet보다 성능이 뛰어납니다. 이는 기하학적 그래프 접근 방식의 효율성을 더욱 강조합니다.
다른 ΔΔG 예측 변수와의 광범위한 비교를 위해 Q3421 세트의 상동성 감소 이전에 구성된 Q6428 세트에서 훈련된 GGL-PPI2* 모델을 소개합니다[47]. 표 4에서 볼 수 있듯이 GGL-PPI2*는 역 돌연변이 예측에서 다른 방법보다 뛰어납니다.
일부 방법은 직접 돌연변이에 대해 GGL-PPI2*를 능가하지만 역 돌연변이에 대해 상당한 편향을 나타내는 경우가 많다는 점은 주목할 만합니다.