यह पेपर CC 4.0 लाइसेंस के तहत arxiv पर उपलब्ध है।
लेखक:
(1) मोहम्मद मसूद राणा, गणित विभाग, केंटकी विश्वविद्यालय;
(2) डक ड्यू गुयेन, गणित विभाग, केंटकी विश्वविद्यालय और ducnguyen@uky.edu।
निष्कर्ष, डेटा और सॉफ्टवेयर उपलब्धता, प्रतिस्पर्धी रुचियां, स्वीकृतियां और संदर्भ
इस अनुभाग में, हम कई बेंचमार्क डेटासेट पर अपने प्रस्तावित मॉडल का सत्यापन और मूल्यांकन करते हैं। हम दो प्रकार के GGL-PPI मॉडल विकसित करते हैं: GGL-PPI1 और GGL-PPI2। पहला मॉडल, जीजीएल-पीपीआई1, पूरी तरह से धारा 3 में चर्चा की गई ज्यामितीय ग्राफ़ सुविधाओं पर बनाया गया है।
दूसरी ओर, जीजीएल-पीपीआई2 में ज्यामितीय ग्राफ विशेषताएं और सहायक विशेषताएं दोनों शामिल हैं, जैसा कि वांग एट अल द्वारा विस्तृत किया गया है। [41]. सहायक घटकों के लिए इलेक्ट्रोस्टैटिक संभावित गणना एमआईबीपीबी सॉफ्टवेयर [42] का उपयोग करके की जाती है।
अपने मॉडलों को मान्य करने के लिए, हम मुख्य रूप से एबी-बाइंड डेटासेट [25], एसकेईएमपीआई 1.0 डेटासेट [23], और एसकेईएमपीआई 2.0 डेटासेट [24] पर विचार करते हैं। हम प्रत्येक डेटासेट पर 10-10-गुना क्रॉस-वैलिडेशन (सीवी) आयोजित करके एक कठोर मूल्यांकन पद्धति अपनाते हैं। माध्य पियर्सन सहसंबंध गुणांक (आर पी ) और मूल-माध्य-वर्ग त्रुटि (आरएमएसई) हमारे मूल्यांकन मेट्रिक्स के रूप में कार्य करते हैं।
अन्य मौजूदा तरीकों के साथ हमारे प्रस्तावित मॉडलों के सीवी प्रदर्शन की तुलना करते समय, हम विशेष रूप से टॉपनेटट्री [41], होम-एमएल-वी2 [43], और होम-एमएल-वी1 [43] का आकलन करते हैं। टॉपनेटट्री और होम-एमएल-वी2 दोनों क्रमशः अपनी टोपोलॉजी-आधारित और होम-कॉम्प्लेक्स-आधारित सुविधाओं के साथ सहायक सुविधाओं को शामिल करते हैं। दूसरी ओर, होम-एमएल-वी1 किसी भी सहायक सुविधाओं का उपयोग किए बिना पूरी तरह से होम-कॉम्प्लेक्स-आधारित सुविधाओं पर निर्भर करता है।
एबी-बाइंड एस645 डेटा सेट पर सत्यापन एबी-बाइंड डेटासेट में 32 एंटीबॉडी-एंटीजन कॉम्प्लेक्स के लिए 1,101 म्यूटेशनल डेटा पॉइंट शामिल हैं, जो उत्परिवर्तन पर प्रयोगात्मक रूप से निर्धारित बाइंडिंग एफ़िनिटी परिवर्तन प्रदान करते हैं। पाइर्स एट अल. एबी-बाइंड एस645 [44] नामक एक उपसमुच्चय को क्यूरेट किया गया, जिसमें 29 एंटीबॉडी-एंटीजन कॉम्प्लेक्स में देखे गए 645 एकल-बिंदु उत्परिवर्तन शामिल हैं। डेटासेट में स्थिरीकरण (20%) और अस्थिर करने वाले (80%) उत्परिवर्तन का मिश्रण शामिल है।
इसके अतिरिक्त, डेटासेट में 27 गैर-बाइंडर्स शामिल हैं जो परख की संवेदनशीलता सीमा के भीतर कोई बंधन नहीं दिखाते हैं। इन गैर-बाइंडर्स के लिए, बंधन मुक्त ऊर्जा परिवर्तन को समान रूप से 8 kcal/mol के मान पर सेट किया गया है। मॉडल की सटीकता और मजबूती सुनिश्चित करने के लिए मॉडल विकास और मूल्यांकन के दौरान इन गैर-बाइंडर्स को आउटलेयर के रूप में विचार करना महत्वपूर्ण है।
हमारे GGL-PPI2 ने AB-Bind S645 डेटासेट पर 0.58 का Rp हासिल किया, जैसा कि चित्र 2a में दिखाया गया है। तालिका 1 में तुलनात्मक परिणाम दर्शाते हैं कि हमारा मॉडल होम-एमएल-वी2 43 के साथ दूसरे स्थान पर रहा, जबकि टॉपनेटट्री [41] ने शीर्ष स्थान का दावा किया।
हालाँकि, जब हम डेटासेट से 27 नॉनबाइंडर्स को बाहर करते हैं, तो हमारा मॉडल अन्य सभी मौजूदा मॉडलों से बेहतर प्रदर्शन करता है। विशेष रूप से, नॉनबाइंडर्स को हटाने के बाद आरपी मान 0.58 से बढ़कर 0.74 हो जाता है (चित्र 2बी)।
इसके अलावा, जीजीएल-पीआई1, हमारा विशुद्ध रूप से ज्यामितीय ग्राफ-आधारित फीचर मॉडल, ने एबी-बाइंड एस645 डेटासेट पर 0.57 के आरपी के साथ प्रतिस्पर्धी प्रदर्शन का प्रदर्शन किया। दिलचस्प बात यह है कि नॉनबाइंडर्स को छोड़कर, GGL-PPI1 ने 0.73 के बेहतर आरपी के साथ अन्य सभी मॉडलों को पीछे छोड़ दिया।
इन प्रदर्शनों से पता चलता है कि हमारे बहुस्तरीय भारित रंगीन ज्यामितीय ग्राफ़ जैव-आणविक परिसरों में इंटरैक्शन की विस्तृत श्रृंखला को प्रभावी ढंग से चित्रित कर सकते हैं।
SKEMPI 1.0 S1131 डेटा सेट पर सत्यापन SKEMPI 1.0 डेटासेट में साहित्य स्रोतों से प्राप्त 158 कॉम्प्लेक्स के 3,047 उत्परिवर्तन का संग्रह होता है, जहां कॉम्प्लेक्स में प्रयोगात्मक रूप से निर्धारित संरचनाएं होती हैं [23]। डेटासेट में एकल-बिंदु उत्परिवर्तन और बहु-बिंदु उत्परिवर्तन दोनों शामिल हैं।
विशेष रूप से, डेटासेट में 2,317 प्रविष्टियाँ हैं जो एकल-बिंदु उत्परिवर्तन का प्रतिनिधित्व करती हैं, जिन्हें सामूहिक रूप से SKEMPI S2317 सेट के रूप में जाना जाता है। इसके अतिरिक्त, SKEMPI S2317 सेट से 1,131 गैर-अनावश्यक इंटरफ़ेस एकल-बिंदु उत्परिवर्तन का एक उपसमूह चुना गया है और SKEMPI S1131 सेट [45] के रूप में लेबल किया गया है। यह सबसेट प्रोटीन-प्रोटीन इंटरैक्शन पर एकल-बिंदु उत्परिवर्तन के प्रभाव का अध्ययन करने पर केंद्रित है।
तालिका 1: एबी-बाइंड (एस645) डेटासेट के लिए पियर्सन सहसंबंध गुणांक (आरपी) के संदर्भ में विभिन्न तरीकों की प्रदर्शन तुलना।
चित्र 2c से पता चलता है कि हमारा मॉडल GGL-PPI2 S1131 डेटासेट पर 10-गुना CV में 0.873 का Rp और 1.21 kcal/mol का RMSE प्राप्त करता है। तालिका 2 हमारे प्रस्तावित मॉडल, जीजीएल-पीपीआई1 और जीजीएल-पीपीआई2 सहित एस1131 डेटासेट पर विभिन्न तरीकों की प्रदर्शन तुलना प्रस्तुत करती है।
उनमें से, हमारे मॉडल, जीजीएल-पीपीआई2 ने उत्परिवर्तन के कारण बाध्यकारी संबंध परिवर्तनों की भविष्यवाणी करने में अपनी श्रेष्ठता को रेखांकित करते हुए उच्चतम प्रदर्शन हासिल किया।
विशेष रूप से, सहायक सुविधाओं के बिना भी, हमारे GGL-PPI1 ने TopNetTree और Hom-ML-V2 दोनों तरीकों से बेहतर प्रदर्शन किया जो सहायक सुविधाओं का लाभ उठाते हैं। यह फिर से हमारे ज्यामितीय ग्राफ-आधारित आणविक प्रतिनिधित्व की प्रभावकारिता पर प्रकाश डालता है।
तालिका 2: SKEMPI 1.0 (S1131) डेटासेट में एकल-बिंदु उत्परिवर्तन के लिए पियर्सन सहसंबंध गुणांक (आरपी) के संदर्भ में विभिन्न तरीकों की प्रदर्शन तुलना।
SKEMPI 2.0 S4169 और S8338 डेटा सेट पर सत्यापन SKEMPI 2.0 डेटासेट मूल SKEMPI डेटासेट का एक अद्यतन और विस्तारित संस्करण है, जिसमें विभिन्न स्रोतों से एकत्र किए गए नए उत्परिवर्तन शामिल हैं [24]।
2018 में जारी, इसका आकार काफी बढ़ गया, अब इसमें कुल 7,085 प्रविष्टियाँ हैं, जिनमें एकल-बिंदु और बहु-बिंदु उत्परिवर्तन दोनों शामिल हैं। डेटा SKEMPI 1.0 [23], AB-Bind [25], PROXiMATE27, और dbMPIKT46 सहित कई डेटाबेस को मर्ज करके प्राप्त किया गया था।
इसके अतिरिक्त, साहित्य से नए डेटा को मैन्युअल रूप से क्यूरेट किया गया और डेटासेट में जोड़ा गया। उत्परिवर्तन प्रोटीन कॉम्प्लेक्स की एक विस्तृत श्रृंखला को कवर करते हैं, जैसे प्रोटीज़-इनहिबिटर, एंटीबॉडी-एंटीजन और टीआरसीपीएमएचसी कॉम्प्लेक्स। उत्परिवर्तनों में, लगभग 3,000 एकल-बिंदु एलेनिन उत्परिवर्तन हैं, 2,000 एकल-बिंदु गैर-अलैनिन उत्परिवर्तन हैं, और अन्य 2,000 में एकाधिक उत्परिवर्तन शामिल हैं।
विशेष रूप से, mCSM-PPI2 [8] विधि के लेखकों ने एकल-बिंदु उत्परिवर्तन को फ़िल्टर किया, जिससे S4169 सेट प्राप्त हुआ, जिसमें 139 विभिन्न परिसरों में 4,169 वेरिएंट शामिल थे / S4169 से प्राप्त S8338 सेट, नकारात्मक मूल्यों के साथ काल्पनिक रिवर्स म्यूटेशन ऊर्जा परिवर्तनों का प्रतिनिधित्व करता है। यह व्यापक डेटासेट प्रोटीन इंटरैक्शन और उनके थर्मोडायनामिक गुणों का अध्ययन करने के लिए एक मूल्यवान संसाधन के रूप में कार्य करता है।
प्रदर्शन-वार, हमारा GGL-PPI2 मॉडल S4169 डेटासेट के लिए 1.03 kcal/mol के RMSE के साथ 0.81 का Rp पोस्ट करता है, जैसा कि चित्र 2d में दिखाया गया है, जो सभी मौजूदा मॉडलों (तालिका 3) से आगे है। यह उल्लेखनीय है कि हमारा GGL-PPI1 मॉडल, जो पूरी तरह से ज्यामितीय ग्राफ-आधारित सुविधाओं पर निर्भर करता है, ने GGL-PPI2 के तुलनीय प्रदर्शन का प्रदर्शन किया, 0.80 के Rp और 1.06 kcal/mol के RMSE के साथ TopNetTree और mCSM-PPI2 से बेहतर प्रदर्शन किया।
S8338 डेटासेट के मामले में, हमने mCSM-PPI2 के समान एक स्तरीकृत क्रॉस-सत्यापन दृष्टिकोण लागू किया। हमने यह सुनिश्चित किया कि डेटासेट विभाजन के दौरान काल्पनिक रिवर्स म्यूटेशन को लगातार प्रशिक्षण या परीक्षण सेट में रखा गया था, जिससे क्रॉस-सत्यापन प्रक्रिया के दौरान संबंधित मूल म्यूटेशन के साथ उनका संबंध बरकरार रहे।
GGL-PPI2 ने 1.07 kcal/mol के RMSE के साथ 0.85 का Rp हासिल किया, जैसा कि चित्र 2e में दर्शाया गया है, और GGL-PPI1 ने भी इसका बारीकी से अनुसरण किया, और समान RMSE मान के साथ 0.84 का Rp हासिल किया। जैसा कि तालिका 3 प्रमाणित करती है, हमारा GGL-PPI2 TopNetTree के बराबर है और S8338 डेटासेट पर mCSM-PPI2 से बेहतर प्रदर्शन करता है।
तालिका 3: SKEMPI 2.0 (S4169 और S8338) डेटासेट में एकल-बिंदु उत्परिवर्तन के लिए पियर्सन सहसंबंध गुणांक (आरपी) के संदर्भ में विभिन्न तरीकों की प्रदर्शन तुलना।
प्रोटीन-प्रोटीन इंटरैक्शन के बाइंडिंग फ्री एनर्जी (बीएफई) परिवर्तनों की भविष्यवाणी के लिए हमारे प्रस्तावित मॉडल का मूल्यांकन करने के लिए, हम प्रोथर्म डेटाबेस [22] से प्राप्त दो डेटासेट पर विचार करते हैं।
पहला डेटासेट, पक्की एट अल द्वारा सावधानीपूर्वक चुना गया। [36], जिसका नाम S[sym] डेटासेट है। यह डेटा प्रोथर्म से 684 म्यूटेशनों को इकट्ठा करता है, जिसमें 342 प्रत्यक्ष म्यूटेशन और उनके संबंधित रिवर्स म्यूटेशन शामिल हैं, जिसके परिणामस्वरूप एक संतुलित डेटासेट बनता है।
डेटासेट विशेष रूप से हल की गई 3डी संरचनाओं के साथ पंद्रह प्रोटीन श्रृंखलाओं में उत्परिवर्तन पर ध्यान केंद्रित करता है, जो कम से कम 2.5˚A के रिज़ॉल्यूशन के साथ उच्च रिज़ॉल्यूशन डेटा सुनिश्चित करता है।
प्रयोगात्मक रूप से मापा गया ∆∆G मान और स्थिर और अस्थिर उत्परिवर्तनों का एक संतुलित प्रतिनिधित्व प्रदान करके, S[sym] डेटासेट उत्परिवर्तन-प्रेरित बाध्यकारी संबंध परिवर्तनों की भविष्यवाणी के संदर्भ में भविष्यवाणी पूर्वाग्रहों का मूल्यांकन करने के लिए एक मूल्यवान संसाधन के रूप में कार्य करता है।
डेटा लीक की समस्या का समाधान करने और अपनी पद्धति की सामान्यीकरण क्षमता को बढ़ाने के लिए, हमने Q1744 डेटासेट [47] को नियोजित किया। क्वान एट अल. [48] प्रोथर्म से क्यू3421 डेटासेट संकलित किया, जिसमें उपलब्ध पीडीबी संरचनाओं के साथ 150 प्रोटीनों में 3421 एकल-बिंदु उत्परिवर्तन शामिल थे। हालाँकि, प्रशिक्षण और परीक्षण सेट दोनों में समजात प्रोटीन की उपस्थिति से उत्परिवर्तन के अन्योन्याश्रित प्रभाव हो सकते हैं, जिससे मॉडल के प्रदर्शन से समझौता हो सकता है।
इसे कम करने के लिए, ली एट अल। [47] ने Q1744 डेटासेट बनाया, जो ओवरलैपिंग डेटा बिंदुओं को छोड़कर और Q3421 और S[sym] डेटासेट के बीच प्रोटीन-स्तरीय होमोलॉजी को परिष्कृत करके प्राप्त किया गया, जिसके परिणामस्वरूप 1744 अलग-अलग उत्परिवर्तन हुए।
इसके अलावा, Q3488 डेटासेट Q1744 सेट में रिवर्स म्यूटेशन को बढ़ाकर बनाया गया था। हमने अपने प्रशिक्षण सेट के रूप में Q3488 डेटासेट का उपयोग किया, जिससे पीपीआई में बीएफई परिवर्तनों की सटीक भविष्यवाणी करने के लिए हमारे ∆∆G भविष्यवक्ता की क्षमता में वृद्धि हुई।
हम अपने मॉडल का मूल्यांकन ब्लाइंड टेस्ट सेट S[sym] पर करते हैं, जिसमें प्रत्यक्ष और रिवर्स म्यूटेशन दोनों पर विशेष ध्यान दिया जाता है। प्रदर्शन का आकलन करने के लिए, हम अपने प्राथमिक मैट्रिक्स के रूप में पियर्सन सहसंबंध गुणांक और रूट-माध्य-वर्ग त्रुटि का उपयोग करते हैं। इसके अतिरिक्त, किसी भी भविष्यवाणी पूर्वाग्रह को समझने के लिए, हमने दो सांख्यिकीय उपाय शामिल किए: Rpdir−rev और δ।
पूर्व प्रत्यक्ष और रिवर्स उत्परिवर्तन के लिए भविष्यवाणियों के बीच पियर्सन सहसंबंध की गणना करता है, जबकि बाद वाला दोनों प्रकार के उत्परिवर्तन के लिए अनुमानित ∆∆G मानों के योग का प्रतिनिधित्व करता है। परिकल्पना यह है कि एक निष्पक्ष भविष्यवक्ता Rpdir−rev = −1 और 0 kcal/mol का औसत δ (¯δ) प्राप्त करेगा।
हमारा मुख्य ध्यान हमारे मॉडल, जीजीएल-पीपीआई2 की प्रभावशीलता को उजागर करना है, विशेष रूप से इसके मजबूत ज्यामितीय ग्राफ-आधारित आणविक विशेषताओं पर जोर देना है। जीजीएल-पीपीआई2 ने प्रत्यक्ष और रिवर्स दोनों उत्परिवर्तनों के लिए स्थिरता बनाए रखते हुए असाधारण भविष्यवाणी सटीकता का प्रदर्शन किया है। जैसा कि चित्र 3ए और 3बी में दर्शाया गया है, हमारा मॉडल 0.57 के लगातार आरपी मान और 1.28 किलो कैलोरी/मोल का आरएमएसई प्राप्त करता है, जो प्रत्यक्ष उत्परिवर्तन के लिए ओवरफिटिंग के खिलाफ इसकी दक्षता को दर्शाता है।
इसके अतिरिक्त, विश्लेषण से पता चलता है कि उत्परिवर्तन का एक महत्वपूर्ण अनुपात 0.5 किलो कैलोरी/मोल और 1.0 किलो कैलोरी/मोल की भविष्यवाणी त्रुटि के अंतर्गत आता है, प्रत्यक्ष उत्परिवर्तन के लिए 34.6% और 65.8% और रिवर्स उत्परिवर्तन के लिए 35.1% और 66.0%, जैसा कि चित्र में दर्शाया गया है। 3डी और 3ई.
इसके अलावा, चित्र 3c दर्शाता है कि GGL-PPI2 -0.999 का लगभग सही Rpdir−rev मान और 0.006 kcal/mol का बेहद कम औसत ¯δ प्राप्त करके भविष्यवाणी पूर्वाग्रह को प्रभावी ढंग से संबोधित करता है। अंत में, चित्र 3एफ में वितरण प्लॉट दर्शाता है कि 99.4% उत्परिवर्तन 0.05 किलो कैलोरी/मोल के तहत एक पूर्वानुमान पूर्वाग्रह प्रदर्शित करते हैं।
तालिका 4 में, हम अपने मॉडलों के पूर्वानुमान परिणाम प्रस्तुत करते हैं और अन्य ∆∆G भविष्यवक्ताओं के साथ व्यापक तुलना करते हैं। हम देखते हैं कि हमारा GGL-PPI2 मॉडल थर्मोनेट [47] से बेहतर प्रदर्शन करता है, जिसे सभी मूल्यांकन उपायों में होमोलॉजी रिड्यूस्ड सेट Q3488 पर भी प्रशिक्षित किया गया था। यह प्रत्यक्ष उत्परिवर्तन के लिए थर्मोनेट से 21.3% और रिवर्स उत्परिवर्तन के लिए 18.7% से बेहतर प्रदर्शन करता है।
इसके अलावा, जीजीएल-पीपीआई1 मॉडल, जो केवल ज्यामितीय ग्राफ-आधारित सुविधाओं का उपयोग करता है, प्रत्यक्ष और रिवर्स भविष्यवाणी कार्यों दोनों में थर्मोनेट से बेहतर प्रदर्शन करता है। यह हमारे ज्यामितीय-ग्राफ दृष्टिकोण की प्रभावशीलता पर और जोर देता है।
अन्य ∆∆G भविष्यवक्ताओं के मुकाबले व्यापक तुलना के लिए, हम GGL-PPI2∗ मॉडल पेश करते हैं, जो सेट Q3421 [47] की होमोलॉजी कटौती से पहले निर्मित Q6428 सेट पर प्रशिक्षित है। जैसा कि तालिका 4 में दिखाया गया है, GGL-PPI2∗ रिवर्स म्यूटेशन भविष्यवाणियों में अन्य तरीकों से बेहतर है।
यह उल्लेखनीय है कि जबकि कुछ विधियाँ प्रत्यक्ष उत्परिवर्तन के लिए GGL-PPI2∗ से आगे निकल जाती हैं, वे अक्सर विपरीत उत्परिवर्तन के प्रति महत्वपूर्ण पूर्वाग्रह प्रदर्शित करती हैं।