এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ।
লেখক:
(1) মোঃ মাসুদ রানা, গণিত বিভাগ, কেনটাকি বিশ্ববিদ্যালয়;
(2) Duc Duy Nguyen, গণিত বিভাগ, কেনটাকি বিশ্ববিদ্যালয় এবং ducnguyen@uky.edu।
উপসংহার, ডেটা এবং সফ্টওয়্যার উপলব্ধতা, প্রতিযোগিতামূলক আগ্রহ, স্বীকৃতি এবং উল্লেখ
এই বিভাগে, আমরা বেশ কয়েকটি বেঞ্চমার্ক ডেটাসেটে আমাদের প্রস্তাবিত মডেলগুলির বৈধতা এবং মূল্যায়ন করি। আমরা দুই ধরনের GGL-PPI মডেল তৈরি করি: GGL-PPI1 এবং GGL-PPI2। প্রথম মডেল, GGL-PPI1, সম্পূর্ণরূপে সেকশন 3 এ আলোচিত জ্যামিতিক গ্রাফ বৈশিষ্ট্যের উপর নির্মিত।
অন্যদিকে, GGL-PPI2 জ্যামিতিক গ্রাফ বৈশিষ্ট্য এবং সহায়ক বৈশিষ্ট্য উভয়ই অন্তর্ভুক্ত করে, যেমন ওয়াং এট আল দ্বারা বিস্তারিত। [৪১]। অক্জিলিয়ারী উপাদানগুলির জন্য ইলেক্ট্রোস্ট্যাটিক সম্ভাব্য গণনাগুলি MIBPB সফ্টওয়্যার ব্যবহার করে পরিচালিত হয় [42]।
আমাদের মডেলগুলিকে যাচাই করার জন্য, আমরা প্রাথমিকভাবে AB-Bind ডেটাসেট [25], SKEMPI 1.0 ডেটাসেট [23], এবং SKEMPI 2.0 ডেটাসেট [24] বিবেচনা করি। আমরা প্রতিটি ডেটাসেটে 10-গুণ 10-গুণ ক্রস-ভ্যালিডেশন (CV) পরিচালনা করে একটি কঠোর মূল্যায়ন পদ্ধতি ব্যবহার করি। গড় পিয়ারসন পারস্পরিক সম্পর্ক সহগ (R p ) এবং root-mean-square error (RMSE) আমাদের মূল্যায়ন মেট্রিক্স হিসাবে কাজ করে।
অন্যান্য বিদ্যমান পদ্ধতির সাথে আমাদের প্রস্তাবিত মডেলগুলির সিভি কর্মক্ষমতা তুলনা করার জন্য, আমরা বিশেষভাবে TopNetTree [41], Hom-ML-V2 [43], এবং Hom-ML-V1 [43] মূল্যায়ন করি। TopNetTree এবং Hom-ML-V2 উভয়ই যথাক্রমে তাদের টপোলজি-ভিত্তিক এবং Hom-জটিল-ভিত্তিক বৈশিষ্ট্যগুলির সাথে একত্রে সহায়ক বৈশিষ্ট্যগুলিকে অন্তর্ভুক্ত করে। অন্যদিকে, Hom-ML-V1 সম্পূর্ণরূপে হোম-জটিল-ভিত্তিক বৈশিষ্ট্যের উপর নির্ভর করে কোনো সহায়ক বৈশিষ্ট্য ব্যবহার না করে।
AB-Bind S645 ডেটা সেটের বৈধতা AB-Bind ডেটাসেটে 32টি অ্যান্টিবডি-অ্যান্টিজেন কমপ্লেক্সের জন্য 1,101টি মিউটেশনাল ডেটা পয়েন্ট রয়েছে, যা মিউটেশনের উপর পরীক্ষামূলকভাবে নির্ধারিত বাঁধাই সম্বন্ধীয় পরিবর্তন প্রদান করে। পাইরেস এট আল। AB-Bind S645 [44] নামে পরিচিত একটি উপসেট কিউরেট করেছে, 29টি অ্যান্টিবডি-অ্যান্টিজেন কমপ্লেক্সে পর্যবেক্ষণ করা 645টি একক-পয়েন্ট মিউটেশন নিয়ে গঠিত। ডেটাসেটে স্থিতিশীল (20%) এবং অস্থিতিশীল (80%) মিউটেশনের মিশ্রণ রয়েছে।
অতিরিক্তভাবে, ডেটাসেটে 27টি নন-বাইন্ডার রয়েছে যা অ্যাসের সংবেদনশীলতার পরিসরের মধ্যে কোনো বাঁধাই দেখায় না। এই নন-বাইন্ডারগুলির জন্য, বাইন্ডিং মুক্ত শক্তির পরিবর্তনগুলি 8 kcal/mol এর মান নির্ধারণ করা হয়েছে। মডেলের নির্ভুলতা এবং দৃঢ়তা নিশ্চিত করার জন্য মডেল বিকাশ এবং মূল্যায়নের সময় এই নন-বাইন্ডারদের বহিরাগত হিসাবে বিবেচনা করা অত্যন্ত গুরুত্বপূর্ণ।
আমাদের GGL-PPI2 AB-Bind S645 ডেটাসেটে 0.58 এর Rp অর্জন করেছে, যেমন চিত্র 2a এ দেখানো হয়েছে। সারণী 1-এ তুলনা ফলাফলগুলি নির্দেশ করে যে আমাদের মডেল Hom-ML-V2 43-এর সাথে দ্বিতীয় স্থানে রয়েছে, যেখানে TopNetTree [41] শীর্ষস্থান দাবি করেছে।
যাইহোক, যখন আমরা ডেটাসেট থেকে 27টি নন-বাইন্ডার বাদ দিই, তখন আমাদের মডেলটি অন্য সমস্ত বিদ্যমান মডেলকে ছাড়িয়ে যায়। বিশেষত, নন-বাইন্ডার অপসারণের পরে Rp মান 0.58 থেকে 0.74-এ বৃদ্ধি পায় (চিত্র 2b)।
অধিকন্তু, GGL-PI1, আমাদের সম্পূর্ণরূপে জ্যামিতিক গ্রাফ-ভিত্তিক বৈশিষ্ট্য মডেল, AB-Bind S645 ডেটাসেটে 0.57 এর Rp সহ প্রতিযোগিতামূলক কর্মক্ষমতা প্রদর্শন করেছে। আশ্চর্যজনকভাবে, নন-বাইন্ডারগুলিকে বাদ দেওয়ার সময়, GGL-PPI1 0.73 এর উন্নত Rp সহ অন্যান্য সমস্ত মডেলকে ছাড়িয়ে গেছে।
এই পারফরম্যান্সগুলি প্রকাশ করে যে আমাদের মাল্টিস্কেল ওজনযুক্ত রঙিন জ্যামিতিক গ্রাফগুলি কার্যকরভাবে বায়োমোলিকুলার কমপ্লেক্সে বিস্তৃত মিথস্ক্রিয়াকে চিহ্নিত করতে পারে।
SKEMPI 1.0 S1131 ডেটা সেটের বৈধতা ডেটাসেটে একক-পয়েন্ট মিউটেশন এবং মাল্টি-পয়েন্ট মিউটেশন উভয়ই অন্তর্ভুক্ত থাকে।
বিশেষভাবে, ডেটাসেটে 2,317টি এন্ট্রি রয়েছে যা একক-পয়েন্ট মিউটেশনের প্রতিনিধিত্ব করে, যেগুলি সম্মিলিতভাবে SKEMPI S2317 সেট নামে পরিচিত। অতিরিক্তভাবে, SKEMPI S2317 সেট থেকে 1,131টি অ-অপ্রয়োজনীয় ইন্টারফেস একক-পয়েন্ট মিউটেশনের একটি উপসেট নির্বাচন করা হয়েছে এবং SKEMPI S1131 সেট হিসাবে লেবেল করা হয়েছে [45]। এই উপসেটটি প্রোটিন-প্রোটিন মিথস্ক্রিয়াতে একক-বিন্দু মিউটেশনের প্রভাব অধ্যয়নের উপর দৃষ্টি নিবদ্ধ করে।
সারণি 1: AB-Bind (S645) ডেটাসেটের জন্য পিয়ারসন পারস্পরিক সম্পর্ক সহগ (Rp) এর পরিপ্রেক্ষিতে বিভিন্ন পদ্ধতির কর্মক্ষমতা তুলনা।
চিত্র 2c দেখায় যে আমাদের মডেল GGL-PPI2 S1131 ডেটাসেটে 10-গুণ সিভিতে 0.873 এর Rp এবং 1.21 kcal/mol এর RMSE অর্জন করে। সারণি 2 আমাদের প্রস্তাবিত মডেল, GGL-PPI1 এবং GGL-PPI2 সহ S1131 ডেটাসেটে বিভিন্ন পদ্ধতির কর্মক্ষমতা তুলনা উপস্থাপন করে।
তাদের মধ্যে, আমাদের মডেল, GGL-PPI2, সর্বোচ্চ কর্মক্ষমতা অর্জন করেছে, মিউটেশনের কারণে বাইন্ডিং অ্যাফিনিটি পরিবর্তনের ভবিষ্যদ্বাণী করার ক্ষেত্রে তার শ্রেষ্ঠত্বকে আন্ডারস্কোর করে।
উল্লেখযোগ্যভাবে, এমনকি অক্জিলিয়ারী বৈশিষ্ট্য ছাড়াই, আমাদের GGL-PPI1 TopNetTree এবং Hom-ML-V2 উভয় পদ্ধতিকে ছাড়িয়ে গেছে যা সহায়ক বৈশিষ্ট্যগুলিকে লিভারেজ করে। এটি আবার আমাদের জ্যামিতিক গ্রাফ-ভিত্তিক আণবিক উপস্থাপনার কার্যকারিতা তুলে ধরে।
সারণি 2: SKEMPI 1.0 (S1131) ডেটাসেটে একক-পয়েন্ট মিউটেশনের জন্য পিয়ারসন পারস্পরিক সম্পর্ক সহগ (Rp) এর পরিপ্রেক্ষিতে বিভিন্ন পদ্ধতির কর্মক্ষমতা তুলনা।
SKEMPI 2.0 S4169 এবং S8338 ডেটা সেটগুলিতে বৈধতা
2018 সালে প্রকাশিত, এটি আকারে উল্লেখযোগ্যভাবে বৃদ্ধি পেয়েছে, এখন মোট 7,085টি এন্ট্রি রয়েছে, যার মধ্যে একক-পয়েন্ট এবং মাল্টি-পয়েন্ট মিউটেশন রয়েছে। SKEMPI 1.0 [23], AB-Bind [25], PROXiMATE27, এবং dbMPIKT46 সহ বেশ কয়েকটি ডাটাবেস মার্জ করে ডেটা প্রাপ্ত করা হয়েছিল।
উপরন্তু, সাহিত্য থেকে নতুন ডেটা ম্যানুয়ালি কিউরেট করা হয়েছিল এবং ডেটাসেটে যোগ করা হয়েছিল। মিউটেশনগুলি প্রোটিজ-ইনহিবিটর, অ্যান্টিবডি-অ্যান্টিজেন এবং TRCpMHC কমপ্লেক্সের মতো বিস্তৃত প্রোটিন কমপ্লেক্সকে কভার করে। মিউটেশনগুলির মধ্যে, প্রায় 3,000টি একক-বিন্দু অ্যালানাইন মিউটেশন, 2,000টি একক-বিন্দু নন-অ্যালানাইন মিউটেশন এবং আরও 2,000 একাধিক মিউটেশন জড়িত।
উল্লেখযোগ্যভাবে, mCSM-PPI2 [8] পদ্ধতির লেখকরা একক-পয়েন্ট মিউটেশন ফিল্টার করেছেন, S4169 সেট তৈরি করেছেন, যার মধ্যে 139টি ভিন্ন কমপ্লেক্সে 4,169টি ভেরিয়েন্ট রয়েছে/ S4169 থেকে প্রাপ্ত S8338 সেটটি অনুমানমূলক বিপরীত মিউটেশন শক্তির পরিবর্তনের সাথে ঋণাত্মক মান পরিবর্তন করে। এই ব্যাপক ডেটাসেট প্রোটিন মিথস্ক্রিয়া এবং তাদের থার্মোডাইনামিক বৈশিষ্ট্য অধ্যয়নের জন্য একটি মূল্যবান সম্পদ হিসাবে কাজ করে।
পারফরমেন্স অনুযায়ী, আমাদের GGL-PPI2 মডেল S4169 ডেটাসেটের জন্য 1.03 kcal/mol এর RMSE সহ 0.81 এর Rp পোস্ট করে, যা চিত্র 2d-এ দেখানো হয়েছে, সমস্ত বিদ্যমান মডেলকে ছাড়িয়ে গেছে (সারণী 3)। এটি লক্ষণীয় যে আমাদের GGL-PPI1 মডেল, যা সম্পূর্ণরূপে জ্যামিতিক গ্রাফ-ভিত্তিক বৈশিষ্ট্যের উপর নির্ভর করে, GGL-PPI2 এর সাথে তুলনামূলক কর্মক্ষমতা প্রদর্শন করেছে, 0.80 এর Rp এবং 1.06 kcal/mol এর RMSE এর সাথে TopNetTree এবং mCSM-PPI2 কে ছাড়িয়ে গেছে।
S8338 ডেটাসেটের ক্ষেত্রে, আমরা mCSM-PPI2 এর মতো একটি স্তরিত ক্রস-বৈধকরণ পদ্ধতি প্রয়োগ করেছি। আমরা নিশ্চিত করেছি যে অনুমানমূলক বিপরীত মিউটেশনগুলি ধারাবাহিকভাবে হয় প্রশিক্ষণ বা পরীক্ষা সেটে ডেটাসেট বিভাজনের সময় স্থাপন করা হয়েছিল, ক্রস-ভ্যালিডেশন প্রক্রিয়া জুড়ে সংশ্লিষ্ট মূল মিউটেশনের সাথে তাদের সম্পর্ক বজায় রেখে।
GGL-PPI2 চিত্র 2e-তে চিত্রিত হিসাবে 1.07 kcal/mol এর RMSE সহ 0.85 এর Rp অর্জন করেছে এবং GGL-PPI1 একই RMSE মান সহ 0.84 এর Rp অর্জন করেছে। সারণি 3 প্রমাণ করে, আমাদের GGL-PPI2 TopNetTree-এর সমান এবং S8338 ডেটাসেটে mCSM-PPI2-কে ছাড়িয়ে গেছে।
সারণি 3: SKEMPI 2.0 (S4169 এবং S8338) ডেটাসেটে একক-পয়েন্ট মিউটেশনের জন্য পিয়ারসন পারস্পরিক সম্পর্ক সহগ (Rp) এর পরিপ্রেক্ষিতে বিভিন্ন পদ্ধতির কর্মক্ষমতা তুলনা।
প্রোটিন-প্রোটিন মিথস্ক্রিয়াগুলির বাইন্ডিং ফ্রি এনার্জি (BFE) পরিবর্তনের পূর্বাভাস দেওয়ার জন্য আমাদের প্রস্তাবিত মডেলটি মূল্যায়ন করতে, আমরা ProTherm ডাটাবেস [22] থেকে প্রাপ্ত দুটি ডেটাসেট বিবেচনা করি।
Pucci এট আল দ্বারা সাবধানে নির্বাচিত প্রথম ডেটাসেট। [৩৬], নাম S[sym] ডেটাসেট। এই ডেটা প্রোথার্ম থেকে 684টি মিউটেশন একত্রিত করে, যার মধ্যে 342টি সরাসরি মিউটেশন এবং তাদের সংশ্লিষ্ট বিপরীত মিউটেশন রয়েছে, যার ফলে একটি সুষম ডেটাসেট তৈরি হয়।
ডেটাসেটটি বিশেষভাবে সমাধান করা 3D স্ট্রাকচার সহ পনেরটি প্রোটিন চেইনে মিউটেশনের উপর ফোকাস করে, কমপক্ষে 2.5˚A এর রেজোলিউশনের সাথে উচ্চ রেজোলিউশন ডেটা নিশ্চিত করে।
পরীক্ষামূলকভাবে পরিমাপ করা ∆∆G মান এবং মিউটেশনকে স্থিতিশীল এবং অস্থিতিশীল করার একটি সুষম উপস্থাপনা প্রদান করে, S[sym] ডেটাসেট মিউটেশন-প্ররোচিত বাঁধাই সম্বন্ধীয় পরিবর্তনের পূর্বাভাস দেওয়ার প্রেক্ষাপটে ভবিষ্যদ্বাণী পক্ষপাতের মূল্যায়নের জন্য একটি মূল্যবান সম্পদ হিসাবে কাজ করে।
ডেটা ফাঁসের সমস্যা মোকাবেলা করতে এবং আমাদের পদ্ধতির সাধারণীকরণ ক্ষমতা বাড়ানোর জন্য, আমরা Q1744 ডেটাসেট [47] নিযুক্ত করেছি। কোয়ান এট আল। [৪৮] প্রোথার্ম থেকে Q3421 ডেটাসেট সংকলন করেছে, যার মধ্যে 3421টি একক-পয়েন্ট মিউটেশন রয়েছে যার মধ্যে 150টি প্রোটিন উপলব্ধ PDB কাঠামো রয়েছে। যাইহোক, প্রশিক্ষণ এবং পরীক্ষা উভয় সেটেই সমজাতীয় প্রোটিনের উপস্থিতি মডেলের কর্মক্ষমতার সাথে আপস করে মিউটেশনের পরস্পর নির্ভরশীল প্রভাবের দিকে পরিচালিত করতে পারে।
এটি প্রশমিত করতে, লি এট আল। [৪৭] Q1744 ডেটাসেট তৈরি করেছে, ওভারল্যাপিং ডেটা পয়েন্টগুলি বাদ দিয়ে এবং Q3421 এবং S[sym] ডেটাসেটের মধ্যে প্রোটিন-স্তরের হোমোলজি পরিমার্জন করে উদ্ভূত হয়েছে, যার ফলে 1744টি স্বতন্ত্র মিউটেশন হয়েছে।
অধিকন্তু, Q3488 ডেটাসেটটি Q1744 সেটে বিপরীত মিউটেশন বৃদ্ধি করে তৈরি করা হয়েছিল। আমরা আমাদের প্রশিক্ষণ সেট হিসাবে Q3488 ডেটাসেট ব্যবহার করেছি, যার ফলে PPI-তে BFE পরিবর্তনগুলি সঠিকভাবে ভবিষ্যদ্বাণী করার জন্য আমাদের ∆∆G ভবিষ্যদ্বাণীকারীর ক্ষমতা বৃদ্ধি করে৷
আমরা অন্ধ পরীক্ষা সেট S[sym]-এ আমাদের মডেলের একটি মূল্যায়ন পরিচালনা করি, সরাসরি এবং বিপরীত উভয় মিউটেশনের উপর একটি স্বতন্ত্র ফোকাস সহ। কর্মক্ষমতা মূল্যায়ন করতে, আমরা আমাদের প্রাথমিক মেট্রিক্স হিসাবে পিয়ারসন পারস্পরিক সম্পর্ক সহগ এবং রুট-মান-বর্গ ত্রুটি ব্যবহার করি। অতিরিক্তভাবে, কোনো ভবিষ্যদ্বাণীর পক্ষপাত নির্ণয় করার জন্য, আমরা দুটি পরিসংখ্যানগত ব্যবস্থা অন্তর্ভুক্ত করেছি: Rpdir−rev এবং δ।
পূর্ববর্তীটি প্রত্যক্ষ এবং বিপরীত মিউটেশনের জন্য ভবিষ্যদ্বাণীগুলির মধ্যে পিয়ারসন পারস্পরিক সম্পর্ক গণনা করে, যখন পরবর্তীটি উভয় প্রকারের মিউটেশনের জন্য পূর্বাভাসিত ∆∆G মানগুলির সমষ্টিকে উপস্থাপন করে। অনুমান হল যে একটি নিরপেক্ষ ভবিষ্যদ্বাণী Rpdir−rev = −1 এবং গড় δ ( ¯δ) 0 kcal/mol প্রদান করবে।
আমাদের প্রধান ফোকাস হল আমাদের মডেল, GGL-PPI2 এর কার্যকারিতা হাইলাইট করা, বিশেষ করে এর শক্তিশালী জ্যামিতিক গ্রাফ-ভিত্তিক আণবিক বৈশিষ্ট্যের উপর জোর দেওয়া। GGL-PPI2 ব্যতিক্রমী ভবিষ্যদ্বাণী নির্ভুলতা প্রদর্শন করেছে, সরাসরি এবং বিপরীত উভয় মিউটেশনের জন্য সামঞ্জস্য বজায় রাখে। চিত্র 3a এবং 3b তে যেমন দেখানো হয়েছে, আমাদের মডেলটি 0.57 এর সামঞ্জস্যপূর্ণ Rp মান এবং 1.28 kcal/mol এর RMSE অর্জন করে, যা সরাসরি মিউটেশনে অতিরিক্ত ফিটিং এর বিরুদ্ধে এর কার্যকারিতা নির্দেশ করে।
উপরন্তু, বিশ্লেষণ প্রকাশ করে যে মিউটেশনের একটি উল্লেখযোগ্য অনুপাত 0.5 kcal/mol এবং 1.0 kcal/mol এর একটি ভবিষ্যদ্বাণী ত্রুটির মধ্যে পড়ে, যার মধ্যে 34.6% এবং 65.8% সরাসরি মিউটেশনের জন্য এবং 35.1% এবং 66.0% বিপরীত মিউটেশনের জন্য, যেমন চিত্রে দেখানো হয়েছে। 3d এবং 3e.
তদ্ব্যতীত, চিত্র 3c দেখায় যে GGL-PPI2 কার্যকরভাবে -0.999-এর প্রায় নিখুঁত Rpdir−rev মান এবং 0.006 kcal/mol-এর একটি অত্যন্ত নিম্ন গড় ¯δ অর্জন করে ভবিষ্যদ্বাণী পক্ষপাতকে কার্যকরভাবে মোকাবেলা করে। অবশেষে, চিত্র 3f-এর বন্টন প্লটটি দেখায় যে 99.4% মিউটেশন 0.05 kcal/mol-এর নিচে একটি পূর্বাভাস পক্ষপাত প্রদর্শন করে।
সারণি 4-এ, আমরা আমাদের মডেলগুলির ভবিষ্যদ্বাণী ফলাফল উপস্থাপন করি এবং অন্যান্য ∆∆G ভবিষ্যদ্বাণীকারীদের সাথে একটি ব্যাপক তুলনা করি। আমরা লক্ষ্য করি যে আমাদের GGL-PPI2 মডেল ThermoNet [47] কে ছাড়িয়ে গেছে, যা সমস্ত মূল্যায়ন ব্যবস্থা জুড়ে সমতাত্ত্বিক হ্রাসকৃত সেট Q3488-এও প্রশিক্ষিত ছিল। এটি সরাসরি মিউটেশনের জন্য 21.3% এবং বিপরীত মিউটেশনের জন্য 18.7% থার্মোনেটকে ছাড়িয়ে যায়।
অধিকন্তু, GGL-PPI1 মডেল, যা শুধুমাত্র জ্যামিতিক গ্রাফ-ভিত্তিক বৈশিষ্ট্যগুলি ব্যবহার করে, এছাড়াও সরাসরি এবং বিপরীত ভবিষ্যদ্বাণী উভয় কাজেই থার্মোনেটের চেয়ে ভাল পারফর্ম করে। এটি আমাদের জ্যামিতিক-গ্রাফ পদ্ধতির কার্যকারিতাকে আরও জোর দেয়।
অন্যান্য ∆∆G ভবিষ্যদ্বাণীকারীদের সাথে একটি বিস্তৃত তুলনা করার জন্য, আমরা GGL-PPI2∗ মডেলটি প্রবর্তন করি, Q3421 সেটের হোমোলজি হ্রাসের আগে নির্মিত Q6428 সেটে প্রশিক্ষিত [47]। সারণি 4-এ চিত্রিত হিসাবে, GGL-PPI2∗ বিপরীত মিউটেশন ভবিষ্যদ্বাণীতে অন্যান্য পদ্ধতির চেয়ে বেশি।
এটি উল্লেখযোগ্য যে কিছু পদ্ধতি সরাসরি মিউটেশনের জন্য GGL-PPI2∗ ছাড়িয়ে গেলেও, তারা প্রায়শই বিপরীত মিউটেশনের দিকে উল্লেখযোগ্য পক্ষপাতিত্ব প্রদর্শন করে।