paint-brush
Veri Setlerimiz ve Çalışmamızın Sonuçları: GGL-PPI Modelleriile@mutation
3,129 okumalar
3,129 okumalar

Veri Setlerimiz ve Çalışmamızın Sonuçları: GGL-PPI Modelleri

Çok uzun; Okumak

Bu bölümde, önerdiğimiz modellerin çeşitli kıyaslama veri kümeleri üzerinde doğrulamasını ve değerlendirmesini gerçekleştiriyoruz. İki tür GGL-PPI modeli geliştiriyoruz: GGL-PPI1 ve GGL-PPI2. İlk model olan GGL-PPI1, yalnızca Bölüm 3'te tartışılan geometrik grafik özelliklerine dayanmaktadır.
featured image - Veri Setlerimiz ve Çalışmamızın Sonuçları: GGL-PPI Modelleri
The Mutation Publication HackerNoon profile picture

Bu makale arxiv'de CC 4.0 lisansı altında mevcuttur.

Yazarlar:

(1) Md Masud Rana, Matematik Bölümü, Kentucky Üniversitesi;

(2) Duc Duy Nguyen, Matematik Bölümü, Kentucky Üniversitesi & ducnguyen@uky.edu.

Bağlantı Tablosu

Özet ve Giriş

Veri Kümeleri ve Sonuçlar

Yöntemler

Sonuç, Veri ve Yazılım Kullanılabilirliği, Rekabet eden çıkarlar, Teşekkür ve Referanslar

2 Veri Kümeleri ve Sonuçlar

Bu bölümde, önerdiğimiz modellerin çeşitli kıyaslama veri kümeleri üzerinde doğrulamasını ve değerlendirmesini gerçekleştiriyoruz. İki tür GGL-PPI modeli geliştiriyoruz: GGL-PPI1 ve GGL-PPI2. İlk model olan GGL-PPI1, yalnızca Bölüm 3'te tartışılan geometrik grafik özelliklerine dayanmaktadır.


Öte yandan GGL-PPI2, Wang ve diğerleri tarafından detaylandırıldığı gibi hem geometrik grafik özelliklerini hem de yardımcı özellikleri içerir. [41]. Yardımcı bileşenler için elektrostatik potansiyel hesaplamaları MIBPB yazılımı kullanılarak yapılır [42].

2.1 Doğrulama

Modellerimizi doğrulamak için öncelikle AB-Bind veri kümesini [25], SKEMPI 1.0 veri kümesini [23] ve SKEMPI 2.0 veri kümesini [24] dikkate alıyoruz. Her veri kümesinde 10 kat 10 kat çapraz doğrulama (CV) gerçekleştirerek titiz bir değerlendirme metodolojisi kullanıyoruz. Ortalama Pearson korelasyon katsayısı ( Rp ) ve ortalama karekök hatası (RMSE), değerlendirme ölçümlerimiz olarak hizmet eder.


Önerilen modellerimizin CV performansını diğer mevcut yöntemlerle karşılaştırırken, özellikle TopNetTree [41], Hom-ML-V2 [43] ve Hom-ML-V1'i [43] değerlendiriyoruz. Hem TopNetTree hem de Hom-ML-V2, sırasıyla topoloji tabanlı ve Hom-kompleks tabanlı özellikleriyle birlikte yardımcı özellikleri içerir. Öte yandan Hom-ML-V1, herhangi bir yardımcı özellik kullanmadan yalnızca Hom kompleksi tabanlı özelliklere dayanmaktadır.


Şekil 2: GGL-PPI2 modelimizin 10 kat 10 kat çapraz doğrulama kullanılarak çeşitli doğrulama veri kümeleri üzerindeki performansı. (a) AB-Bind S645 veri setinde modelimiz, 0,58'lik bir Pearson korelasyon katsayısına (Rp) ve 1,61 kcal/mol'lük Ortalama Karekök Hatasına (RMSE) ulaşır. (b) S645 veri kümesinde, 27 hariç


AB-Bind S645 Veri Setinde Doğrulama AB-Bind veri seti, 32 antikor-antijen kompleksi için 1.101 mutasyon veri noktası içerir ve mutasyonlar üzerine deneysel olarak belirlenmiş bağlanma afinite değişiklikleri sağlar. Pires ve ark. AB-Bind S645 [44] olarak bilinen ve 29 antikor-antijen kompleksinde gözlemlenen 645 tek nokta mutasyonundan oluşan bir alt kümeyi küratörlüğünü yaptı. Veri seti stabilize edici (%20) ve istikrarsızlaştırıcı (%80) mutasyonların bir karışımını içerir.


Ek olarak veri seti, testin hassasiyet aralığı dahilinde herhangi bir bağlanma göstermeyen 27 bağlayıcı olmayan madde içerir. Bu bağlayıcı olmayanlar için bağlanma serbest enerji değişiklikleri eşit olarak 8 kcal/mol değerine ayarlanmıştır. Modelin doğruluğunu ve sağlamlığını sağlamak için, model geliştirme ve değerlendirme sırasında bu bağlayıcı olmayan unsurları aykırı değerler olarak dikkate almak çok önemlidir.


GGL-PPI2'miz, Şekil 2a'da gösterildiği gibi AB-Bind S645 veri setinde 0,58'lik bir Rp elde etti. Tablo 1'deki karşılaştırma sonuçları, modelimizin Hom-ML-V2 43 ile ikinci sırada yer aldığını, TopNetTree'nin [41] ise en üst sırayı aldığını göstermektedir.


Ancak 27 bağlayıcı olmayan öğeyi veri kümesinden hariç tuttuğumuzda modelimiz mevcut tüm modellerden daha iyi performans gösteriyor. Spesifik olarak, bağlayıcı olmayanlar çıkarıldıktan sonra Rp değeri 0,58'den 0,74'e yükselir (Şekil 2b).


Ayrıca tamamen geometrik grafik tabanlı özellik modelimiz olan GGL-PI1, AB-Bind S645 veri kümesinde 0,57 Rp ile rekabetçi bir performans sergiledi. İlginç bir şekilde, bağlayıcı olmayanlar hariç tutulduğunda GGL-PPI1, 0,73'lük geliştirilmiş bir Rp ile diğer tüm modelleri geride bıraktı.


Bu performanslar, çok ölçekli ağırlıklı renkli geometrik grafiklerimizin biyomoleküler komplekslerdeki geniş yelpazedeki etkileşimleri etkili bir şekilde karakterize edebildiğini ortaya koymaktadır.


SKEMPI 1.0 S1131 Veri Setinin Doğrulanması SKEMPI 1.0 veri seti, komplekslerin deneysel olarak belirlenmiş yapılara sahip olduğu, literatür kaynaklarından elde edilen 158 kompleksin 3.047 mutasyonunun bir koleksiyonundan oluşur [23]. Veri seti hem tek noktalı mutasyonları hem de çok noktalı mutasyonları içerir.


Spesifik olarak, veri setinde tek nokta mutasyonlarını temsil eden ve toplu olarak SKEMPI S2317 seti olarak bilinen 2.317 giriş bulunmaktadır. Ek olarak, SKEMPI S2317 setinden 1.131 yedekli olmayan arayüz tek nokta mutasyonunun bir alt seti seçilmiş ve SKEMPI S1131 seti olarak etiketlenmiştir [45]. Bu alt grup, tek nokta mutasyonlarının protein-protein etkileşimleri üzerindeki etkisinin incelenmesine odaklanmaktadır.


Tablo 1: AB-Bind (S645) veri kümesi için Pearson korelasyon katsayıları (Rp) açısından farklı yöntemlerin performans karşılaştırması.



Şekil 2c, GGL-PPI2 modelimizin S1131 veri kümesinde 10 kat CV'de 0,873'lük bir Rp'ye ve 1,21 kcal/mol'lük bir RMSE'ye ulaştığını göstermektedir. Tablo 2, önerdiğimiz modeller olan GGL-PPI1 ve GGL-PPI2 dahil olmak üzere S1131 veri kümesindeki çeşitli yöntemlerin performans karşılaştırmasını sunmaktadır.


Bunlar arasında, modelimiz GGL-PPI2 en yüksek performansı elde etti ve mutasyona bağlı bağlanma afinite değişikliklerini tahmin etmedeki üstünlüğünü vurguladı.


Özellikle, yardımcı özellikler olmasa bile GGL-PPI1'imiz, yardımcı özelliklerden yararlanan TopNetTree ve Hom-ML-V2 yöntemlerinden daha iyi performans gösterdi. Bu yine geometrik grafik tabanlı moleküler temsilimizin etkinliğini vurgulamaktadır.


Tablo 2: SKEMPI 1.0 (S1131) veri kümesindeki tek nokta mutasyonları için Pearson korelasyon katsayıları (Rp) açısından farklı yöntemlerin performans karşılaştırması.



SKEMPI 2.0 S4169 ve S8338 Veri Setlerinin Doğrulanması SKEMPI 2.0 veri seti, çeşitli kaynaklardan toplanan yeni mutasyonları içeren, orijinal SKEMPI veri setinin güncellenmiş ve genişletilmiş bir versiyonudur [24].


2018'de piyasaya sürülen bu belgenin boyutu önemli ölçüde arttı ve artık hem tek noktalı hem de çok noktalı mutasyonlar dahil olmak üzere toplam 7.085 giriş içeriyor. Veriler, SKEMPI 1.0 [23], AB-Bind [25], PROXiMATE27 ve dbMPIKT46 dahil olmak üzere çeşitli veri tabanlarının birleştirilmesiyle elde edildi.


Ek olarak, literatürdeki yeni veriler manuel olarak derlendi ve veri setine eklendi. Mutasyonlar, proteaz inhibitörü, antikor-antijen ve TRCpMHC kompleksleri gibi çok çeşitli protein komplekslerini kapsar. Mutasyonların yaklaşık 3000'i tek noktalı alanin mutasyonları, 2000'i tek noktalı alanin olmayan mutasyonlar ve diğer 2000'i ise çoklu mutasyonları içeriyor.


Özellikle, mCSM-PPI2 [8] yönteminin yazarları tek nokta mutasyonlarını filtreledi ve 139 farklı komplekste 4.169 varyant içeren S4169 seti elde edildi. S4169'dan türetilen S8338 seti, negatif değerlere sahip varsayımsal ters mutasyon enerji değişikliklerini temsil eder. Bu kapsamlı veri seti, protein etkileşimlerini ve bunların termodinamik özelliklerini incelemek için değerli bir kaynak görevi görür.


Performans açısından GGL-PPI2 modelimiz, Şekil 2d'de gösterildiği gibi S4169 veri kümesi için 1,03 kcal/mol RMSE ile 0,81'lik bir Rp yayınlayarak mevcut tüm modelleri geride bırakıyor (Tablo 3). Yalnızca geometrik grafik tabanlı özelliklere dayanan GGL-PPI1 modelimizin, 0,80 Rp ve 1,06 kcal/mol RMSE ile TopNetTree ve mCSM-PPI2'den daha iyi performans göstererek GGL-PPI2 ile karşılaştırılabilir bir performans sergilemesi dikkat çekicidir.


S8338 veri kümesi durumunda mCSM-PPI2'ye benzer katmanlı bir çapraz doğrulama yaklaşımı uyguladık. Veri seti bölmeleri sırasında varsayımsal ters mutasyonların eğitim veya test setlerine tutarlı bir şekilde yerleştirilmesini ve çapraz doğrulama süreci boyunca karşılık gelen orijinal mutasyonlarla ilişkilerini bozulmadan sürdürmesini sağladık.


GGL-PPI2, Şekil 2e'de gösterildiği gibi 1,07 kcal/mol'lük bir RMSE ile 0,85'lik bir Rp'ye ulaştı ve bunu yakından takip eden GGL-PPI1, aynı RMSE değeriyle 0,84'lük bir Rp'ye ulaştı. Tablo 3'ün de gösterdiği gibi, GGL-PPI2'miz TopNetTree ile aynı düzeydedir ve S8338 veri kümesinde mCSM-PPI2'den daha iyi performans gösterir.


Tablo 3: SKEMPI 2.0 (S4169 ve S8338) veri kümesindeki tek nokta mutasyonları için Pearson korelasyon katsayıları (Rp) açısından farklı yöntemlerin performans karşılaştırması.


2.2 Değerlendirme

Protein-protein etkileşimlerindeki bağlanma serbest enerji (BFE) değişikliklerini tahmin etmek için önerdiğimiz modelimizi değerlendirmek için ProTherm veri tabanından alınan iki veri setini göz önünde bulunduruyoruz [22].


Pucci ve arkadaşları tarafından dikkatle seçilen ilk veri seti. [36], S[sym] veri kümesi olarak adlandırılmıştır. Bu veriler, 342 doğrudan mutasyon ve bunlara karşılık gelen ters mutasyonlardan oluşan ProTherm'den gelen 684 mutasyonu bir araya getirerek dengeli bir veri seti oluşturur.


Veri seti özellikle çözülmüş 3 boyutlu yapılara sahip on beş protein zincirindeki mutasyonlara odaklanıyor ve en az 2,5˚A çözünürlükte yüksek çözünürlüklü veriler sağlıyor.


Deneysel olarak ölçülen ∆∆G değerleri ve stabilize edici ve dengesizleştirici mutasyonların dengeli bir temsilini sağlayarak, S[sym] veri seti, mutasyonun neden olduğu bağlanma afinite değişikliklerini tahmin etme bağlamında tahmin önyargılarını değerlendirmek için değerli bir kaynak olarak hizmet eder.


Veri sızıntısı sorununu çözmek ve yöntemimizin genelleme yeteneğini geliştirmek için Q1744 veri kümesini kullandık [47]. Quan ve ark. [48], mevcut PDB yapılarına sahip 150 proteinde 3421 tek nokta mutasyonundan oluşan Q3421 veri setini ProTherm'den derledi. Bununla birlikte, hem eğitim hem de test setinde homolog proteinlerin varlığı, mutasyonların birbirine bağımlı etkilerine yol açarak modelin performansını tehlikeye atabilir.


Bunu hafifletmek için Li ve ark. [47], örtüşen veri noktalarını hariç tutarak ve Q3421 ile S[sym] veri kümeleri arasındaki protein düzeyinde homolojiyi geliştirerek elde edilen ve 1744 farklı mutasyonla sonuçlanan Q1744 veri kümesini oluşturdu.


Ayrıca Q3488 veri seti, Q1744 setindeki ters mutasyonların arttırılmasıyla oluşturuldu. Q3488 veri setini eğitim setimiz olarak kullandık, böylece ∆∆G tahmincimizin ÜFE'lerdeki BFE değişikliklerini doğru bir şekilde tahmin etme yeteneğini geliştirdik.


Hem doğrudan hem de ters mutasyonlara ayrı bir şekilde odaklanarak, S[sym] kör test seti üzerinde modelimizin bir değerlendirmesini yürütüyoruz. Performansı değerlendirmek için Pearson korelasyon katsayısını ve ortalama karekök hatasını birincil ölçümlerimiz olarak kullanıyoruz. Ek olarak, herhangi bir tahmin yanlılığını ayırt etmek için iki istatistiksel ölçüyü dahil ettik: Rpdir−rev ve δ.


İlki, doğrudan ve ters mutasyonlar için tahminler arasındaki Pearson korelasyonunu hesaplarken, ikincisi, her iki mutasyon türü için tahmin edilen ∆∆G değerlerinin toplamını temsil eder. Hipotez, tarafsız bir tahmincinin Rpdir−rev = −1 ve ortalama δ ( ¯δ) 0 kcal/mol sonucunu vereceği yönündedir.


Ana odak noktamız, GGL-PPI2 modelimizin etkinliğini vurgulamak, özellikle sağlam geometrik grafik tabanlı moleküler özelliklerini vurgulamaktır. GGL-PPI2, hem doğrudan hem de ters mutasyonlar için tutarlılığı koruyarak olağanüstü tahmin doğruluğu göstermiştir. Şekil 3a ve 3b'de gösterildiği gibi modelimiz, 0,57'lik tutarlı Rp değerlerine ve 1,28 kcal/mol'lük bir RMSE'ye ulaşır; bu, doğrudan mutasyonlara aşırı uyum sağlamaya karşı verimliliğini gösterir.


Ek olarak analiz, Şekilde gösterildiği gibi, mutasyonların önemli bir oranının 0,5 kcal/mol ve 1,0 kcal/mol tahmin hatası dahilinde olduğunu, doğrudan mutasyonlar için %34,6 ve %65,8 ve ters mutasyonlar için %35,1 ve %66,0 olduğunu ortaya koymaktadır. 3d ve 3e.


Ayrıca, Şekil 3c, GGL-PPI2'nin -0,999'luk neredeyse mükemmel bir Rpdir−rev değeri ve 0,006 kcal/mol'lük son derece düşük bir ortalama ¯δ elde ederek tahmin önyargısını etkili bir şekilde ele aldığını göstermektedir. Son olarak, Şekil 3f'deki dağılım grafiği, mutasyonların %99,4'ünün 0,05 kcal/mol'ün altında bir tahmin yanlılığı sergilediğini göstermektedir.


Tablo 4'te modellerimizin tahmin sonuçlarını sunuyoruz ve diğer ∆∆G tahmin edicileriyle kapsamlı bir karşılaştırma yapıyoruz. GGL-PPI2 modelimizin, tüm değerlendirme ölçümlerinde homolojisi azaltılmış Q3488 seti üzerinde eğitim almış olan ThermoNet'ten [47] daha iyi performans gösterdiğini gözlemledik. ThermoNet'ten doğrudan mutasyonlarda %21,3 ve ters mutasyonlarda %18,7 oranında daha iyi performans gösterir.


Ayrıca yalnızca geometrik grafik tabanlı özellikleri kullanan GGL-PPI1 modeli hem doğrudan hem de ters tahmin görevlerinde ThermoNet'ten daha iyi performans gösteriyor. Bu, geometrik grafik yaklaşımımızın etkinliğini daha da vurgulamaktadır.


Şekil 3: Ssym veri kümesi için GGL-PPI2 modelimizin sonuçları. (a)'da doğrudan mutasyonlar çizilmiştir, (b)'de ise ters mutasyonların sonuçları sunulmaktadır. Maviden kırmızıya kadar uzanan renk spektrumu karşılık gelen tahmin doğruluğunu temsil eder; burada mavi daha yüksek doğruluğu, kırmızı ise daha düşük doğruluğu belirtir. A


Diğer ∆∆G belirleyicileriyle daha geniş bir karşılaştırma yapmak için, Q3421 kümesinin homoloji azaltımından önce oluşturulan Q6428 kümesi üzerinde eğitilen GGL-PPI2∗ modelini tanıtıyoruz [47]. Tablo 4'te gösterildiği gibi, GGL-PPI2∗ ters mutasyon tahminlerinde diğer yöntemlere göre üstündür.


Bazı yöntemlerin doğrudan mutasyonlar için GGL-PPI2∗'yi aşmasına rağmen sıklıkla ters mutasyonlara karşı önemli bir önyargı sergilemeleri dikkat çekicidir.