Naslov Binary classification of peptides using deep neural networks and transfer learning
Naslov (engleski) Binarna klasifikacija peptida korištenjem dubokih neuronskih mreža i učenja prijenosom znanja
Autor Erik Otović
Mentor Goran Mauša (mentor)
Mentor Daniela Kalafatović (komentor)
Član povjerenstva Kristijan Lenac (predsjednik povjerenstva)
Član povjerenstva Marina Ivašić-Kos (član povjerenstva)
Član povjerenstva Tell Tuttle https://orcid.org/0000-0003-2300-8921 (član povjerenstva)
Ustanova koja je dodijelila akademski / stručni stupanj Sveučilište u Rijeci Tehnički fakultet Rijeka
Datum i država obrane 2024, Hrvatska
Znanstveno / umjetničko područje, polje i grana TEHNIČKE ZNANOSTI Računarstvo
Univerzalna decimalna klasifikacija (UDC ) 004 - Računalna znanost i tehnologija. Računalstvo. Obrada podataka
Sažetak Machine learning is increasingly used for high-throughput peptide screening, providing a rapid and efficient method to identify peptides with desired functions in contrast to traditional trial-and-error approaches that are time-consuming and resource-intensive. It streamlines the exploration of the vast peptide space in a data-driven way and accelerates the discovery of novel peptides.
This thesis investigates three dominantly used peptide representation schemes and analyzes them based on the type of information they capture. Considering that machine learning models require input to be in a numerical form, the choice of peptide representation scheme is crucial as it can directly influence model performance. Therefore, anovel sequential properties representation scheme is proposed to address gaps identified in existing schemes. Additionally, a manually curated dataset comprising 126 peptides evaluated for the catalysis of ester and phosphoester hydrolysis is presented. The experimental evaluation of four peptide representation schemes in combination with deep neural networks was conducted using antimicrobial, antiviral and catalytic datasets. Results on the antimicrobial and antiviral datasets were used for statistical tests and to draw reliable conclusions due to their diversity and size. Statistical tests applied across seven evaluation metrics demonstrated that the introduced sequential properties scheme significantly outperformed other representations in 90% of cases. The antimicrobial and antiviral datasets were downsampled to create smaller target datasets to assess the effectiveness of transfer learning. Results showed that knowledge transfer was beneficial only when transferring from the more diverse antimicrobial dataset encompassing multiple subfunctions to less diverse antiviral dataset, improving the ROC-AUC score by 6.9% with statistical significance. Moreover, the results show that the transfer learning model outperforms the baseline model by more than 1% when the target dataset contains fewer than 275 peptides.
Sažetak (engleski) Strojno učenje se sve više koristi za visoko-propusno pregled peptida, pružajući brzu i učinkovitu metodu za identifikaciju peptida sa željenim funkcijama za razliku od tradicionalnih pristupa baziranih na postupku pokušaja i pogreške koji zahtijevaju puno vremena i resursa. Takoder pojednostavljuje istraživanje velikog prostora peptida metodama strojnog učenja koje su vođene dostupnim podacima te ubrzava otkrivanje novih peptida.
Ova doktorska disertacija razmatra tri dominantno korištene sheme predstavljanja peptida i analizira ih na temelju vrsta informacija koje obuhvaćaju. Uzimajući u obzir da modeli strojnog učenja zahtijevaju ulazne podatke u numeričkom obliku, odabir sheme predstavljanja peptida je ključan odabir jer može imati izravni utjecaj na učinak modela. Stoga, nova shema predstavljanja nazvana slijedne značajke je predložena u ovoj disertaciji s ciljem premošćivanja identificiranih nedostatak u postojećim shemama. Dodatno, u disertaciji je predstavljen skup podataka koji se sastoji od 126 ručno prikupljenih peptida ispitanih za katalizu hidrolize estera i fosfoestera. Provedeno je eksperimentalno ispitivanje četiri sheme predstavljanja peptida u kombinaciji s dubokim neuronskim mrežama korištenjem antimikrobnih, antivirusnih i katalitičkih skupova podataka. Rezultati na antimikrobnom i antivirusnom skupu podataka korišteni su za statističke testove i donošenje pouzdanih zaključaka zbog raznolikosti i veličine tih skupova podataka. Statistički testovi primijenjeni na sedam metrika vrednovanja pokazali su da je predstavljena shema slijednih značajki statistički značajno nadmašila ostale sheme u 90% slučajeva. Smanjene inačice antimikrobnog i antivirusnog
skupa podataka korištene su kao odredišni skupovi podataka za ispitivanje učinka učenjem
prijenosom znanja. Rezultati pokazuju da je poboljšanje ostvareno samo pri prijenosu
znanja iz raznovrsnijeg antimikrobnog skupa podataka, koji obuhvaća nekoliko podfunkcija
na antivirusni skup podataka, na manje raznoliki antivirusni skup rezultirajući u statistički
Classification of Peptides using Deep Neural Networks and Transfer Learning VIII
signifikantnom povećanju ROC-AUC metrike za 6.9%. Povrh toga, rezultati su pokazali
da model baziran na prijenosu znanja ostvaruje ičinak veći od 1% u usporedbi sa modelom
koji nije koristio prijenos znanja kada ciljni skup podataka sadrži manje od 275 peptida.
Ključne riječi
peptide function prediction
peptide representation schemes
sequential properties
catalytic peptides
transfer learning
Ključne riječi (engleski)
predviđanje funkcije peptida
shema predstavljanja peptida
katalitički peptidi
učenje prijenosom znanja
Jezik hrvatski
URN:NBN urn:nbn:hr:190:986491
Datum promocije 2024-12-09
Studijski program Naziv: Poslijediplomski sveučilišni (doktorski) studij iz znanstvenog područja Tehničkih znanosti, znanstvenog polja Računarstvo Vrsta studija: sveučilišni Stupanj studija: poslijediplomski doktorski Akademski / stručni naziv: doktor/doktorica znanosti, područje tehničkih znanosti, polje računarstvo (DR. SC.)
Vrsta resursa Tekst
Način izrade datoteke Izvorno digitalna
Prava pristupa Otvoreni pristup
Uvjeti korištenja
Datum i vrijeme pohrane 2024-12-16 14:06:52