Development and application of efficient and accurate free-energy models and methodologies for high-throughput computational protein design

View/ Open
Date
2020-09Author
Michael, Eleni M.Publisher
Πανεπιστήμιο Κύπρου, Σχολή Θετικών και Εφαρμοσμένων Επιστημών / University of Cyprus, Faculty of Pure and Applied SciencesPlace of publication
ΚύπροςCyprus
Google Scholar check
Keyword(s):
Metadata
Show full item recordAbstract
Ο υπολογιστικός σχεδιασμός πρωτεϊνών (ΥΣΠ) αποτελεί σημαντικό εργαλείο της βιοτεχνολογίας, με ποικίλες πετυχημένες εφαρμογές τα τελευταία χρόνια, στις οποίες συγκαταλέγονται η δημιουργία καινούριων ή τροποποιημένων πρωτεϊνών και η ερμηνεία πειραματικών αποτελεσμάτων. Σκοπός του ΥΣΠ, είναι η γρήγορη αξιολόγηση ενός τεράστιου αριθμού (109 ανά ημέρα) ακολουθιών και δομών. Σημαντικά στοιχεία για την επίτευξη αυτού του στόχου και την αποτελεσματικότητα του ΥΣΠ αποτελούν (α) η μείωση του χώρου πιθανών δομών που μπορεί να καταλάβει ένα βιομόριο, (β) η γρήγορη εξερεύνηση του χώρου ακολουθιών και δομών, μέσω της χρήσης αποδοτικών αλγορίθμων, όπως ο αλγόριθμος Monte Carlo (MC), και (γ) η ακρίβεια της συνάρτησης ενέργειας για την αξιολόγηση της κάθε κατάστασης (ακολουθίας και δομής) του συστήματος. Ο διαλύτης παίζει καθοριστικό ρόλο στη δομή και λειτουργία των πρωτεϊνών. Μία αξιόπιστη συνάρτηση ενέργειας θα πρέπει να περιγράφει με ακρίβεια την επίδραση που έχει ο διαλύτης στις αλληλεπιδράσεις και τη σταθερότητα των διαλυμένων βιομορίων. Η πιο ακριβής περιγραφή του διαλύτη είναι η άμεση αναπαράστασή του, η οποία χρησιμοποιείται στις προσομοιώσεις Μοριακής Δυναμικής (ΜΔ). Παρόλα αυτά, η χρήση της άμεσης αναπαράστασης του διαλύτη για ΥΣΠ υψηλής απόδοσης είναι ανέφικτη, λόγω πολύ μεγάλου υπολογιστικού κόστους. Για σκοπούς αποδοτικότητας στον ΥΣΠ, ο διαλύτης αναπαρίσταται έμμεσα. Στην παρούσα διατριβή, αναπτύσσουμε αποδοτικές και ακριβείς συναρτήσεις ελεύθερης ενέργειας διάλυσης, και μεθοδολογίες για ΥΣΠ υψηλής απόδοσης και για ανάλυση προσομοιώσεων ΜΔ, και τις δοκιμάζουμε σε διαφορετικά προβλήματα. Πιο συγκεκριμένα, (1) παραμετροποιούμε τέσσερα διαφορετικά μοντέλα ενέργειας διάλυσης, κατάλληλα για χρήση στον ΥΣΠ και τα εξετάζουμε χρησιμοποιώντας ποικίλα πειραματικά αποτελέσματα. (2) Σε μία τυπική μελέτη ΥΣΠ, η κύρια πρωτεϊνική αλυσίδα παραμένει παγωμένη. Η προσέγγιση αυτή αυξάνει την αποδοτικότητα του ΥΣΠ, αλλά περιορίζει την δυνατότητα της πρωτεΐνης να χαλαρώνει κατά την εισαγωγή μεταλλάξεων. Στην παρούσα εργασία αναπτύσσουμε μία υβριδική μέθοδο, η οποία εισάγει ευλυγισία στην κύρια πρωτεϊνική αλυσίδα κατά την διάρκεια ΥΣΠ. Η μέθοδός μας παρεμβάλλει βήματα ΜΔ ανάμεσα σε διαδοχικές απόπειρες σχεδιασμού με βήματα MC. (3) Χρησιμοποιούμε την βέλτιστη συνάρτηση ενέργειάς μας για τον σχεδιασμό πρωτεϊνικών ακολουθιών, κατάλληλων για τις δομές τριών διαφορετικών πρωτεϊνικών οικογενειών. (4) Σε μία τελευταία εργασία αυτής της διατριβής, στοχεύουμε στο σχεδιασμό αναστολέων πρωτεϊνικών συμπλόκων που βρίσκονται στις εστιακές προσκολλήσεις (ΕΠ) των κυττάρων και εμπλέκονται στην καρκινική ανάπτυξη και μετάσταση. Αρχικά εξερευνούμε τις σημαντικές αλληλεπιδράσεις που συνιστούν αυτά τα σύμπλοκα, μέσω προσομοιώσεων ΜΔ. (5) Στο επόμενο στάδιο, χρησιμοποιούμε την συνάρτηση ενέργειάς μας για το σχεδιασμό πεπτιδίων τα οποία να μπορούν να λειτουργήσουν σαν αναστολείς, με βελτιωμένη ενέργεια σύνδεσης στην κινάση εστιακής προσκόλλησης. Computational protein design (CPD) is an important tool for biotechnology, with numerous successful applications in recent years. It can assist in the creation of new or modified proteins and the rationalization of experimental results. The objective of CPD is the rapid assessment of an enormous number (109 per day) of sequences and structures. To achieve this goal, key elements for the success of CPD calculations are (i) the reduced description of the conformational space of the molecule under consideration, (ii) the rapid exploration of the chemical and conformational space via the use of efficient algorithms such as Monte Carlo (MC), and (iii) the accuracy of the energy function that is used to rank each state (sequence and conformation) of the system. The solvent plays a determinant role in the structure and function of proteins. A reliable energy function should accurately capture solvent effects on the interaction and stability of molecules in aqueous solution. The most accurate approach to model solvation effects on biomolecules is the explicit representation used in molecular dynamics (MD) simulations. However, this approach is not computationally tractable in high-throughput CPD calculations. In order to achieve efficiency in CPD, solvent effects are modelled implicitly. In the present thesis, we develop efficient and accurate solvation free-energy models and methodologies for high-throughput CPD and MD simulation free-energy analysis, and test them in specific problems. More specifically, (1) we implement in the CPD software Proteus and parametrize four solvation energy models suitable for high-throughput CPD, and we test them against a range of experimental results; (2) to overcome the “rigid backbone” approximation that is usually employed in high-throughput CPD to reduce the conformational space, we develop a hybrid MC/MD protein design methodology; in a first application we calculate proton binding affinities and pKα shifts due to the introduction of point mutation in proteins; (3) we use our most promising energy function to the design of protein sequences consistent with the folds of three different protein families; (4) in a last application, we aim to design improved inhibitors of protein complexes at focal adhesions (FAs), that serve as cancer biomarkers or cancer therapy targets. We first explore the key interactions of several FA complexes (the LD-motif peptides of Paxillin and Leupaxin in complex with the Focal Adhesion Targeting (FAT) domain of FAK and PYK2 proteins), and we interpret experimental results of relative binding affinities; (5) we employ our free-energy function in the design of peptides with improved affinity for the FAT domain of the FA kinase.