Development of algorithms and software for unravelling the biological role of low complexity regions in protein sequences

Kirmitzoglou, Ioannis K.

dc.contributor.advisor	Promponas, Vasilis	en
dc.contributor.author	Kirmitzoglou, Ioannis K.	en
dc.coverage.spatial	Cyprus	en
dc.creator	Kirmitzoglou, Ioannis K.	en
dc.date.accessioned	2014-09-26T09:16:14Z
dc.date.accessioned	2017-08-03T09:24:59Z
dc.date.available	2014-09-26T09:16:14Z
dc.date.available	2017-08-03T09:24:59Z
dc.date.issued	2014-09
dc.date.submitted	2014-09-26
dc.identifier.uri	https://gnosis.library.ucy.ac.cy/handle/7/39099	en
dc.description	Includes bibliographical references.	en
dc.description	Number of sources in the bibliography: 156	en
dc.description	Thesis (Ph. D.) -- University of Cyprus, Faculty of Pure and Applied Sciences, Department of Biological Sciences, 2014.	en
dc.description	The University of Cyprus Library holds the printed form of the thesis.	en
dc.description.abstract	Πολλές πρωτεΐνες είναι εμπλουτισμένες σε περιοχές με ακραία αμινοξική σύσταση. Έχει δειχθεί ότι τέτοιες πρωτεΐνες διαδραματίζουν σημαντικούς βιολογικούς ρόλους αλλά, λόγω των ιδιαίτερων βιοχημικών ιδιοτήτων τους, η μελέτη τους έχει αποδειχθεί δύσκολη μέχρι τώρα. Επιπρόσθετα, τέτοιες περιοχές με χαμηλή πολυπλοκότητα (ΠΧΠ), αποκλίνουν ξεκάθαρα από το μοντέλο τυχαίας σύστασης που χρησιμοποιείται για τον υπολογισμό της στατιστικής σημαντικότητας των αποτελεσμάτων αναζήτησης σε βάσεις δεδομένων πρωτεϊνικών αλληλουχιών. Αυτό έχει ως αποτέλεσμα την παραγωγή ψευδώς αληθών αποτελεσμάτων. Έχουν προταθεί πολλές προσεγγίσεις για την αντιμετώπιση αυτού του προβλήματος, αλλά η εύρεση του βέλτιστου τρόπου αντιμετώπισης αυτών των περιοχών εξακολουθεί να είναι αντικείμενο ενεργής έρευνας. Επιπρόσθετα, υπάρχει έλλειψη εργαλείων για την αναζήτηση και απεικόνιση ΠΧΠ που θα μπορούσαν να βοηθήσουν σε πιο πολύπλοκες (υπολογιστικά) προσπάθειες για την κατανόηση του βιολογικού ρόλου πρωτεϊνικών αλληλουχιών με ΠΧΠ. Ελέγξαμε και επιβεβαιώσαμε την αποτελεσματικότητα όλων των τρόπων αντιμετώπισης των ΠΧΠ που προσφέρονται από το BLAST με την προσθήκη του φιλτραρίσματος της βάσης δεδομένων με τα προγράμματα λογισμικού SEG και CAST. Επινοήσαμε μια εμπεριστατωμένη μέθοδο επαλήθευσης των σωστών αποτελεσμάτων και δείξαμε ότι οι αποτελεσματικότερες μέθοδοι αντιμετώπισης των ΠΧΠ ήταν κάποιες που δεν είχαν αξιολογηθεί μέχρι τώρα. Με βάση τα αποτελέσματα μας, προτείνουμε την εφαρμογή του φιλτραρίσματος τόσο της αλληλουχίας-ερώτημα όσο και της βάσης δεδομένων με το CAST σε όλες τις μεγάλης κλίμακας μελέτες συγκριτικής γονιδιωματικής. Αυτή η προσέγγιση δείχθηκε να μειώνει τις υπολογιστικές απαιτήσεις αυξάνοντας ταυτόχρονα την ευαισθησία της εύρεσης ομολόγων. Προκειμένου να επιταχύνουμε την ευρύτερη υιοθέτηση του CAST από την επιστημονική κοινότητα, αναπτύξαμε μία νέα έκδοση με σημαντικές βελτιώσεις στην ταχύτητα του και με επιπρόσθετα χαρακτηριστικά που κάνουν τη χρήση σε πλήρως αυτοματοποιημένα περιβάλλοντα ακόμα ευκολότερη. Αναπτύξαμε τον LCR-eXXXplorer, ένα καινοτόμο διαδικτυακό τόπο με μοναδικά διεθνώς εργαλεία στοχευμένα στους ερευνητές που ενδιαφέρονται για τις ΠΧΠ. Συγκρινόμενος με τις λίγες άλλες παρόμοιες υπηρεσίες, ο LCR-eXXXplorer όχι μόνο προσφέρει στους ερευνητές την δυνατότητα να αναζητήσουν εύκολα και γρήγορα μεταξύ εκατομμυρίων σχολιασμένων ΠΧΠ, αλλά και να τις απεικονίσουν με ένα ευέλικτο και λειτουργικό τρόπο που επιτρέπει την άμεση σύγκριση με σχολιασμούς άλλων βάσεων δεδομένων (όπως η UniProtKB) αλλά και προγνώσεων που σχετίζονται με τις ΠΧΠ. Χρησιμοποιώντας τα εργαλεία που αναπτύχθηκαν κατά την διάρκεια αυτής τη μελέτης, εξερευνήσαμε την χρηστικότητα γνωρισμάτων που βασίζονται στην ολική και τοπική αμινοξική σύσταση πρωτεϊνών που κωδικοποιούνται από πλήρη γονιδιώματα για την πρόγνωση φαινοτυπικών χαρακτηριστικών των αντίστοιχων ειδών. Συγκεκριμένα, χρησιμοποιήσαμε μια σειρά από πλήρως αλληλουχημένα γονιδιώματα στελεχών του γένους Escherichia για την πρόγνωση της παθογονικότητας κάθε στελέχους. Πραγματοποιώντας εκτενείς προσομοιώσεις με τεχνητά σύνολα δεδομένων που προσομοίωναν πρωτεϊνικά υποσύνολα από ημιτελείς μετα-γονιδιωματικές συλλογές, δείξαμε ότι η πρόγνωση της παθογονικότητας με υψηλή ακρίβεια είναι δυνατή ακόμα και με τόσο περιορισμένη πληροφορία. Τα πρωτότυπα αποτελέσματά μας ανοίγουν νέες κατευθύνσεις για επιπρόσθετη έρευνα τόσο στην ορθή επικύρωση των εργαλείων αναζήτησης ομοιότητας όσο και στην σωστή υλοποίηση μεγάλης κλίμακας πειραμάτων αναζήτησης αλληλουχιών. Επιπρόσθετα, αναμένουμε ότι η προσέγγισή μας για την αξιοποίηση υπογραφών βασισμένων στην αμινοξική σύσταση (πιθανώς ημιτελών) (μέτα-) γονιδιωματικών δεδομένων μπορεί εύκολα να επεκταθεί για να καλύπτει και άλλα είδη και μπορεί να χρησιμοποιηθεί σε σημαντικές εφαρμογές βιοασφάλειας όπως είναι η συνεχής επιτήρηση για ξεσπάσματα επιδημιών.	el
dc.description.abstract	Many proteins are enriched in segments of extreme amino acid compositions. Such compositionally biased proteins are increasingly shown to play important biological roles but, due to their biochemical properties, they have been hard to study so far. In addition, such segments of low complexity clearly deviate from the random model used to evaluate the statistical significance of database search algorithms, leading to the production of (often large numbers of) false positive similarity detection cases. Several approaches have been proposed for addressing this drawback, but finding the most effective way to deal with such regions is still a subject of active research. Moreover, there is a lack of readily accessible tools for searching and visualizing low complexity regions (LCRs) which may facilitate more advanced (computational) approaches for elucidating the biological roles of LCR-containing proteins. In this work we tested and verified the effectiveness of all LCR-handling methods offered by BLAST with the addition of database masking with CAST or SEG. We devised a comprehensive validation approach and demonstrated that yet untested schemes are the most appropriate for this task. More specifically, we propose that two-way CAST masking should be adopted in large-scale computational comparative genomics studies, especially for datasets with high LCR content. This approach is shown to guarantee the reduction of necessary computational resources (CPU time, storage space) while increasing the sensitivity of homolog detection. To facilitate the wider adoption of CAST, we also developed a new version with significant speed-up improvements and pipeline-friendly features. Moreover, we developed LCR-eXXXplorer, a novel web-based system with unique properties and features for researchers interested in LCRs. Compared to the few similar services available, LCR-eXXXplorer not only provides researches with the ability to easily and accurately search among millions of annotated LCRs, but also to display them in an attractive and functional fashion, allowing direct comparison with annotations stored in other online databases, such as UniProtKB, and predicted properties commonly associated with LCRs. This system is designed in a modular way, enabling future addition of other datasets or support of additional LCR-detection algorithms. Using the tools developed in this study, we investigated the utility of global and local compositional features computed from proteins encoded in complete genomes for predicting phenotypic traits of the respective species. More specifically, we used a number of completely sequenced genomes of species/strains of the genus Escherichia for predicting the pathogenicity of each strain. By performing extensive simulations with artificial datasets resembling protein subsets from incomplete metagenomic assemblies we illustrate that even with such limited information accurate prediction of pathogenicity is feasible. Our original findings open new directions for further research both in the proper validation of sequence similarity search tools and in the proper implementation of large-scale sequence search pipelines. Furthermore, we anticipate that our approach for utilizing compositional signatures from (possibly incomplete) (meta-) genomic data may be easily extended to cover other lineages and be directly applicable in important biosafety applications, such as epidemiological monitoring.	en
dc.format.extent	xiv, 199 p. : col. ill. ; 30 cm.	en
dc.language.iso	eng	en
dc.publisher	Πανεπιστήμιο Κύπρου, Σχολή Θετικών και Εφαρμοσμένων Επιστημών / University of Cyprus, Faculty of Pure and Applied Sciences
dc.rights	info:eu-repo/semantics/openAccess	en
dc.rights	Open Access	en
dc.subject.lcsh	Bioinformatics	en
dc.subject.lcsh	Computational biology	en
dc.subject.lcsh	Sequence Analysis Methods	en
dc.subject.lcsh	Proteins Analysis	en
dc.subject.lcsh	Biology Data processing	en
dc.title	Development of algorithms and software for unravelling the biological role of low complexity regions in protein sequences	en
dc.title.alternative	Ανάπτυξη αλγορίθμων και λογισμικού για τον προσδιορισμό του βιολογικού ρόλου των περιοχών χαμηλής πολυπλοκότητας σε πρωτεϊνικές αλληλουχίες	el
dc.type	info:eu-repo/semantics/doctoralThesis	en
dc.contributor.committeemember	Προμπονάς, Βασίλης	el
dc.contributor.committeemember	Κωστρίκης, Λεόντιος	el
dc.contributor.committeemember	Σκουρίδης, Πάρης	el
dc.contributor.committeemember	Ουζούνης, Χρήστος	el
dc.contributor.committeemember	Ηλιόπουλος, Ιωάννης	el
dc.contributor.committeemember	Promponas, Vasilis	en
dc.contributor.committeemember	Kostrikis, Leondios	en
dc.contributor.committeemember	Skourides, Paris	en
dc.contributor.committeemember	Ouzounis, Christos	en
dc.contributor.committeemember	Iliopoulos, Ioannis	en
dc.contributor.department	Τμήμα Βιολογικών Επιστημών / Department of Biological Sciences
dc.subject.uncontrolledterm	ΠΕΡΙΟΧΕΣ ΧΑΜΗΛΗΣ ΠΟΛΥΠΛΟΚΟΤΗΤΑΣ	el
dc.subject.uncontrolledterm	ΠΕΡΙΟΧΕΣ ΑΚΡΑΙΑΣ ΑΜΙΝΟΞΙΚΗΣ ΣΥΣΤΑΣΗΣ	el
dc.subject.uncontrolledterm	ΑΝΑΛΥΣΗ ΑΛΛΗΛΟΥΧΙΑΣ	el
dc.subject.uncontrolledterm	ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ	el
dc.subject.uncontrolledterm	ΑΛΓΟΡΙΘΜΟΙ	el
dc.subject.uncontrolledterm	ΔΙΑΔΙΚΤΙΑΚΕΣ ΥΠΗΡΕΣΙΕΣ	el
dc.subject.uncontrolledterm	LOW COMPLEXITY REGIONS	en
dc.subject.uncontrolledterm	COMPOSITIONALLY BIASED REGIONS	en
dc.subject.uncontrolledterm	SEQUENCE ANALYSIS	en
dc.subject.uncontrolledterm	BIOINFORMATICS	en
dc.subject.uncontrolledterm	WEB SERVICES	en
dc.identifier.lc	QH324.2.K88 2014	en
dc.author.faculty	Σχολή Θετικών και Εφαρμοσμένων Επιστημών / Faculty of Pure and Applied Sciences
dc.author.department	Τμήμα Βιολογικών Επιστημών / Department of Biological Sciences
dc.type.uhtype	Doctoral Thesis	en
dc.rights.embargodate	2016-09-18
dc.contributor.orcid	Promponas, Vasilis [0000-0003-3352-4831]
dc.gnosis.orcid	0000-0003-3352-4831

Files in this item

Name:: Ioannis Kirmitzoglou PhD.pdf
Size:: 10.13Mb
Format:: PDF
Description:: Διδακτορική διατριβή

View/Open

Name:: Κυρμιτζόγλου Ιωάννης Κ. - ΒΙΟ - ...
Size:: 415.5Kb
Format:: PDF
Description:: Έντυπο έγκρισης ηλεκτρονικής ...

View/Open

This item appears in the following Collection(s)

Τμήμα Βιολογικών Επιστημών / Department of Biological Sciences [82]

Show simple item record