Show simple item record

dc.contributor.advisorPromponas, Vasilisen
dc.contributor.authorKirmitzoglou, Ioannis K.en
dc.coverage.spatialΚύπροςel
dc.coverage.spatialCyprusen
dc.creatorKirmitzoglou, Ioannis K.en
dc.date.accessioned2014-09-26T09:16:14Z
dc.date.accessioned2017-08-03T09:24:59Z
dc.date.available2014-09-26T09:16:14Z
dc.date.available2017-08-03T09:24:59Z
dc.date.copyright2014-09
dc.date.issued2014-09
dc.date.submitted2014-09-26
dc.identifier.urihttps://gnosis.library.ucy.ac.cy/handle/7/39099
dc.descriptionIncludes bibliographical references.en
dc.descriptionNumber of sources in the bibliography: 156en
dc.descriptionThesis (Ph. D.) -- University of Cyprus, Faculty of Pure and Applied Sciences, Department of Biological Sciences, 2014.en
dc.descriptionThe University of Cyprus Library holds the printed form of the thesis.en
dc.description.abstractΠολλές πρωτεΐνες είναι εμπλουτισμένες σε περιοχές με ακραία αμινοξική σύσταση. Έχει δειχθεί ότι τέτοιες πρωτεΐνες διαδραματίζουν σημαντικούς βιολογικούς ρόλους αλλά, λόγω των ιδιαίτερων βιοχημικών ιδιοτήτων τους, η μελέτη τους έχει αποδειχθεί δύσκολη μέχρι τώρα. Επιπρόσθετα, τέτοιες περιοχές με χαμηλή πολυπλοκότητα (ΠΧΠ), αποκλίνουν ξεκάθαρα από το μοντέλο τυχαίας σύστασης που χρησιμοποιείται για τον υπολογισμό της στατιστικής σημαντικότητας των αποτελεσμάτων αναζήτησης σε βάσεις δεδομένων πρωτεϊνικών αλληλουχιών. Αυτό έχει ως αποτέλεσμα την παραγωγή ψευδώς αληθών αποτελεσμάτων. Έχουν προταθεί πολλές προσεγγίσεις για την αντιμετώπιση αυτού του προβλήματος, αλλά η εύρεση του βέλτιστου τρόπου αντιμετώπισης αυτών των περιοχών εξακολουθεί να είναι αντικείμενο ενεργής έρευνας. Επιπρόσθετα, υπάρχει έλλειψη εργαλείων για την αναζήτηση και απεικόνιση ΠΧΠ που θα μπορούσαν να βοηθήσουν σε πιο πολύπλοκες (υπολογιστικά) προσπάθειες για την κατανόηση του βιολογικού ρόλου πρωτεϊνικών αλληλουχιών με ΠΧΠ. Ελέγξαμε και επιβεβαιώσαμε την αποτελεσματικότητα όλων των τρόπων αντιμετώπισης των ΠΧΠ που προσφέρονται από το BLAST με την προσθήκη του φιλτραρίσματος της βάσης δεδομένων με τα προγράμματα λογισμικού SEG και CAST. Επινοήσαμε μια εμπεριστατωμένη μέθοδο επαλήθευσης των σωστών αποτελεσμάτων και δείξαμε ότι οι αποτελεσματικότερες μέθοδοι αντιμετώπισης των ΠΧΠ ήταν κάποιες που δεν είχαν αξιολογηθεί μέχρι τώρα. Με βάση τα αποτελέσματα μας, προτείνουμε την εφαρμογή του φιλτραρίσματος τόσο της αλληλουχίας-ερώτημα όσο και της βάσης δεδομένων με το CAST σε όλες τις μεγάλης κλίμακας μελέτες συγκριτικής γονιδιωματικής. Αυτή η προσέγγιση δείχθηκε να μειώνει τις υπολογιστικές απαιτήσεις αυξάνοντας ταυτόχρονα την ευαισθησία της εύρεσης ομολόγων. Προκειμένου να επιταχύνουμε την ευρύτερη υιοθέτηση του CAST από την επιστημονική κοινότητα, αναπτύξαμε μία νέα έκδοση με σημαντικές βελτιώσεις στην ταχύτητα του και με επιπρόσθετα χαρακτηριστικά που κάνουν τη χρήση σε πλήρως αυτοματοποιημένα περιβάλλοντα ακόμα ευκολότερη. Αναπτύξαμε τον LCR-eXXXplorer, ένα καινοτόμο διαδικτυακό τόπο με μοναδικά διεθνώς εργαλεία στοχευμένα στους ερευνητές που ενδιαφέρονται για τις ΠΧΠ. Συγκρινόμενος με τις λίγες άλλες παρόμοιες υπηρεσίες, ο LCR-eXXXplorer όχι μόνο προσφέρει στους ερευνητές την δυνατότητα να αναζητήσουν εύκολα και γρήγορα μεταξύ εκατομμυρίων σχολιασμένων ΠΧΠ, αλλά και να τις απεικονίσουν με ένα ευέλικτο και λειτουργικό τρόπο που επιτρέπει την άμεση σύγκριση με σχολιασμούς άλλων βάσεων δεδομένων (όπως η UniProtKB) αλλά και προγνώσεων που σχετίζονται με τις ΠΧΠ. Χρησιμοποιώντας τα εργαλεία που αναπτύχθηκαν κατά την διάρκεια αυτής τη μελέτης, εξερευνήσαμε την χρηστικότητα γνωρισμάτων που βασίζονται στην ολική και τοπική αμινοξική σύσταση πρωτεϊνών που κωδικοποιούνται από πλήρη γονιδιώματα για την πρόγνωση φαινοτυπικών χαρακτηριστικών των αντίστοιχων ειδών. Συγκεκριμένα, χρησιμοποιήσαμε μια σειρά από πλήρως αλληλουχημένα γονιδιώματα στελεχών του γένους Escherichia για την πρόγνωση της παθογονικότητας κάθε στελέχους. Πραγματοποιώντας εκτενείς προσομοιώσεις με τεχνητά σύνολα δεδομένων που προσομοίωναν πρωτεϊνικά υποσύνολα από ημιτελείς μετα-γονιδιωματικές συλλογές, δείξαμε ότι η πρόγνωση της παθογονικότητας με υψηλή ακρίβεια είναι δυνατή ακόμα και με τόσο περιορισμένη πληροφορία. Τα πρωτότυπα αποτελέσματά μας ανοίγουν νέες κατευθύνσεις για επιπρόσθετη έρευνα τόσο στην ορθή επικύρωση των εργαλείων αναζήτησης ομοιότητας όσο και στην σωστή υλοποίηση μεγάλης κλίμακας πειραμάτων αναζήτησης αλληλουχιών. Επιπρόσθετα, αναμένουμε ότι η προσέγγισή μας για την αξιοποίηση υπογραφών βασισμένων στην αμινοξική σύσταση (πιθανώς ημιτελών) (μέτα-) γονιδιωματικών δεδομένων μπορεί εύκολα να επεκταθεί για να καλύπτει και άλλα είδη και μπορεί να χρησιμοποιηθεί σε σημαντικές εφαρμογές βιοασφάλειας όπως είναι η συνεχής επιτήρηση για ξεσπάσματα επιδημιών.el
dc.description.abstractMany proteins are enriched in segments of extreme amino acid compositions. Such compositionally biased proteins are increasingly shown to play important biological roles but, due to their biochemical properties, they have been hard to study so far. In addition, such segments of low complexity clearly deviate from the random model used to evaluate the statistical significance of database search algorithms, leading to the production of (often large numbers of) false positive similarity detection cases. Several approaches have been proposed for addressing this drawback, but finding the most effective way to deal with such regions is still a subject of active research. Moreover, there is a lack of readily accessible tools for searching and visualizing low complexity regions (LCRs) which may facilitate more advanced (computational) approaches for elucidating the biological roles of LCR-containing proteins. In this work we tested and verified the effectiveness of all LCR-handling methods offered by BLAST with the addition of database masking with CAST or SEG. We devised a comprehensive validation approach and demonstrated that yet untested schemes are the most appropriate for this task. More specifically, we propose that two-way CAST masking should be adopted in large-scale computational comparative genomics studies, especially for datasets with high LCR content. This approach is shown to guarantee the reduction of necessary computational resources (CPU time, storage space) while increasing the sensitivity of homolog detection. To facilitate the wider adoption of CAST, we also developed a new version with significant speed-up improvements and pipeline-friendly features. Moreover, we developed LCR-eXXXplorer, a novel web-based system with unique properties and features for researchers interested in LCRs. Compared to the few similar services available, LCR-eXXXplorer not only provides researches with the ability to easily and accurately search among millions of annotated LCRs, but also to display them in an attractive and functional fashion, allowing direct comparison with annotations stored in other online databases, such as UniProtKB, and predicted properties commonly associated with LCRs. This system is designed in a modular way, enabling future addition of other datasets or support of additional LCR-detection algorithms. Using the tools developed in this study, we investigated the utility of global and local compositional features computed from proteins encoded in complete genomes for predicting phenotypic traits of the respective species. More specifically, we used a number of completely sequenced genomes of species/strains of the genus Escherichia for predicting the pathogenicity of each strain. By performing extensive simulations with artificial datasets resembling protein subsets from incomplete metagenomic assemblies we illustrate that even with such limited information accurate prediction of pathogenicity is feasible. Our original findings open new directions for further research both in the proper validation of sequence similarity search tools and in the proper implementation of large-scale sequence search pipelines. Furthermore, we anticipate that our approach for utilizing compositional signatures from (possibly incomplete) (meta-) genomic data may be easily extended to cover other lineages and be directly applicable in important biosafety applications, such as epidemiological monitoring.en
dc.format.extentxiv, 199 p. : col. ill. ; 30 cm.en
dc.language.isoengen
dc.publisherΠανεπιστήμιο Κύπρου, Σχολή Θετικών και Εφαρμοσμένων Επιστημών / University of Cyprus, Faculty of Pure and Applied Sciences
dc.rightsinfo:eu-repo/semantics/openAccessen
dc.rightsOpen Accessen
dc.subject.lcshBioinformaticsen
dc.subject.lcshComputational biologyen
dc.subject.lcshSequence Analysis Methodsen
dc.subject.lcshProteins Analysisen
dc.subject.lcshBiology Data processingen
dc.titleDevelopment of algorithms and software for unravelling the biological role of low complexity regions in protein sequencesen
dc.title.alternativeΑνάπτυξη αλγορίθμων και λογισμικού για τον προσδιορισμό του βιολογικού ρόλου των περιοχών χαμηλής πολυπλοκότητας σε πρωτεϊνικές αλληλουχίεςel
dc.typeinfo:eu-repo/semantics/doctoralThesis
dc.contributor.committeememberΠρομπονάς, Βασίληςel
dc.contributor.committeememberΚωστρίκης, Λεόντιοςel
dc.contributor.committeememberΣκουρίδης, Πάρηςel
dc.contributor.committeememberΟυζούνης, Χρήστοςel
dc.contributor.committeememberΗλιόπουλος, Ιωάννηςel
dc.contributor.committeememberPromponas, Vasilisen
dc.contributor.committeememberKostrikis, Leondiosen
dc.contributor.committeememberSkourides, Parisen
dc.contributor.committeememberOuzounis, Christosen
dc.contributor.committeememberIliopoulos, Ioannisen
dc.contributor.departmentΠανεπιστήμιο Κύπρου, Σχολή Θετικών και Εφαρμοσμένων Επιστημών, Τμήμα Βιολογικών Επιστημώνel
dc.contributor.departmentUniversity of Cyprus, Faculty of Pure and Applied Sciences, Department of Biological Sciencesen
dc.subject.uncontrolledtermΠΕΡΙΟΧΕΣ ΧΑΜΗΛΗΣ ΠΟΛΥΠΛΟΚΟΤΗΤΑΣel
dc.subject.uncontrolledtermΠΕΡΙΟΧΕΣ ΑΚΡΑΙΑΣ ΑΜΙΝΟΞΙΚΗΣ ΣΥΣΤΑΣΗΣel
dc.subject.uncontrolledtermΑΝΑΛΥΣΗ ΑΛΛΗΛΟΥΧΙΑΣel
dc.subject.uncontrolledtermΒΙΟΠΛΗΡΟΦΟΡΙΚΗel
dc.subject.uncontrolledtermΑΛΓΟΡΙΘΜΟΙel
dc.subject.uncontrolledtermΔΙΑΔΙΚΤΙΑΚΕΣ ΥΠΗΡΕΣΙΕΣel
dc.subject.uncontrolledtermLOW COMPLEXITY REGIONSen
dc.subject.uncontrolledtermCOMPOSITIONALLY BIASED REGIONSen
dc.subject.uncontrolledtermSEQUENCE ANALYSISen
dc.subject.uncontrolledtermBIOINFORMATICSen
dc.subject.uncontrolledtermWEB SERVICESen
dc.identifier.lcQH324.2.K88 2014en
dc.author.facultyΣχολή Θετικών και Εφαρμοσμένων Επιστημών / Faculty of Pure and Applied Sciences
dc.author.departmentΤμήμα Βιολογικών Επιστημών / Department of Biological Sciences
dc.type.uhtypeDoctoral Thesis
dc.rights.embargodate2016-09-18


Files in this item

Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record