Show simple item record

dc.contributor.advisorPattichis, Constantinosen
dc.contributor.authorAristodimou, Aristos P.en
dc.coverage.spatialCyprusen
dc.creatorAristodimou, Aristos P.en
dc.date.accessioned2022-07-05T07:48:53Z
dc.date.available2022-07-05T07:48:53Z
dc.date.issued2020-01
dc.date.submitted2020-01-22
dc.identifier.urihttp://gnosis.library.ucy.ac.cy/handle/7/65348en
dc.descriptionIncludes bibliographical references (p. 116-125).en
dc.descriptionNumber of sources in the bibliography: 131.en
dc.descriptionThesis (Ph. D.) -- University of Cyprus, Faculty of Pure and Applied Sciences, Department of Computer Science, 2020.en
dc.descriptionThe University of Cyprus Library holds the printed form of the thesis.en
dc.description.abstractΜε την εισαγωγή της επιστήμης της πληροφορικής στον τομέα της υγείας, πολλές οντότητες που συσχετίζονται με την υγεία, έχουν στην κατοχή τους τεράστιο όγκο από δεδομένα ασθενών. Παρά το γεγονός ότι η κοινοποίηση αυτών των δεδομένων σε ερευνητές μπορεί να αυξήσει την πιθανότητα ανακάλυψης καινοτόμων ευρημάτων, αυτό δεν είναι δυνατό λόγο νομικών και ηθικών ζητημάτων. Η μηχανική μάθηση μπορεί να χρησιμοποιηθεί σε αυτά τα δεδομένα για τον εντοπισμό των παραγόντων που αυξάνουν ή μειώνουν το ρίσκο κάποιος να αποκτήσει μια ασθένεια, αλλά οποιοσδήποτε αλγόριθμος που θα αναλύσει αυτά τα δεδομένα θα πρέπει να λαμβάνει υπόψη ότι οι περισσότερες κοινές ασθένειες επηρεάζονται από πολλαπλές γονιδιακές αλληλεπιδράσεις και αλληλεπιδράσεις με το περιβάλλον. Επομένως, θα πρέπει να χρησιμοποιηθούν αλγόριθμοι που επιτρέπουν την εύρεση τέτοιων αλληλεπιδράσεων. Στη διατριβή, αρχικά παρουσιάζεται ένας νέος αλγόριθμος για την ανωνυμοποίηση δεδομένων τα οποία έχουν διακριτές τιμές, μέσω κ-ανωνυμίας και αλγόριθμου επιλογής μεταβλητών, για προβλήματα ταξινόμησης. Ο αλγόριθμος αξιολογήθηκε σε διάφορα είδη ιατρικών δεδομένων και στην πλειονότητα των πειραμάτων τα ανώνυμα δεδομένα που παράχθηκαν, είχαν παρόμοια ή μεγαλύτερη ακρίβεια στην ταξινόμηση σε σχέση με τη χρήση των αρχικών μη-ανώνυμων δεδομένων. Στη συνέχεια παρουσιάζεται ένας καινούριος αλγόριθμος για τη μετατροπή συνεχών μεταβλητών σε διακριτές, με βάση την πυκνότητα των τιμών των μεταβλητών. Η μέθοδος αυτή έχει παρόμοιες επιδόσεις με τους αλγόριθμους που είναι ευρέως χρησιμοποιημένοι στον τομέα, και έχει το πλεονέκτημα ότι είναι υπολογιστικά αποδοτικός και μπορεί να χρησιμοποιηθεί σε μεγάλα δεδομένα. Για την αναγνώριση προτύπων σημειακών νουκλεοτιδικών πολυμορφισμών που συσχετίζονται με εμφάνιση ή όχι μιας ασθένειας, παρουσιάζεται ένας Χάρτης Αυτο-οργάνωσης για διακριτά δεδομένα. Η μέθοδος αυτή εφαρμόστηκε σε γενετικά δεδομένα και η κατηγοριοποίηση των δεδομένων που δημιούργησε ήταν στατιστικά σημαντική και αποκάλυψε ενδιαφέροντα πρότυπα που ήταν διαφορετικά μεταξύ των κατηγοριών που αντιπροσώπευαν ασθενείς και υγιή άτομα. Επίσης, προτείνεται ένα πλαίσιο για την αποτελεσματική ανακάλυψη ν-αλληλεπιδράσεων. Το πλαίσιο αυτό χρησιμοποιεί αλγόριθμους μηχανικής μάθησης για την μείωση του αριθμού των μεταβλητών ενός προβλήματος και για τη μείωση της διάστασης των μεταβλητών μετατρέποντάς τις σε δυαδική μορφή. Αυτό επιτρέπει την μείωση του προβλήματος των πολλαπλών συγκρίσεων και επίσης μειώνει τους βαθμούς ελευθερίας των στατιστικών υποθέσεων, το οποίο αυξάνει την στατιστική δύναμη για την αναγνώριση των ν-αλληλεπιδράσεων που συσχετίζονται με εμφάνιση ή όχι μιας ασθένειας. Τα αποτελέσματα δείχνουν ότι με τη νέα κωδικοποίηση, το προτεινόμενο πλαίσιο ήταν σε θέση να αναγνωρίσει περισσότερες στατιστικά σημαντικές ν-αλληλεπιδράσεις σε σύγκριση με τη χρήση της αρχικής κωδικοποίησης των μεταβλητών.el
dc.description.abstractIn recent years, with the infiltration of information technology in healthcare, many healthcare related entities, have vast amounts of patients' data. Although sharing such data can increase the likelihood of identifying novel findings or even replicating existing research results, this is not happening due to legal and ethical issues. Machine learning can be used on such datasets to identify risk factors that can be used to improve our lives, but any algorithms that will analyze such data should take into consideration that most common diseases are influenced by multiple gene interactions and interactions with the environment. Hence they should use models that allow the finding of such multivariate associations. This thesis initially presents a novel algorithm for anonymizing categorical data with k-anonymity and performing feature selection for classification tasks. The algorithm was evaluated on various medical datasets and in the majority of the evaluated test cases the produced anonymized data had similar or better accuracies than using the full datasets. Additionally, a novel density based discretization algorithm is presented that has similar performance with state of the art algorithms while being computationally efficient and suitable for big data. For pattern recognition of n-SNP associations in case/control data, a Self Organizing Map for nominal categorical data is presented, which was able to produce statistically significant clustering revealing some interesting patterns between the clusters of cases and controls. Finally, a framework for efficient n-Way interaction testing is presented that uses machine learning to reduce the dimensionality of the data and to produce a targeted binary encoding of the features. This enables the reduction of the multiple testing problem and the degrees of freedom of the statistical tests applied for interaction testing, and hence increases the statistical power of the performed analysis. Results indicate that with the new encoding, the proposed framework was able to identify more statistically significant interactions compared to using the initial encoding of the features.en
dc.format.extentxxi, 127 p. : tables (some col.) ; 30 cm.en
dc.language.isoengen
dc.publisherΠανεπιστήμιο Κύπρου, Σχολή Θετικών και Εφαρμοσμένων Επιστημών / University of Cyprus, Faculty of Pure and Applied Sciences
dc.rightsinfo:eu-repo/semantics/openAccessen
dc.rightsOpen Accessen
dc.subject.lcshMachine learningen
dc.subject.lcshPattern recognitionen
dc.subject.lcshMedical technologyen
dc.subject.lcshMedicine -- Data processingen
dc.subject.lcshMedical informaticsen
dc.titleMachine learning for privacy preserving data publishing and the analysis of categorical data in the medical domainen
dc.title.alternativeΜηχανική μάθηση για την δημοσίευση δεδομένων με προστασία του απορρήτου και για την ανάλυση δεδομένων με διακριτές τιμές στον τομέα της ιατρικήςel
dc.typeinfo:eu-repo/semantics/doctoralThesisen
dc.contributor.committeememberChristodoulou, Chrisen
dc.contributor.committeememberSchizas, Christos N.en
dc.contributor.committeememberSpyrou, Georgeen
dc.contributor.committeememberKoutsouris, Demetriosen
dc.contributor.departmentΠανεπιστήμιο Κύπρου, Σχολή Θετικών και Εφαρμοσμένων Επιστημών, Τμήμα Πληροφορικήςel
dc.contributor.departmentUniversity of Cyprus, Faculty of Pure and Applied Sciences, Department of Computer Scienceen
dc.subject.uncontrolledtermΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗel
dc.subject.uncontrolledtermΔΗΜΟΣΙΕΥΣΗ ΔΕΔΟΜΕΝΩΝ ΜΕ ΠΡΟΣΤΑΣΙΑ ΑΠΟΡΡΗΤΟΥel
dc.subject.uncontrolledtermΔΙΑΚΡΙΤΑ ΔΕΔΟΜΕΝΑel
dc.subject.uncontrolledtermΑΝΑΓΝΩΡΙΣΗ ΠΡΩΤΥΠΩΝel
dc.subject.uncontrolledtermΑΝΑΓΝΩΡΙΣΗ Ν-ΑΛΛΗΛΕΠΙΔΡΑΣΕΩΝel
dc.subject.uncontrolledtermΜΕΓΑΛΑ ΔΕΔΟΜΕΝΑel
dc.subject.uncontrolledtermΙΑΤΡΙΚΟΣ ΤΟΜΕΑΣel
dc.subject.uncontrolledtermMACHINE LEARNINGen
dc.subject.uncontrolledtermPRIVACY PRESERVING DATA PUBLISHINGen
dc.subject.uncontrolledtermDISCRETIZATIONen
dc.subject.uncontrolledtermPATTERN RECOGNITIONen
dc.subject.uncontrolledtermN-WAY INTERACTION TESTINGen
dc.subject.uncontrolledtermBIG DATAen
dc.subject.uncontrolledtermMEDICAL DOMAINen
dc.identifier.lcR858.A75 2019en
dc.author.facultyΣχολή Θετικών και Εφαρμοσμένων Επιστημών / Faculty of Pure and Applied Sciences
dc.author.departmentΤμήμα Πληροφορικής / Department of Computer Science
dc.type.uhtypeDoctoral Thesisen
dc.rights.embargodate2021-01-22
dc.contributor.orcidAristodimou, Aristos P. [0000-0003-1949-7785]
dc.contributor.orcidPattichis, Constantinos [0000-0003-1271-8151]


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record