Conditional generative denoising autoencoder
View/ Open
Date
2019-12Author
Karatsiolis, SavvasPublisher
Πανεπιστήμιο Κύπρου, Σχολή Θετικών και Εφαρμοσμένων Επιστημών / University of Cyprus, Faculty of Pure and Applied SciencesPlace of publication
ΚύπροςCyprus
Google Scholar check
Keyword(s):
Metadata
Show full item recordAbstract
Η διατριβή μελετά ανοικτά προβλήματα στο χώρο της Μηχανικής Μάθησης και προτείνει μοντέλα επίλυσης ή μετριασμού τους. Ένα από αυτά τα προβλήματα είναι η σύνθεση εικόνων που υπόκειται σε συγκεκριμένες συνθήκες. Προτείνεται ένα πρωτότυπο μοντέλο με σαφές μαθηματικό υπόβαθρο που στηρίζει την λειτουργία του στον κλασσικό κωδικοποιητή αφαίρεσης θορύβου (denoising autoencoder). Το μοντέλο παράγει εικόνες βασισμένο στις προτιμήσεις του χρήστη ως προς το αν αυτός επιθυμεί να αποκομίσει εικόνες που ανήκουν σε κάποια ή κάποιες επιλεγμένες κατηγορίες και ταυτόχρονα αποκλείουν κάποιες άλλες επιλεγμένες κατηγορίες του πεδίου εκπαίδευσης. Για παράδειγμα, αν το μοντέλο εκπαιδευτεί στην παραγωγή εικόνων προσώπων που κατέχουν συγκεκριμένα χαρακτηριστικά όπως χρώμα μαλλιών και ματιών, σχήμα προσώπου, φύλο, παρουσία μουστακιού ή γενειάδας, παρουσία γυαλιών ή καπέλου, κατάταξη ηλικίας κλπ., το μοντέλο μπορεί να συνθέσει εικόνες προσώπων που κατέχουν κάποια συγκεκριμένα από αυτά τα χαρακτηριστικά και ταυτόχρονα να μην κατέχουν κάποια άλλα. Η αξία του προτεινόμενου μοντέλου έγκειται στην ικανότητα του να παράγει εικόνες καλής ποιότητας σύμφωνα με τις προκαθορισμένες απαιτήσεις χαρακτηριστικών αλλά και στο γεγονός ότι ο αριθμός των διαθέσιμων μοντέλων μάθησης μηχανών που διεκπεραιώνουν την ίδια λειτουργία είναι ελάχιστος σε αριθμό και η ποιότητα των εικόνων που παράγουν είναι γενικά μέτρια.
Η δεύτερη μελέτη ασχολείται με την μετάφραση εικόνων από ένα πεδίο σε άλλο. Προτείνεται ένα αρθρωτό μοντέλο που δέχεται μια εικόνα από ένα πηγαίο πεδίο και τη μεταφράζει σε μια αντίστοιχη εικόνα που ανήκει στο στοχευμένο πεδίο. Η εικόνα εισόδου διατηρεί σημαντικό μέρος της σημειολογίας της αλλά αναπαρίσταται με διαφορετικό τρόπο ο οποίος είναι συμβατός με το πεδίο εξόδου. Το μοντέλο αποτελείται από αυτόνομα δίκτυα που εκπαιδεύονται ξεχωριστά και ακολούθως ενσωματώνονται σε μια κοινή αρχιτεκτονική.
Η τρίτη μελέτη ασχολείται με τη βελτίωση γενίκευσης της διαδικασίας ταξινόμησης επιτρέποντας την επιλογή διαφορετικής επεξεργασίας για ένα μοτίβο, ανάλογα με την περιοχή εισόδου στην οποία ανήκει. Το προτεινόμενο μοντέλο υιοθετεί την παραδοχή ότι διαφορετικά μοτίβα προερχόμενα από ένα πεδίο πληροφορίας δύναται να κωδικοποιούν διαφορετικά χαρακτηριστικά ανάλογα με την περιοχή της πληροφορίας από την οποία προέρχονται. Συνεπώς, η ομαδοποίηση των παραδειγμάτων μάθησης αναλόγως του βαθμού πολυπλοκότητας που απαιτείται για την ταξινόμησή τους, αποδεικνύεται χρήσιμη πηγή πληροφόρησης για τη φύση της επεξεργασίας που πρέπει να εφαρμόσει ο ταξινομητής.
Η τέταρτη μελέτη ασχολείται με την μετρίαση του προβλήματος μη ισορροπημένων συνόλων δεδομένων. Το συγκεκριμένο πρόβλημα είναι συχνό σε προβλήματα Μηχανικής Μάθησης που πραγματεύονται ιατρικά δεδομένα και ιδιαίτερα όταν τα δεδομένα αφορούν σπάνιες ασθένειες. Η μη ισορροπημένη πληροφορία έχει ισχυρά αρνητική επίδραση στην αποτελεσματικότητα των αλγόριθμων ταξινόμησης. Προτείνεται μία νέα προσέγγιση η οποία έχει ως στόχο την αναγνώριση των περιοχών της πληροφορίας που αντιστοιχεί στα τοπικά ελάχιστα και μέγιστα της συνάρτησης του μοντέλου. Ακολούθως, αυτές οι αντιστοιχίες χρησιμοποιούνται για την εκπαίδευση των παραμέτρων του μοντέλου. Με αυτό τον τρόπο, επιτυγχάνεται ο μετριασμός της επίδρασης του φαινομένου της μη ισορροπημένης πληροφορίας.
Η τελευταία μελέτη ασχολείται με τον υπολογισμό αποτελεσματικών χαρακτηριστικών αναπαράστασης για προβλήματα ταξινόμησης και βασίζεται στη μεγιστοποίηση της απόστασης μεταξύ των χαρακτηριστικών που αφορούν δεδομένα διαφορετικών κατηγοριών. Η χαρτογράφηση των χαρακτηριστικών γίνεται με συγκεκριμένα κριτήρια τα οποία συνθέτουν μια συνάρτηση βελτιστοποίησης της οποία η επίλυση προσφέρει κατανοητές μαθηματικές εκφράσεις, που όταν εφαρμοστούν στα δεδομένα του προβλήματος, παράγουν αναπαραστάσεις των βασικών δομών της πληροφορίας. This thesis investigates several open research problems in Machine Learning and proposes methodologies that deal with them or mitigate their effect. One such problem is image generation according to specific characteristics. The first study proposes an original model and its mathematical foundation whose functionality relies on the conventional denoising autoencoder. The model generates images according to the user’s preferences defining both the desired and the undesired image characteristics that are evident in the training dataset. For example, assuming the model is trained for generating images of faces that may or may not possess some specific characteristics like eye and hair color, face shape, gender, presence of a moustache or a beard, wearing a hat or glasses, being old or young etc., then it is able to generate images of faces possessing or not such characteristics. The value of the proposed model rises from its ability to generate good quality images according to predefined conditions (data labels), while the available Machine Learning models performing the specific task are very few in number and generally perform moderately.
The second study deals with image translation from one domain to another domain. It proposes a modular model that takes an image from the source domain and translates it to a corresponding image belonging to the target domain. The original image maintains a significant amount of its semantics but is represented in a way compatible to the output domain. The model is composed of individual, separately trained networks that are then embedded into a unified architecture.
The third study deals with improving the generalization ability of the classification process by allowing the selection of a different model function, depending on the region of the input space to which a pattern belongs. The suggested model makes the assumption that different patterns of the same domain may contain different features depending on the region of information they represent. Consequently, clustering the problem patterns according to the complexity required for their classification proves useful for choosing the most appropriate classifier for a specific pattern.
The fourth study deals with the problem of imbalanced datasets. The specific problem is often seen in medical-related Machine Learning problems and more specifically in problems involving rare medical conditions. Imbalanced information significantly diminishes the effectiveness of classification algorithms. A new approach is proposed that aims in recognizing the input information areas that correspond to local minimums or maximums of the model function. These associations are then used to adapt the model parameters. In this way, the effect of data misbalancing is mitigated.
Finally, the last study in this thesis deals with the calculation of efficient feature mappings for classification problems and relies on maximizing the distance between the feature mappings of patterns belonging to different problem classes. The feature mapping is performed according to specific criteria reflecting some desired qualities. These criteria compose an objective function which is optimized for providing self-explanatory mathematical functions that produce representations regarding the basic structures of the input information.