An algorithm agnostic framework for the evaluation and learning of robust classifiers for data under uncertainty
View/ Open
Date
2020-05Author
Charalambous, Elisavet A.Publisher
Πανεπιστήμιο Κύπρου, Πολυτεχνική Σχολή / University of Cyprus, Faculty of EngineeringPlace of publication
CyprusGoogle Scholar check
Keyword(s):
Metadata
Show full item recordAbstract
Η Μηχανική Εκμάθηση (ΜΕ) χρησιμοποιείται σε αυξανόμενο αριθμό προβλημάτων εξαιτίας των δυνατοτήτων ταξινόμησης και ομαδοποίησης, σε ένα ευρύ φάσμα εφαρμογών στην επιστήμη, τη μηχανική, τις κοινωνικές επιστήμες και τις ανθρωπιστικές επιστήμες, συμπεριλαμβανομένης της αρχαιολογίας και της ασφάλειας.
Η αποτελεσματικότητα ενός αλγορίθμου στην σωστή ταξινόμηση των δειγμάτων στην επιθυμητή κλάση επηρεάζεται από παράγοντες όπως τα εγγενή χαρακτηριστικά του και η παραμετροποίηση, η εκπαίδευση και οι μέθοδοι αξιολόγησης καθώς και η καταλληλότητα του συνόλου δεδομένων εισαγωγής. Ως αποτέλεσμα, η απόδοση ενός αλγορίθμου μπορεί να επηρεαστεί σε μεγάλο βαθμό από τη μεταβλητότητα οποιουδήποτε από αυτούς τους παράγοντες, όταν δεν είχε προηγουμένως ληφθεί υπόψη. Σήμερα, οι τεχνικές ΜΕ βρίσκουν εφαρμογή σε αμέτρητα πεδία για την επίλυση προβλημάτων που κυμαίνονται από πολύ απλά έως πολύ περίπλοκα. Αυτά συνήθως βασίζονται σε πρότυπα και συμπεράσματα.
Είναι σημαντικό να αναπτυχθούν μέθοδοι και μετρήσεις, γενικευμένες από οποιοδήποτε αλγόριθμο, που να επιτρέπουν την εκτίμηση της ικανότητας ενός μοντέλου να παράγει με συνέπεια αποδεκτά αποτελέσματα. μια διαδικασία που δεν είναι απλή. Σε αυτή τη διατριβή, προτείνουμε μια γενικευμένη αλγοριθμικά μεθοδολογία για την εκμάθηση ισχυρών ταξινομητών για δεδομένα με αβεβαιότητα. Η προτεινόμενη μεθοδολογία είναι ανεξάρτητη της επιλεγμένης μεθόδου ταξινόμησης και προκύπτει ως αποτέλεσμα διεξοδικής ανάλυσης παραγόντων που επηρεάζουν το αποτέλεσμα ταξινόμησης και προκύπτουν από παράγοντες που σχετίζονται με τον τομέα εφαρμογής και τα χαρακτηριστικά του συνόλου δεδομένων. Ο αναπτυγμένος σχεδιασμός ακολουθεί μια συστηματική προσέγγιση και καθιερωμένες μεθόδους, όπως bootstraping με αντικατάσταση και τις δοκιμές διασταυρούμενης επικύρωσης 5x2 (ζεύγη δοκιμής t και δοκιμής F), για να διασφαλιστεί ότι τα αποτελέσματα είναι στατιστικά σημαντικά.
Τα παραγόμενα αποτελέσματα δείχνουν ότι η αξιολόγηση της ευρωστίας στην ταξινόμηση είναι δυνατή, ενώ η διερεύνηση σχέσεων μεταξύ τάξεων στα αποτελέσματα ταξινόμησης μπορεί να παρέχει στους ειδικούς ερευνητές πρόσθετες πληροφορίες για δείγματα δεδομένων με χαμηλή εμπιστοσύνη ταξινόμησης.
Η προτεινόμενη μεθοδολογία έχει επικυρωθεί σε δύο μελέτες περιπτώσεων: (α) ταξινόμηση σπάνιων χημικών συνθέσεων αρχαιολογικών δεδομένων από κεραμικά και, (β) ταξινόμηση ηχητικών δειγμάτων για ανίχνευση ακουστικών συμβάντων στον τομέα της ευφυούς παρακολούθησης για λόγους ασφαλείας. Τέλος, ένα ανοιχτού κώδικα διαδικτυακό εργαλείο που πραγματοποιεί το προτεινόμενο πλαίσιο παρουσιάζεται για χρήση από άλλους επιστήμονες και ειδικούς σε θέματα εφαρμογών. Machine Learning (ML) has become in the recent years increasingly ubiquitous for its classification and clustering capabilities, with a wide range of applications in science, engineering, social sciences, and humanities, including archaeology and security.
An algorithm’s effectiveness in correctly classifying samples to the desired class is influenced by factors such as its intrinsic characteristics and parametrization, training, and evaluation methods as well as the appropriateness of the input dataset. As a result, an algorithm’s performance may be greatly influenced with variability of any of these factors, when it has not been previously considered. Nowadays, ML techniques find applicability to countless domains towards the resolution of problems that range from very simple to very complex; these usually rely on patterns and inference.
It has become rather important to develop methods and metrics, algorithmic agnostic, that allow estimating a models’ ability of consistently producing acceptable results; a practice that is non trivial. In this Thesis, we propose an algorithmic agnostic methodology for learning robust classifiers for data with uncertainties. The proposed methodology is agnostic of the selected classification method and emerges as a result of thorough analysis of factors that influence the classification result and emerge from factors related to the application domain and dataset characteristics. The developed design follows a systematic approach and well-established methods, such as bootstrapping with replacement and the 5x2 cross validation (paired t-test and F-test) tests, to ensure the results are statistically significant.
The produced results indicate that the evaluation of robustness in classification is possible, while investigation of inter-class relationships on classification results may provide expert researchers with additional information for data samples with low classification confidence.
The suggested methodology has been validated against two case studies: (a) classification of scarce chemical compositional archaeological data from ceramics and, (b) classification of audio samples for acoustic event detection in the field of intelligent surveillance for security purposes. Finally, an open source web-based tool realising the proposed framework is presented for use by other scientists and application domain experts.