Hardening modern systems and services for protecting user privacy

In today's digital landscape, user privacy stands as a fundamental pillar. Safeguarding personal data is not merely a responsibility but a crucial right that bolsters trust, autonomy, and cybersecurity. Upholding privacy nurtures a safe space for innovation and free expression online, contributing to a more ethical digital realm for all. Therefore, modern systems and services must prioritise safeguarding user privacy as a fundamental principle. Given the long history of data breach incidents compromising users' personal information, even on prestigious web services, one approach in this direction involves hardening password-based authentication systems. However, instead of solely bolstering the security of these systems, a more pragmatic stance involves transforming them to protect users’ privacy even when fully compromised. This strategy equips web services with an additional layer of security, particularly valuable in adverse scenarios. Nonetheless, users' privacy can face threats beyond the realm of breaking password-based authentication. For instance, modern systems and services heavily rely on Machine Learning (ML) technologies to perform diverse tasks, including face recognition and medical diagnosis. These systems, if exploited, can significantly jeopardise user privacy. This risk becomes particularly pronounced in scenarios where the training dataset contains sensitive information, such as biomedical records or location traces. Indeed, over the past decade, a substantial body of work has introduced sophisticated attack methodologies exploiting the stochastic nature of ML models. To this end, another promising direction for protecting user privacy involves hardening ML-based systems and services. Developing robust and widely applicable defenses, however, necessitates a thorough understanding and practical evaluation of state-of-the-art attacks targeting ML-based systems. Armed with such knowledge, the scientific community can then devise strategies to defend ML-based systems and services against contemporary adversaries. In this PhD thesis, we explore both directions. Initially, within the realm of password-based authentication, this study focuses on advancing honeyword-based methodologies for timely detecting compromised credentials. More specifically, we address two key shortcomings related to honeywords by introducing two distinct frameworks that build on top of each other. First, we present \honeygen{}, a technique for generating realistic-looking honeywords that cause state-of-the-art adversaries to fail when attempting to distinguish them. Second, we propose \lethe{}, a honeyword-based framework that does not require any persistent (located in storage) secret state or an always trusted honeychecker to function as expected. Moving on to ML-based systems and services, this research evaluates the risks posed to such systems by contemporary attacks under practical settings and minimal adversarial assumptions. We do this by investigating two privacy attacks, Model Inversion (MI) and MEmbership Inference (MEI), as well as one security attack, Adversarial Text Generation (ATG). Our findings indicate that while ML-based systems and services are susceptible to black-box MI and ATG attacks, they are less so against black-box MEI attacks.

Στο σημερινό ψηφιακό τοπίο, το απόρρητο των χρηστών αποτελεί θεμελιώδη πυλώνα. Η προστασία των προσωπικών δεδομένων δεν είναι απλώς ευθύνη, αλλά ένα κρίσιμο δικαίωμα που ενισχύει την εμπιστοσύνη, την αυτονομία και την ασφάλεια στον κυβερνοχώρο. Η διατήρηση του απορρήτου καλλιεργεί έναν ασφαλή χώρο για καινοτομία και ελεύθερη έκφραση στο διαδίκτυο, συμβάλλοντας σε μια πιο ηθική ψηφιακή σφαίρα για όλους. Ως εκ τούτου, τα σύγχρονα συστήματα και υπηρεσίες πρέπει να δίνουν προτεραιότητα στη διαφύλαξη του απορρήτου των χρηστών ως θεμελιώδη αρχή. Δεδομένης της μακράς ιστορίας περιστατικών παραβίασης δεδομένων που διακυβεύουν τις προσωπικές πληροφορίες των χρηστών, ακόμη και σε υψηλού κύρους διαδικτυακές υπηρεσίες, μια προσέγγιση προς αυτή την κατεύθυνση περιλαμβάνει την ενίσχυση των συστημάτων ελέγχου ταυτότητας που βασίζονται σε κωδικό πρόσβασης. Ωστόσο, αντί να ενισχύεται αποκλειστικά η ασφάλεια αυτών των συστημάτων, μια πιο ρεαλιστική στάση περιλαμβάνει τον μετασχηματισμό τους για την προστασία του απορρήτου των χρηστών ακόμη και όταν έχουν παραβιαστεί πλήρως. Αυτή η στρατηγική εξοπλίζει τις υπηρεσίες διαδικτύου με ένα πρόσθετο επίπεδο ασφάλειας, ιδιαίτερα πολύτιμο σε δυσμενή σενάρια. Ωστόσο, το απόρρητο των χρηστών μπορεί να αντιμετωπίσει απειλές πέρα από τη σφαίρα της παραβίασης του ελέγχου ταυτότητας βάσει κωδικού πρόσβασης. Για παράδειγμα, τα σύγχρονα συστήματα και υπηρεσίες βασίζονται σε μεγάλο βαθμό στις τεχνολογίες Μηχανικής Μάθησης (ΜΜ) για την εκτέλεση ποικίλων εργασιών, συμπεριλαμβανομένης της αναγνώρισης προσώπου και της ιατρικής διάγνωσης. Αυτά τα συστήματα, εάν γίνουν αντικείμενο εκμετάλλευσης, μπορούν να θέσουν σε κίνδυνο το απόρρητο των χρηστών. Αυτός ο κίνδυνος γίνεται ιδιαίτερα σημαντικός σε σενάρια όπου το σύνολο δεδομένων εκπαίδευσης περιέχει ευαίσθητες πληροφορίες, όπως βιοϊατρικά αρχεία ή ίχνη τοποθεσίας. Πράγματι, την τελευταία δεκαετία, ένα σημαντικό μέρος της βιβλιογραφίας έχει προτείνει εξελιγμένες μεθοδολογίες επίθεσης που εκμεταλλεύονται τη στοχαστική φύση των μοντέλων ΜΜ. Για το σκοπό αυτό, μια άλλη πολλά υποσχόμενη κατεύθυνση για την προστασία του απορρήτου των χρηστών περιλαμβάνει τη σκλήρυνση συστημάτων και υπηρεσιών που βασίζονται σε ΜΜ. Ωστόσο, η ανάπτυξη ισχυρών και ευρέως εφαρμόσιμων αμυνών απαιτεί την ενδελεχή κατανόηση και πρακτική αξιολόγηση των υπερσύγχρονων επιθέσεων που στοχεύουν συστήματα που βασίζονται σε ΜΜ. Οπλισμένη με τέτοιες γνώσεις, η επιστημονική κοινότητα μπορεί στη συνέχεια να επινοήσει στρατηγικές για την υπεράσπιση συστημάτων και υπηρεσιών που βασίζονται σε ΜΜ έναντι των σύγχρονων αντιπάλων. Σε αυτή τη διδακτορική διατριβή, διερευνούμε και τις δύο κατευθύνσεις. Αρχικά, στο πεδίο του ελέγχου ταυτότητας βάσει κωδικού πρόσβασης, αυτή η μελέτη εστιάζει στην προώθηση μεθοδολογιών που βασίζονται σε λέξεις μελιού για τον έγκαιρο εντοπισμό παραβιασμένων διαπιστευτηρίων. Πιο συγκεκριμένα, αντιμετωπίζουμε δύο βασικές ελλείψεις που σχετίζονται με τις λέξεις μελιού, εισάγοντας δύο ξεχωριστά πλαίσια που στηρίζονται το ένα πάνω στο άλλο. Αρχικά, παρουσιάζουμε το HoneyGen, μια τεχνική για τη δημιουργία ρεαλιστικών λέξεων μελιού που προκαλούν την αποτυχία των αντιπάλων τελευταίας τεχνολογίας όταν προσπαθούν να τους διακρίνουν. Δεύτερον, προτείνουμε το Lethe, ένα πλαίσιο βασισμένο σε λέξεις μελιού που δεν απαιτεί καμία επίμονη (που βρίσκεται στον μόνιμο χώρο αποθήκευσης) μυστική κατάσταση ή έναν πάντα αξιόπιστο ελεγκτή μελιού για να λειτουργήσει όπως αναμένεται. Προχωρώντας σε συστήματα και υπηρεσίες που βασίζονται σε ΜΜ, αυτή η έρευνα αξιολογεί τους κινδύνους που ενέχουν τέτοια συστήματα από σύγχρονες επιθέσεις κάτω από πρακτικές ρυθμίσεις και ελάχιστες υποθέσεις αντιπάλου. Αυτό το κάνουμε διερευνώντας δύο επιθέσεις απορρήτου, συγκεκριμένα την Αντιστροφή Μοντέλου (ΑΜ) και το Συμπερασμό Μελών (ΣΜ), καθώς και μια επίθεση ασφαλείας, τη Δημιουργία Αντιφατικού Κειμένου (ΔΑΚ). Τα ευρήματά μας δείχνουν ότι ενώ τα συστήματα και οι υπηρεσίες που βασίζονται σε ΜΜ είναι επιρρεπή σε επιθέσεις ΑΜ και ΔΑΚ μαύρου κουτιού, είναι λιγότερο επιρρεπείς σε επιθέσεις ΣΜ μαύρου κουτιού.

URI

http://gnosis.library.ucy.ac.cy/handle/7/66170

Collections

Τμήμα Πληροφορικής / Department of Computer Science [78]

Cite as

The following license files are associated with this item:

Creative Commons

Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess