Εξερεύνηση των ∆υνατοτήτων του Αλγορίθµου Ενισχυτικής Μάθησης Dreamerv3 στο ∆υναµικό Περιβάλλον Παιχνιδιού Obstacle Tower

Τσιουρτής, Βαγγέλης

dc.contributor.advisor	Χριστοδούλου, Χρίστος	el
dc.contributor.advisor	Βασιλειάδης, Βασίλης	el
dc.contributor.author	Τσιουρτής, Βαγγέλης	el
dc.coverage.spatial	Κύπρος	el
dc.creator	Τσιουρτής, Βαγγέλης	el
dc.date.accessioned	2024-02-14T09:52:02Z
dc.date.available	2024-02-14T09:52:02Z
dc.date.issued	2024-01-11
dc.identifier.uri	http://gnosis.library.ucy.ac.cy/handle/7/66141	en
dc.description.abstract	Στόχος αυτής της διπλωματικής εργασίας είναι η διερεύνηση της απόδοσης του νέου υπερσύγχρονου αλγόριθμου ενισχυτικής μάθησης (ΕΜ) DreamerV3 [1] στο περιβάλλον Obstacle Tower [2]. Το Obstacle Tower είναι ένα περίπλοκο, δυναμικό τρισδιάστατο περιβάλλον βιντεοπαιχνιδιού που αποτελείται από α ορόφους, όπου ο κάθε όροφος παρουσιάζει ένα ευρύ φάσμα προκλήσεων (πχ. πλοήγηση σε πλατφόρμες με διαφορετικά ύψη, κινούμενες πλατφόρμες, στενά περάσματα και εμπόδια που απαιτούν ακριβή άλματα, αποφυγή εχθρών κτλ.) [2]. Σε κάθε επεισόδιο παρατηρήτε αλλαγή στην διάταξη των ορόφων του Obstacle Tower, διασφαλίζοντας έτσι την ικανότητα προσαρμογής και την καλύτερη απόδοση του πράκτορα. Η πολυπλοκότητα και η μεταβλητότητα του περιβάλλοντος Obstacle Tower το καθιστούν ιδανικό εργαλείο δοκιμών για την αξιολόγηση της προσαρμοστικότητας και των δυνατοτήτων γενίκευσης των αλγόριθμων ΕΜ. Αυτό το τυποποιημένο και προκλητικό περιβάλλον επιτρέπει δίκαιες συγκρίσεις και αποκαλύπτει πληροφορίες σχετικά με τα δυνατά και τα αδύνατα σημεία των διαφόρων αλγόριθμων [3] [4] [5] . Σε αυτή τη διπλωματική μελέτη, διερευνούμε την απόδοση του αλγόριθμου ΕΜ DreamerV3 [1] στο απαιτητικό περιβάλλον του Obstacle Tower. Ο DreamerV3 είναι ένας γενικευμένος και επεκτάσιμος αλγόριθμος ΕΜ ο οποίος βασίζεται σε μοντέλα [1] καταφέρνοντας να επιλύσει μακροπρόθεσμα προβήματα (long-horizon tasks). Ο DreamerV3 εκπαιδεύει την ’αντίληψη’ και τη ’φαντασία’ του για το περιβάλλον μέσω της άμεσης εμπειρίας του κάνοντας χρήση ενός παγκόσμιου μοντέλου (World Model Learning) που του επιτρέπει να μαθει την δυναμική του περιβάλλοντος. Κάνοντας χρήση της ’φαντασίας’ αυτής, έχει την ικανότητα να προβλέψει τη λήψη βέλτιστων αποφάσεων. Μέχρι στιγμής, οι καλύτεροι αλγόριθμοι που έχουν εφαρμοστεί στο περιβάλλον Obstacle Tower έχουν επιτύχει να επιλύσουν πάνω από 10 ορόφους, με τον καλύτερο αλγόριθμο να επιλύει κατά μέσο όρο 20 ορόφους, απόδοση που είναι παρόμοια με την απόδοση έμπειρων ανθρώπων [6]. Για να επιτύχουν υψηλότερες αποδόσεις απαιτείται η χρήση νέων αλγόριθμων με θεμελιώδεις βελτιώσεις. Με βάση τη γενικότητα, την επεκτάσιμοτητα και την ικανόνοτητα του αλγόριθμου DreamerV3 να λύνει μακροπρόθεσμα προβήματα(long-horizon tasks) μέσω της ’φαντασίας’, αναμένεται ότι αυτός ο αλγόριθμος θα μπορούσε να είναι το κλειδί για την επίτευξη καλύτερων αποτελεσμάτων στο περίπλοκο και δυναμικό περιβάλλον του Obstacle Tower. Ο DreamerV3 έχει δοκιμαστεί και αξιολογηθεί σε διάφορα περιβάλλοντα χωρίς να υπάρχει η ανάγκη συντονισμού (tuning) του σε αυτά, επιφέροντας υψηλότερη απόδοση από άλλους εξειδικευμένους αλγόριθμους - είτε βασισμένους σε μοντέλα είτε όχι [1]. Αυτές οι υψηλές αποδόσεις απέδειξαν ότι ο DreamerV3 έχει ξεπεράσει το εμπόδιο της εξειδικευμένης γνώσης, καθιστώντας έτσι ευρέως εφαρμόσιμο σε δύσκολα προβλήματα λήψης αποφάσεων [1]. Το μεγαλύτερο επίτευγμα του DreamerV3 ήταν η συλλογή διαμαντιών στο παιχνίδι Minecraft χωρίς ανθρώπινα δεδομένα ή προγράμματα σπουδών (curricula) [1] το οποίο θεωρείται μία μακροχρόνια πρόκληση στην τεχνητή νοημοσύνη [7]. Στα πλαίσια αυτής της μελέτης, εκπαιδεύουμε τον αλγόριθμο DreamerV3 στο περιβάλλον του Obstacle Tower μεταβάλλοντας τον αριθμό αναλογιών εκπαίδευσης (training ratio) και το μέγεθος του μοντέλου (model size). Αναλύουμε διάφορες μετρήσεις απόδοσης, συμπεριλαμβανομένου του ορόφου που έχει φτάσει, της διάρκειας επεισοδίου και της συσσώρευσης ανταμοιβών, για να αξιολογήσουμε την πρόοδο εκμάθησης και τη συνολική απόδοση του αλγόριθμου. Η δοκιμή του αλγόριθμου DreamerV3 στο περιβάλλον Obstacle Tower θα μας επιτρέψει να αξιολογήσουμε την ικανότητά του να μαθαίνει και να λαμβάνει αποτελεσματικές αποφάσεις σε ένα εξαιρετικά δύσκολο και άγνωστο περιβάλλον. Συγκεκριμένα, στοχεύουμε να κατανοήσουμε τα δυνατά και τα αδύνατα σημεία του, καθώς και την απόδοσή του σε σύγκριση με άλλους αλγόριθμους ΕΜ που έχουν σχεδιαστεί ειδικά για αυτό το περιβάλλον. Ακόμη ένας στόχος αυτής της μελέτης είναι η βελτιστοποίηση της απόδοσης του DreamerV3 στο περιβάλλον Obstacle Tower με την προσθήκη κάποιων επιπλέον συστατικών στοιχείων (components). Αναμένουμε ότι η εφαρμογή του αλγόριθμου DreamerV3 στο περιβάλλον του Obstacle Towerτουλάχιστον απόδοση πάνω από 20 ορόφους. Τα αποτελέσματα αυτής της μελέτης θα παράσχουν πολύτιμες πληροφορίες για την αποτελεσματικότητα του νέου αλγορίθμου DreamerV3 σε πολύπλοκα και δυναμικά περιβάλλοντα όπως ο Obstacle Tower. Επίσης τα αποτελέσματα αναμένεται να προσκομίσουν αναγνώριση πιθανών Σητημάτων που μπορεί να προκύψουν κατά την εφαρμογή του DreamerV3 στο Obstacle tower. Τα ευρήματα αυτα θα συμβάλουν στην προώθηση του πεδίου της ΕΜ και θα ρίξουν φως στις δυνατότητες του αλγόριθμου για εφαρμογές πραγματικού κόσμου που απαιτούν έξυπνη λήψη αποφάσεων σε πολύπλοκα σενάρια(π.χ. ρομποτικός πλοήγησης). θα επιτύχει μείωση της διάρκειας επεισοδίου, αύξηση της συσσώρευσης ανταμοιβών κα	el
dc.language.iso	gre	en
dc.publisher	Πανεπιστήμιο Κύπρου, Σχολή Θετικών και Εφαρμοσμένων Επιστημών / University of Cyprus, Faculty of Pure and Applied Sciences
dc.rights	info:eu-repo/semantics/openAccess	en
dc.rights	Open Access	en
dc.title	Εξερεύνηση των ∆υνατοτήτων του Αλγορίθµου Ενισχυτικής Μάθησης Dreamerv3 στο ∆υναµικό Περιβάλλον Παιχνιδιού Obstacle Tower	el
dc.title.alternative	Exploration of the Algorithm's Capabilities Dreamerv3 Reinforcement Learning in the Dynamic Obstacle Tower Game Environment	en
dc.type	info:eu-repo/semantics/masterThesis	en
dc.contributor.committeemember	Χριστοδούλου, Χρίστος	el
dc.contributor.committeemember	Βασιλειάδης, Βασίλης	el
dc.contributor.committeemember	Αριστείδου, Ανδρέας	el
dc.contributor.department	Τμήμα Πληροφορικής / Department of Computer Science
dc.subject.uncontrolledterm	ΕΝΙΣΥΤΙΚΗ ΜΑΘΗΣΗ	el
dc.subject.uncontrolledterm	ΣΥΝΘΕΤΟ ΠΕΡΙΒΑΛΛΟΝ	el
dc.subject.uncontrolledterm	ΒΑΣΕΙ ΜΟΝΤΕΛΟΥ	el
dc.subject.uncontrolledterm	ΧΩΡΙΣ ΜΟΝΤΕΛΑ	el
dc.subject.uncontrolledterm	ΜΕΤΡΗΣΕΙΣ	el
dc.subject.uncontrolledterm	ΑΠΟΔΟΣΗ	el
dc.subject.uncontrolledterm	DREAMER V3	en
dc.subject.uncontrolledterm	OBSTACLE TOWER	en
dc.author.faculty	Σχολή Θετικών και Εφαρμοσμένων Επιστημών / Faculty of Pure and Applied Sciences
dc.author.department	Τμήμα Πληροφορικής / Department of Computer Science
dc.type.uhtype	Master Thesis	en
dc.contributor.orcid	Χριστοδούλου, Χρίστος [0000-0001-9398-5256]
dc.contributor.orcid	Βασιλειάδης, Βασίλης [0000-0002-1336-5629]
dc.contributor.orcid	Aristidou, Andreas [0000-0001-7754-0791]
dc.gnosis.orcid	0000-0001-9398-5256
dc.gnosis.orcid	0000-0002-1336-5629
dc.gnosis.orcid	0000-0001-7754-0791

Αρχεία σε αυτό το τεκμήριο

Name:: Vangelis_Tsiourtis_2024_secured.pdf
Μέγεθος:: 6.245Mb
Τύπος:: PDF
Description:: Master Thesis

Προβολή/Open

Name:: license_rdf
Μέγεθος:: 1.063Kb
Τύπος:: application/rdf+xml

Προβολή/Open

Αυτό το τεκμήριο εμφανίζεται στις ακόλουθες συλλογές

Τμήμα Πληροφορικής / Department of Computer Science [110]

Εμφάνιση απλής εγγραφής