Εξερεύνηση των ∆υνατοτήτων του Αλγορίθµου Ενισχυτικής Μάθησης Dreamerv3 στο ∆υναµικό Περιβάλλον Παιχνιδιού Obstacle Tower

Στόχος αυτής της διπλωματικής εργασίας είναι η διερεύνηση της απόδοσης του νέου υπερσύγχρονου αλγόριθμου ενισχυτικής μάθησης (ΕΜ) DreamerV3 [1] στο περιβάλλον Obstacle Tower [2]. Το Obstacle Tower είναι ένα περίπλοκο, δυναμικό τρισδιάστατο περιβάλλον βιντεοπαιχνιδιού που αποτελείται από α ορόφους, όπου ο κάθε όροφος παρουσιάζει ένα ευρύ φάσμα προκλήσεων (πχ. πλοήγηση σε πλατφόρμες με διαφορετικά ύψη, κινούμενες πλατφόρμες, στενά περάσματα και εμπόδια που απαιτούν ακριβή άλματα, αποφυγή εχθρών κτλ.) [2]. Σε κάθε επεισόδιο παρατηρήτε αλλαγή στην διάταξη των ορόφων του Obstacle Tower, διασφαλίζοντας έτσι την ικανότητα προσαρμογής και την καλύτερη απόδοση του πράκτορα. Η πολυπλοκότητα και η μεταβλητότητα του περιβάλλοντος Obstacle Tower το καθιστούν ιδανικό εργαλείο δοκιμών για την αξιολόγηση της προσαρμοστικότητας και των δυνατοτήτων γενίκευσης των αλγόριθμων ΕΜ. Αυτό το τυποποιημένο και προκλητικό περιβάλλον επιτρέπει δίκαιες συγκρίσεις και αποκαλύπτει πληροφορίες σχετικά με τα δυνατά και τα αδύνατα σημεία των διαφόρων αλγόριθμων [3] [4] [5] . Σε αυτή τη διπλωματική μελέτη, διερευνούμε την απόδοση του αλγόριθμου ΕΜ DreamerV3 [1] στο απαιτητικό περιβάλλον του Obstacle Tower. Ο DreamerV3 είναι ένας γενικευμένος και επεκτάσιμος αλγόριθμος ΕΜ ο οποίος βασίζεται σε μοντέλα [1] καταφέρνοντας να επιλύσει μακροπρόθεσμα προβήματα (long-horizon tasks). Ο DreamerV3 εκπαιδεύει την ’αντίληψη’ και τη ’φαντασία’ του για το περιβάλλον μέσω της άμεσης εμπειρίας του κάνοντας χρήση ενός παγκόσμιου μοντέλου (World Model Learning) που του επιτρέπει να μαθει την δυναμική του περιβάλλοντος. Κάνοντας χρήση της ’φαντασίας’ αυτής, έχει την ικανότητα να προβλέψει τη λήψη βέλτιστων αποφάσεων. Μέχρι στιγμής, οι καλύτεροι αλγόριθμοι που έχουν εφαρμοστεί στο περιβάλλον Obstacle Tower έχουν επιτύχει να επιλύσουν πάνω από 10 ορόφους, με τον καλύτερο αλγόριθμο να επιλύει κατά μέσο όρο 20 ορόφους, απόδοση που είναι παρόμοια με την απόδοση έμπειρων ανθρώπων [6]. Για να επιτύχουν υψηλότερες αποδόσεις απαιτείται η χρήση νέων αλγόριθμων με θεμελιώδεις βελτιώσεις. Με βάση τη γενικότητα, την επεκτάσιμοτητα και την ικανόνοτητα του αλγόριθμου DreamerV3 να λύνει μακροπρόθεσμα προβήματα(long-horizon tasks) μέσω της ’φαντασίας’, αναμένεται ότι αυτός ο αλγόριθμος θα μπορούσε να είναι το κλειδί για την επίτευξη καλύτερων αποτελεσμάτων στο περίπλοκο και δυναμικό περιβάλλον του Obstacle Tower. Ο DreamerV3 έχει δοκιμαστεί και αξιολογηθεί σε διάφορα περιβάλλοντα χωρίς να υπάρχει η ανάγκη συντονισμού (tuning) του σε αυτά, επιφέροντας υψηλότερη απόδοση από άλλους εξειδικευμένους αλγόριθμους - είτε βασισμένους σε μοντέλα είτε όχι [1]. Αυτές οι υψηλές αποδόσεις απέδειξαν ότι ο DreamerV3 έχει ξεπεράσει το εμπόδιο της εξειδικευμένης γνώσης, καθιστώντας έτσι ευρέως εφαρμόσιμο σε δύσκολα προβλήματα λήψης αποφάσεων [1]. Το μεγαλύτερο επίτευγμα του DreamerV3 ήταν η συλλογή διαμαντιών στο παιχνίδι Minecraft χωρίς ανθρώπινα δεδομένα ή προγράμματα σπουδών (curricula) [1] το οποίο θεωρείται μία μακροχρόνια πρόκληση στην τεχνητή νοημοσύνη [7]. Στα πλαίσια αυτής της μελέτης, εκπαιδεύουμε τον αλγόριθμο DreamerV3 στο περιβάλλον του Obstacle Tower μεταβάλλοντας τον αριθμό αναλογιών εκπαίδευσης (training ratio) και το μέγεθος του μοντέλου (model size). Αναλύουμε διάφορες μετρήσεις απόδοσης, συμπεριλαμβανομένου του ορόφου που έχει φτάσει, της διάρκειας επεισοδίου και της συσσώρευσης ανταμοιβών, για να αξιολογήσουμε την πρόοδο εκμάθησης και τη συνολική απόδοση του αλγόριθμου. Η δοκιμή του αλγόριθμου DreamerV3 στο περιβάλλον Obstacle Tower θα μας επιτρέψει να αξιολογήσουμε την ικανότητά του να μαθαίνει και να λαμβάνει αποτελεσματικές αποφάσεις σε ένα εξαιρετικά δύσκολο και άγνωστο περιβάλλον. Συγκεκριμένα, στοχεύουμε να κατανοήσουμε τα δυνατά και τα αδύνατα σημεία του, καθώς και την απόδοσή του σε σύγκριση με άλλους αλγόριθμους ΕΜ που έχουν σχεδιαστεί ειδικά για αυτό το περιβάλλον. Ακόμη ένας στόχος αυτής της μελέτης είναι η βελτιστοποίηση της απόδοσης του DreamerV3 στο περιβάλλον Obstacle Tower με την προσθήκη κάποιων επιπλέον συστατικών στοιχείων (components). Αναμένουμε ότι η εφαρμογή του αλγόριθμου DreamerV3 στο περιβάλλον του Obstacle Towerτουλάχιστον απόδοση πάνω από 20 ορόφους. Τα αποτελέσματα αυτής της μελέτης θα παράσχουν πολύτιμες πληροφορίες για την αποτελεσματικότητα του νέου αλγορίθμου DreamerV3 σε πολύπλοκα και δυναμικά περιβάλλοντα όπως ο Obstacle Tower. Επίσης τα αποτελέσματα αναμένεται να προσκομίσουν αναγνώριση πιθανών Σητημάτων που μπορεί να προκύψουν κατά την εφαρμογή του DreamerV3 στο Obstacle tower. Τα ευρήματα αυτα θα συμβάλουν στην προώθηση του πεδίου της ΕΜ και θα ρίξουν φως στις δυνατότητες του αλγόριθμου για εφαρμογές πραγματικού κόσμου που απαιτούν έξυπνη λήψη αποφάσεων σε πολύπλοκα σενάρια(π.χ. ρομποτικός πλοήγησης). θα επιτύχει μείωση της διάρκειας επεισοδίου, αύξηση της συσσώρευσης ανταμοιβών κα

URI

http://gnosis.library.ucy.ac.cy/handle/7/66141

Collections

Τμήμα Πληροφορικής / Department of Computer Science [110]

Cite as

The following license files are associated with this item:

Creative Commons