Semantics-based metrics and algorithms for dynamic content in web database applications
Date
2009-06Author
Papastavrou, Stavros C.Publisher
Πανεπιστήμιο Κύπρου, Σχολή Θετικών και Εφαρμοσμένων Επιστημών / University of Cyprus, Faculty of Pure and Applied SciencesPlace of publication
ΚύπροςCyprus
Google Scholar check
Keyword(s):
Metadata
Show full item recordAbstract
Η Τεχνολογία Δυναμικού Περιεχομένου (Dynamic Web Content) συσχετίζει τις Παραδοσιακές Βάσεις Δεδομένων (Traditional Databases) με το Παγκόσμιο Πλέγμα Πληροφοριών (World Wide Web), επιτρέποντας την επισκόπηση και ενημέρωση των βάσεων δεδομένων μέσω δυναμικών ιστοσελίδων. Με την εμφάνιση του Common Gateway Interface (CGI), η τεχνολογία δυναμικού περιεχομένου έχει υποβοηθήσει στην μεταφορά των παραδοσιακών δημοφιλών εφαρμογών στο διαδικτυακό κόσμο. Παραδείγματα δημοφιλών εφαρμογών αποτελούν τα διαδικτυακά βιβλιοπωλεία, οι εικονικές κοινότητες, οι μηχανές αναζήτησης, οι δημοπρασίες αγαθών, το διαδικτυακό ηλεκτρονικό ταχυδρομείο και, τέλος, οι χρηματιστηριακές πλατφόρμες.
Η υλοποίηση δυναμικών ιστοσελίδων από βάσεις δεδομένων είναι μια διαδικασία που απαιτεί σημαντικούς υπολογιστικούς πόρους, εφόσον εμπλέκει πρόσβαση σε τοπικές ή κατανεμημένες βάσεις δεδομένων, καθώς και την εκτέλεση μακροσκελούς κώδικα. Ως αποτέλεσμα, ο χρόνος απόκρισης δημοφιλών δυναμικών ιστοσελίδων αυξάνεται, όταν ο αριθμός των συνδεδεμένων χρηστών ανεβαίνει.
Η παραδοσιακή προσέγγιση για μείωση του χρόνου εκτέλεσης της υλοποίησης μιας δυναμικής ιστοσελίδας, ειδικά όταν ο αριθμός των χρηστών είναι αυξημένος, επιτυγχάνεται διαμέσου της Εναποθήκευσης (Caching). Η εναποθήκευση επιτρέπει την επαναχρησιμοποίηση κομματιών περιεχομένου (content fragments) μιας δυναμικής ιστοσελίδας από Συστήματα Εναποθήκευσης. Με αυτή την πρακτική διασώζονται πολύτιμοι υπολογιστικοί πόροι και η Ποιότητα Εξυπηρέτησης (QoS) αναβαθμίζεται. Ωστόσο, η Ποιότητα Δεδομένων (QoD) ίσως μειώνεται, όταν τα εναποθηκευμένα μέρη ιστοσελίδων που χρησιμοποιούνται δεν είναι πρόσφατα ενημερωμένα. Συνεπώς, το περιεχόμενο που παραδίδεται στους χρήστες πιθανώς να περιέχει άκυρες πληροφορίες, επιφέροντας δυσχερέστερες επιπτώσεις και από τους αργούς χρόνους απόκρισης. Ως αποτέλεσμα, η μεγάλη πρόκληση στην υλοποίηση δυναμικών ιστοσελίδων συνίσταται στη επίτευξη συμβιβαστικής ισορροπίας μεταξύ της ποιότητας εξυπηρέτησης, υπό μορφή χρόνων απόκρισης, και της ποιότητας δεδομένων, υπό μορφή έγκαιρης ενημέρωσης των Δεδομένων (Data Freshness).
Η παρούσα Διατριβή αμφισβητεί την αποτελεσματικότητα των τρεχόντων προσεγγίσεων συμβιβαστικής ισορροπίας μεταξύ ποιότητας εξυπηρέτησης και ποιότητας δεδομένων, εφόσον αυτές αποτυγχάνουν να ενσωματώσουν τα χαρακτηριστικά των δημοφιλών διαδικτυακών εφαρμογών. Επιπρόσθετα, η παρούσα Διατριβή συνεισφέρει καινοτόμους αλγόριθμους υλοποίησης δυναμικών ιστοσελίδων για διαδικτυακές εφαρμογές, οι οποίοι βελτιώνουν την ισορροπία μεταξύ ποιότητας εξυπηρέτησης και ποιότητας δεδομένων σε σχέση με τις τρέχουσες προσεγγίσεις. Η καινοτομία των αλγορίθμων έγκειται στην ενσωμάτωση και εκμετάλλευση (α) των διασυνδέσεων και εξαρτήσεων μεταξύ μερών περιεχομένου δυναμικών ιστοσελίδων, και (β) των μοτίβων πρόσβασης ιστοσελίδων των χρηστών.
Οι διασυνδέσεις και εξαρτήσεις των μερών περιεχομένου χαρακτηρίζονται από την εισαγωγή δύο νέων μέτρων: της Ποιότητας Διασύνδεσης (QoL) και της Ποιότητας Δια-Προεπισκόπησης (QoSV). Το πρώτο μέτρο ποσοτικοποιεί τη δυνατότητα του χρήστη να πλοηγείται μεταξύ δυναμικών ιστοσελίδων, ενώ το δεύτερο μέτρο ποσοτικοποιεί την ικανοποίηση των συσχετίσεων μεταξύ των διασυνδεδεμένων μερών περιεχομένου σε μία δυναμική ιστοσελίδα. Τα δύο αυτά μέτρα αντικαθιστούν το παραδοσιακό μέτρο της ποιότητας δεδομένων. Επιπρόσθετα, η παρούσα Διατριβή εισάγει την έννοια των Πλάνων Χρήσης (Usage Plans), τα οποία χαρτογραφούν την επαναλαμβανόμενη συμπεριφορά των χρηστών, με σκοπό την βελτίωση της ποιότητας δεδομένων.
Εκτεταμένα πειράματα, με τη χρήση εφαρμογής διαδικτυακού βιβλιοπωλείου, έχουν επιβεβαιώσει τα πλεονεκτήματα των προτεινόμενων αλγορίθμων υλοποίησης, έναντι των παραδοσιακών προσεγγίσεων. Με ελάχιστο κόστος εγκατάστασης, η παρούσα προσέγγιση μπορεί να εφαρμοστεί σε υπάρχοντα συστήματα δυναμικών εφαρμογών διαδικτύου, αποδίδοντας αυξημένο όγκο διεκπεραίωσης εργασιών, με την υποστήριξη αυξημένου αριθμό τρεχόντων χρηστών. Προτείνονται θεωρητικές και πρακτικές εφαρμογές των ερευνητικών αποτελεσμάτων, που εστιάζονται, ανάμεσα σε άλλα, στην προσαρμογή περιεχομένου σε κινητές συσκευές. Dynamic Content Technology brings together traditional databases and the Web by allowing for data in databases to be viewed and updated as dynamic web documents. Since the mid 90's, when the Common Gateway Interface emerged, dynamic content technology has facilitated the adaptation of traditional applications to the on-line world. On-line bookstores, virtual communities, web mail, search engines, goods bidding and real-time stock trading are typical examples of such on-line web database applications.
Materialization of dynamic web pages from web databases is a procedure that requires considerable resources, since local or remote databases are accessed and lengthy code is executed to produce the web pages. Consequently, web sites exhibit slow download times when the number of concurrent client sessions increases due to their popularity.
A traditional approach to reduce the time for materializing a dynamic web page, especially under heavy workload, is through caching. Caching allows for parts of dynamic pages, better known as fragments, to be reused from main memory rather than recomputed. In this way, computational resources are spared and Quality of Service (QoS) is enhanced. However, Quality of Data (QoD) may be reduced since fragments with stale/old data could be used. This means that content delivered to web users may contain invalid information, having the same or worse negative impact to slow response times. Thus, a big challenge in the materialization of dynamic web pages has been the trade-off between QoS in terms of response time and QoD with respect to data freshness.
This dissertation argues that current approaches for web content materialization that balance QoS and QoD fail to fully capture the characteristics of modern web applications. Further, this dissertation contributes new semantics-based materialization algorithms for web-based dynamic content applications that achieve a better balance between QoS and QoD compared to existing syntactic-based approaches. The novelty of our algorithms lies on the consideration and exploitation of (a) the dependencies among dynamic content fragments and templates and (b) the user request patterns.
Content dependencies are characterized by introducing two new metrics: QoL (Quality of Link) and QoSV (Quality of Set-View). The former measures the ability of the user to navigate between dynamic pages and the latter the set-wise consistency of content fragments inside dynamic pages. The two new metrics substitute the traditional single metric of QoD. In addition, this dissertation exploits the notion of Usage Plans in the context of dynamic web pages. Their purpose is to capture the temporal recurrent behavior of web users toward improving QoD.
Extensive experimental evaluation, based on an on-line Bookstore application, has confirmed the advantages of our semantics-based materialization algorithms compared to the existing syntactic-based ones. With a minimum offline setup, our approach has direct applicability to e-commerce vendors seeking to boost performance with less hardware under higher workloads. Other applications of our approach include content adaptation for mobile devices.