Unsupervised Extraction and Analysis of Polarization in Large-Scale Text-based Corpora with Applications to Misinformation Detection
View/ Open
Date
2025Publisher
Πανεπιστήμιο Κύπρου, Σχολή Θετικών και Εφαρμοσμένων Επιστημών / University of Cyprus, Faculty of Pure and Applied SciencesGoogle Scholar check
Keyword(s):
Metadata
Show full item recordAbstract
Polarization poses a significant threat to social cohesion, public trust, and the integrity of democratic institutions. Considering the widespread consequences of polarization, it is essential to understand how it emerges and operates within society. Computational methods are particularly valuable in this regard, enabling the analysis of diverse social and political data—such as social media interactions, news media content, and public opinion surveys—using algorithmic techniques to model and quantify polarization as it evolves across different platforms and contexts. However, existing computational studies often concentrate on the interactions of users within specific social networks, focusing primarily on predefined political or social groups and using curated datasets. This limited approach restricts their ability to generalize findings and adequately address the multi-level nature of polarization, which encompasses individual entities (e.g. political figures), group affiliations (e.g. Democrats or Republicans), and specific discussion topics (e.g. abortion rights) across various societal domains.
In this thesis, we tackle computational challenges associated with modeling, extracting, and analyzing polarization as a multi-level phenomenon emerging from the narratives of news media article collections. We introduce the Polarization Data Model (PDM), a structured representation of multi-level polarization as a directed, weighted, heterogeneous multi-graph, consisting of entities, their supportive or oppositional relationships, their memberships in fellowships, dipoles participation, and attitudes toward discussion topics.
To enable the unsupervised extraction of PDMs, we introduce POLAR, an automated software pipeline designed to process raw textual content in news corpora and transform it into structured polarization knowledge. POLAR identifies key entities using Named Entity Recognition and Linking, and determines their supportive or oppositional relationships by determining their directed sentiment through dependency parsing and attitude analysis. Utilizing the identified entity relationships, we model fellowship and dipole identification as a signed network clustering problem. We define fellowships as sub-groups with predominantly positive internal relationships, while each dipole comprises two sub-groups with mostly negative external connections between them. We identify highly polarized dipoles by calculating a structural balance metric, with higher values indicating greater polarization. To enhance the multi-level analysis of polarization on PDM data, we introduce metrics that quantify polarization across different levels and algorithms to compute these metrics. At the entity level, we introduce signed Semantic Association (SA), a metric that integrates structural balance into SA, to identify key polarizing entities, categorizing them as protagonists or antagonists. At the group level, we introduce the Fellowship Cohesiveness metric, distinguishing between ideological cohesiveness (e.g. alignment on the Left vs. Right political spectrum) and attitudinal cohesiveness (degree of consensus on topical attitudes). At the topic level, we introduce the Global Topic Polarization metric to quantify and rank topics based on the level of disagreement in entity attitudes.
To evaluate POLAR, we introduce a multi-level methodology that benchmarks its performance against baseline models and ground-truth data. Specifically, we assess: i) the alignment of attitudes for political figures on various topics by comparing POLAR's results with external sources, including surveys and quotes from speeches; ii) the ideological and attitudinal cohesiveness of identified fellowships by comparing them to annotated political party manifestos; and iii) the rankings of polarized topics, evaluated against results from state-of-the-art methods. We apply POLAR and our evaluation approach on news article collections regarding Abortion, Immigration, Gun Control, and the COVID-19 pandemic. Our evaluation shows that POLAR surpasses baseline approaches by accurately representing entity attitudes, constructing cohesive ideological and attitudinal fellowships without predefined groups, and ranking polarized topics with a Ranked Bias Overlap of 0.81.
Finally, we demonstrate the utility of the extracted PDMs, by integrating it into existing misinformation classifiers in order to enhance their classification performance. To address the challenge of encoding articles with limited content, we propose a method for automatically augmenting article-specific polarization knowledge using pre-computed PDMs and embedding techniques. To integrate polarization into the classification task, we introduce a Graph Neural Network (GNN) that learns polarization features from the augmented article format. The features are aggregated and then concatenated with the existing classifier's during training, effectively incorporating polarization into the classification process. We evaluated this methodology on three benchmark datasets, demonstrating a 15\% improvement in performance over baseline classifiers.
The findings of this thesis underscore our framework’s ability to capture polarization knowledge that reflects real-world ideological structures—without requiring prior group definitions. This unsupervised approach enables nuanced analysis, revealing multi-level polarization, including intra-group conflicts often overlooked by traditional methods. For instance, our analysis shows that Democratic fellowships exhibit internal divisions over topics such as Abortion Funding, despite the party’s unified attitude within its manifesto, while the COVID-19 Stimulus Package—presented as bipartisan—displays surprising polarization across party lines. Additionally, integrating this polarization knowledge into misinformation detection models significantly enhances their accuracy over baseline models, underscoring the importance of polarization-specific insights for accurately identifying misinformation in polarized contexts. Η πόλωση αποτελεί σοβαρή απειλή για την κοινωνική συνοχή, την εμπιστοσύνη του κοινού
και την ακεραιότητα των δημοκρατικών θεσμών. Δεδομένων των εκτεταμένων συνεπειών
της πόλωσης, είναι απαραίτητο να κατανοήσουμε πώς προκύπτει και λειτουργεί μέσα στην κοινωνία. Οι υπολογιστικές μέθοδοι είναι ιδιαίτερα χρήσιμες σε αυτό το πλαίσιο, καθώς επιτρέπουν την ανάλυση ποικίλων κοινωνικών και πολιτικών δεδομένων—όπως αλληλε πιδράσεις σε κοινωνικά δύκτια, περιεχόμενο ειδησεογραφικών μέσων και έρευνες κοινής γνώμης—χρησιμοποιώντας αλγοριθμικές τεχνικές για τη μοντελοποίηση και ποσοτικοποίηση της πόλωσης, όπως αυτή εξελίσσεται σε διαφορετικές πλατφόρμες και πλαίσια.
Ωστόσο, οι υπάρχουσες υπολογιστικές μελέτες συχνά επικεντρώνονται στις αλληλεπι δράσεις χρηστών εντός συγκεκριμένων κοινωνικών δικτύων, εστιάζοντας κυρίως σε προκαθορισμένες πολιτικές ή κοινωνικές ομάδες και χρησιμοποιώντας προσεκτικά επιλεγμένα
σύνολα δεδομένων. Αυτή η περιορισμένη προσέγγιση μειώνει την ικανότητά τους να γενικεύουν τα ευρήματα και να αντιμετωπίζουν επαρκώς τη φύση της πόλωσης ως φαινόμενο
πολλαπλών επιπέδων, που περιλαμβάνει ατομικές οντότητες (π.χ. πολιτικά πρόσωπα), ο μαδικές συσχετίσεις (π.χ. Δημοκρατικοί ή Ρεπουμπλικάνοι) και συγκεκριμένα θέματα
συζήτησης (π.χ. δικαιώματα αμβλώσεων) σε διάφορους κοινωνικούς τομείς.
Σε αυτή τη διατριβή, αντιμετωπίζουμε τις υπολογιστικές προκλήσεις που σχετίζονται με
τη μοντελοποίηση, την εξαγωγή και την ανάλυση της πόλωσης ως φαινόμενο πολλαπλών
επιπέδων, το οποίο προκύπτει από τις αφηγήσεις των άρθρων ειδήσεων. Παρουσιάζουμε το Polarization Data Model (PDM), μια δομημένη αναπαράσταση της πόλωσης σε πολλά επίπεδα, ως ένα κατευθυνόμενο, ετερογενές πολύ-γράφο με βάρη, αποτελούμενο από ο ντότητες, τις υποστηρικτικές ή αντιθετικές σχέσεις τους, τις συμμετοχές τους σε ομάδες (fellowships) και δίπολα (dipoles), και τις στάσεις τους απέναντι σε θέματα συζήτησης.
Για να καταστήσουμε δυνατή την εξαγωγή των PDMs χωρίς προηγούμενη γνώση, παρουσιάζουμε το POLAR, ένα αυτόματο σύστημα σχεδιασμένο να επεξεργάζεται ακατέργαστο περιεχόμενο από σύνολα ειδήσεων και να το μετασχηματίζει σε δομημένη γνώση σχετικά με την πόλωση. Το POLAR εντοπίζει βασικές οντότητες χρησιμοποιώντας τεχνικες
Named Entity Recognition and Linking (NERL) και προσδιορίζει τις υποστηρικτικές ή
αντιθετικές σχέσεις τους μέσω ανάλυσης συναισθημάτων και εξαρτήσεων. Αξιοποιώντας
τις προσδιορισμένες σχέσεις οντοτήτων, μοντελοποιούμε τον εντοπισμό των fellowships
και των dipoles ως πρόβλημα συσταδοποίησης υπογεγραμμένων δικτύων. Ορίζουμε τα
fellowships ως υπο-ομάδες με κυρίως θετικές εσωτερικές σχέσεις, ενώ κάθε dipole α ποτελείται από δύο υπο-ομάδες με κυρίως αρνητικές εξωτερικές συνδέσεις μεταξύ τους.
Εντοπίζουμε τα dipoles με έντονη πόλωση υπολογίζοντας μια μετρική ισορροπίας δο μής, με τις υψηλότερες τιμές να υποδεικνύουν μεγαλύτερη πόλωση. Για να ενισχύσουμε
την ανάλυση σε πολλά επίπεδα στα δεδομένα του PDM, εισάγουμε μετρικές που πο σοτικοποιούν την πόλωση σε διαφορετικά επίπεδα και αλγόριθμους για τον υπολογισμό
αυτών των μετρικών. Στο επίπεδο των οντοτήτων, εισάγουμε το Signed Semantic As sociation (SA), μια μετρική που ενσωματώνει την ισορροπία της δομής στο SA για τον εντοπισμό βασικών οντοτήτων που εντείνουν την πόλωση, κατηγοριοποιώντας τους ως πρωταγωνιστές ή ανταγωνιστές. Στο επίπεδο των ομάδων, εισάγουμε τη μετρική Fellowship Cohesiveness, διακρίνοντας μεταξύ ιδεολογικής συνοχής (π.χ. στον πολιτικό άξονα
Αριστερά-Δεξιά) και συνοχής στάσεων (βαθμός συναίνεσης σε επίκαιρες στάσεις). Στο
επίπεδο των θεμάτων, εισάγουμε τη μετρική Global Topic Polarization για να ποσοτικο ποιήσουμε και να κατατάξουμε τα θέματα βάσει του βαθμού διαφωνίας στις στάσεις των οντοτήτων.
Για την αξιολόγηση του POLAR, εισάγουμε μια μεθοδολογία πολλαπλών επιπέδων που
συγκρίνει την απόδοσή του με υπάρχοντα μοντέλα και γνωστά δεδομένα (ground-truth).
Συγκεκριμένα, αξιολογούμε: α) την συμφωνία των στάσεων πολιτικών προσώπων σε διάφορα θέματα συγκρίνοντας τα αποτελέσματα του POLAR με εξωτερικές πηγές, όπως
έρευνες και αποσπάσματα από ομιλίες· β) την ιδεολογική και συμπεριφορική συνοχή των
fellowships συγκρίνοντάς τα με κομματικά μανιφέστα· και γ) την κατάταξη των θεμάτων
με πόλωση, αξιολογημένη σε σχέση με αποτελέσματα από άλλες μεθόδους. Εφαρμόζουμε το POLAR και τη μεθοδολογία αξιολόγησής του σε συλλογές ειδήσεων που αφορούν τις Αμβλώσεις, τη Μετανάστευση, τον ΄Ελεγχο ΄Οπλων και την πανδημία του COVID-19. Η αξιολόγησή μας δείχνει ότι το POLAR υπερτερεί των υπάρχουσων προσεγγίσεων, αποδίδοντας ακριβέστερα τις στάσεις των οντοτήτων, δημιουργώντας συνεκτικά ιδεολογικά
και στάσεων fellowships χωρίς προκαθορισμένες ομάδες, και κατατάσσοντας τα θέματα
με πόλωση με Ranked Bias Overlap ίσο με 0.81.
Τέλος, αποδεικνύουμε τη χρησιμότητα των εξαγόμενων PDMs, ενσωματώνοντάς τα σε
υπάρχοντα μοντέλα ανίχνευσης ψευδών ειδήσεων για τη βελτίωση της απόδοσής τους.
Για να αντιμετωπίσουμε την πρόκληση της κωδικοποίησης άρθρων με περιορισμένο πε ριεχόμενο, προτείνουμε μια μέθοδο για την αυτόματη ενίσχυση της γνώσης της πόλωσης
ανά άρθρο, χρησιμοποιώντας προϋπολογισμένα PDMs και τεχνικές embeddings. Για την
ενσωμάτωση της πόλωσης στην ταξινόμηση, παρουσιάζουμε ένα νέο Νευρωνικό Δύκτιο
Γράφων που μαθαίνει χαρακτηριστικά πόλωσης από το εμπλουτισμένο άρθρο. Τα χαρακτηριστικά συγκεντρώνονται και στη συνέχεια συνδυάζονται με το υπάρχον μοντέλο κατά την εκπαίδευση, ενσωματώνοντας αποτελεσματικά την πόλωση στη διαδικασία κατηγοριοποίησης. Αξιολογήσαμε αυτή τη μεθοδολογία σε τρία σύνολα δεδομένων ελέγχου (benchmark datasets), καταδεικνύοντας βελτίωση απόδοσης κατά 15% σε σύγκριση με
τα υπάρχοντα μοντέλα.
Τα ευρήματα της διατριβής υπογραμμίζουν την ικανότητα του προτεινόμενου συστήμα
τος να εξάγει γνώση για την πόλωση που αντανακλά τις πραγματικές ιδεολογικές δομές—χωρίς να απαιτείται προκαθορισμένος ορισμός ομάδων. Αυτή η προσέγγιση δέν
απαιτεί προηγούμενη γνώση και επιτρέπει λεπτομερή ανάλυση, αποκαλύπτοντας πολλαπλά
επίπεδα πόλωσης, συμπεριλαμβανομένων των εσωτερικών συγκρούσεων σε ομάδες που
συχνά παραβλέπονται από τις παραδοσιακές μεθόδους. Για παράδειγμα, η ανάλυσή μας
δείχνει ότι οι Δημοκρατικές ομάδες εμφανίζουν εσωτερικές διαμάχες σε θέματα όπως η
Χρηματοδότηση Αμβλώσεων, παρά την ενιαία στάση του κόμματος στο μανιφέστο του,
ενώ το πακέτο βοηθείας για τον COVID-19—που παρουσιάστηκε ως διακομματικό—εμφανίζει έκδηλη πόλωση στις γραμμές των κομμάτων. Επιπλέον, η ενσωμάτωση αυτής
της γνώσης της πόλωσης σε μοντέλα ανίχνευσης ψευδών ειδήσεων βελτιώνει σημαντικά
την ακρίβειά τους σε σχέση με τα υπάρχοντα μοντέλα, υπογραμμίζοντας τη σημασία της
πόλωσης για την ακριβή ταυτοποίηση της παραπληροφόρησης σε πολωμένα περιβάλλοντα.