Discovering disease associated gene-gene interactions: A two SNP interaction analysis framework
Date
2011-05Author
Antoniades, AthosPublisher
Πανεπιστήμιο Κύπρου, Σχολή Θετικών και Εφαρμοσμένων Επιστημών / University of Cyprus, Faculty of Pure and Applied SciencesPlace of publication
ΚύπροςCyprus
Google Scholar check
Keyword(s):
Metadata
Show full item recordAbstract
Στις πλείστες κληρονομικές ασθένειες η προδιάθεση ατόμον επηρεάζεται από αλληλεπιδράσεις μεταξύ πολλαπλών γενετικών περιοχών και περιβαλλοντικών παραγόντων. Οι παραδοσιακές μέθοδοι γενετικής ανάλυσης έχουν συγκεντρωθεί στη μελέτη μοναδικών γενετικών περιοχών. Ο λόγος που γίνεται αυτό είναι η πολυνησιακή αύξηση του υπολογιστικού κόστους της ανάλυσης για μελέτη αλληλεπίδρασης μεταξύ πολλαπλών γενετικών περιοχών, και η αναμενόμενη απώλεια στατιστικής δύναμης λόγω του μεγάλου αριθμού ελέγχων που απαιτούνται.
Προτείνετε πλαίσιο για εκτέλεση ανάλυσης όλων των πιθανών συνδυασμών δύο μονονουκλεοτιδικών πολυμορφισμών (SNP) σε μια βάση με στόχο τη μελέτη αλληλεπίδρασης μεταξύ δύο SNPs. Το προτεινόμενο πλαίσιο εκμεταλλεύεται δύο παράλληλα και κατανεμημένα συστήματα διαφορετικής αρχιτεκτονικής για να ξεπεράσει τις αδυναμίες του κάθε ενός και να μπορέσει να αποκτήσει αρκετή υπολογιστική ισχύ ώστε να εκτελέσει την ανάλυση ακόμη και των πιο μεγάλων γενετικών βάσεων που υπάρχουν σήμερα. Αλγοριθμικές μέθοδοι προτείνονται, οι οποίες αυξάνουν την αποδοτικότητα του προτεινόμενου πλαισίου έτσι ώστε όλοι οι πιθανοί συνδυασμοί δύο SNPs να μπορούν να μελετηθούν. Τα δεδομένα κωδικοποιούνται σε διφυακή μορφή χρησιμοποιώντας ένα προτεινόμενο αλγόριθμο ο οποίος τα συμπιέζει χωρίς απώλεια. Ένα υπολογιστικά αποτελεσματικό μέτρο της αλληλεπίδρασης προτείνεται και συγκρίνεται με παραδοσιακές τεχνικές οπου βρέθηκε να είναι 20 φορές πιο γρήγορος από κλασσικές στατιστικές μεθόδους, ενώ τα αποτελέσματα που παράγει έχουν συντελεστή συσχέτισης πέραν του 95%. ‘Ένας αλγόριθμος προτείνεται ο οποίος βελτιστοποιεί την ανάλυση πολλαπλών μεταβλητών απόκρισης.
Το πλαίσιο εφαρμόστηκε σε μία ερευνα για την κατά πλάκα σκλήρυνση. Τα κορυφαία αποτελέσματα επανελέγχθησαν σε μία δεύτερη, ανεξάρτητη βάση για σκοπούς επαλήθευσης. Η επαλήθευση ήταν επιτυχής επιδεικνύοντας ότι πολλαπλές αλληλεπίδρασης είναι συσχετισμένες με την ασθένεια. Most common diseases have a heritable component that is influenced by mutations on multiple loci, and by interactions between loci and with the environment. Traditional genetic analysis techniques have focused on single locus effects. This is mostly due to the polynomial increase in computational capacity needed to attempt multi-loci interaction analyses, and the anticipated loss of power due to multiple testing. In this dissertation, a framework for performing a complete two single nucleotide polymorphism (SNP) interaction analysis of high dimensionality genome wide association scans (GWAS) is presented. The framework utilizes diverse distributed computational resources harvesting enough capacity to analyze any of the GWAS in existence today within a reasonable time frame. Algorithmic approaches are proposed to improve the efficiency of the framework and improve its computational performance to enable a brute force attack on the problem. The data is encoded in binary using a lossless algorithm that significantly reduces its size. Computationally efficient data mining measures for the Omnibus and Epistatic interaction effects are proposed and compared to traditional statistical techniques. An algorithm is proposed that optimizes the analyses of multiple response variables within the same GWAS. A multiple sclerosis (MS) dataset is analyzed using the proposed framework with top results tested for replication using an independent MS dataset. Some of the top results replicated, implicating SNPs in a region of known association to MS providing evidence to the validity of the proposed framework.