Μια στατιστική αναζήτηση για γονιδιωματικές αλήθειες

«Δεν έχουμε πολλή βασική αλήθεια στη βιολογία». Σύμφωνα με την Barbara Engelhardt, επιστήμονα υπολογιστών στο Πανεπιστήμιο του Πρίνστον, αυτή είναι μόνο μία από τις πολλές προκλήσεις που αντιμετωπίζουν οι ερευνητές όταν προσπαθούν να ξεκινήσουν παραδοσιακές μεθόδους μηχανικής μάθησης για την ανάλυση γονιδιωματικών δεδομένων. Οι τεχνικές στην τεχνητή νοημοσύνη και τη μηχανική μάθηση αλλάζουν δραματικά το τοπίο της βιολογικής έρευνας, αλλά ο Engelhardt δεν πιστεύει ότι αυτές οι προσεγγίσεις του «μαύρου κουτιού» είναι αρκετές για να παρέχουν τις απαραίτητες γνώσεις για την κατανόηση, τη διάγνωση και τη θεραπεία ασθενειών. Αντίθετα, αναπτύσσει νέα στατιστικά εργαλεία που αναζητούν αναμενόμενα βιολογικά πρότυπα για να χαρτογραφήσουν την πραγματική αλλά άπιαστη «βασική αλήθεια» του γονιδιώματος.

Ο Ένγκελχαρντ παρομοιάζει την προσπάθεια με το αστυνομικό έργο, καθώς περιλαμβάνει το χτένισμα των αστερισμών γενετικών παραλλαγών, ακόμη και των απορριπτόμενων δεδομένων, για κρυμμένα πετράδια. Σε έρευνα που δημοσιεύθηκε τον περασμένο Οκτώβριο, για παράδειγμα, χρησιμοποίησε ένα από τα μοντέλα της για να προσδιορίσει πώς σχετίζονται οι μεταλλάξεις με τη ρύθμιση των γονιδίων σε άλλα χρωμοσώματα (που αναφέρονται ως απομακρυσμένα γονίδια) σε 44 ανθρώπινους ιστούς. Μεταξύ άλλων ευρημάτων, τα αποτελέσματα έδειξαν έναν πιθανό γενετικό στόχο για θεραπείες για τον καρκίνο του θυρεοειδούς. Η δουλειά της έχει ομοίως συνδέσει μεταλλάξεις και γονιδιακή έκφραση με συγκεκριμένα χαρακτηριστικά που βρίσκονται σε εικόνες παθολογίας.

Οι εφαρμογές της έρευνας του Engelhardt εκτείνονται πέρα από τις γονιδιωματικές μελέτες. Κατασκεύασε ένα διαφορετικό είδος μοντέλου μηχανικής μάθησης, για παράδειγμα, που κάνει συστάσεις στους γιατρούς σχετικά με το πότε να αφαιρούν τους ασθενείς τους από έναν αναπνευστήρα και να τους επιτρέπουν να αναπνέουν μόνοι τους.

Ελπίζει ότι οι στατιστικές προσεγγίσεις της θα βοηθήσουν τους κλινικούς γιατρούς να συλλάβουν νωρίς ορισμένες παθήσεις, να αποσυμπιέσουν τους υποκείμενους μηχανισμούς τους και να θεραπεύσουν τις αιτίες τους και όχι τα συμπτώματά τους. "Μιλάμε για την επίλυση ασθενειών", είπε.

Για το σκοπό αυτό, εργάζεται ως κύρια ερευνήτρια με την Κοινοπραξία Genotype-Tissue Expression (GTEx), μια διεθνή ερευνητική συνεργασία που μελετά πώς η ρύθμιση, η έκφραση και η παραλλαγή των γονιδίων συμβάλλουν τόσο σε υγιείς φαινότυπους όσο και σε ασθένειες. Αυτήν τη στιγμή, ενδιαφέρεται ιδιαίτερα να ασχοληθεί με νευροψυχιατρικές και νευροεκφυλιστικές ασθένειες, οι οποίες είναι δύσκολο να διαγνωστούν και να αντιμετωπιστούν.

Περιοδικό Quanta πρόσφατα μίλησε με την Ένγκελχαρντ για τις ελλείψεις της μηχανικής μάθησης μαύρου κουτιού όταν εφαρμόζεται σε βιολογικά δεδομένα, τις μεθόδους που έχει αναπτύξει για να αντιμετωπίσει αυτές τις ελλείψεις και την ανάγκη να ψάξει κανείς τον «θόρυβο» στα δεδομένα για να αποκαλύψει ενδιαφέρουσες πληροφορίες. Η συνέντευξη έχει συμπυκνωθεί και επεξεργαστεί για λόγους σαφήνειας.

Τι σας παρακίνησε να επικεντρώσετε την εργασία σας στη μηχανική μάθηση σε ερωτήσεις στη βιολογία;

Πάντα με ενθουσίαζε τα στατιστικά και η μηχανική μάθηση. Στο μεταπτυχιακό, ο σύμβουλός μου, Μάικλ Τζόρνταν [στο Πανεπιστήμιο της Καλιφόρνια, στο Μπέρκλεϊ], είπε κάτι σχετικά:«Δεν μπορείς απλώς να αναπτύξεις αυτές τις μεθόδους στο κενό. Πρέπει να σκεφτείτε κάποιες εφαρμογές που να δίνουν κίνητρα». Γύρισα πολύ γρήγορα στη βιολογία, και έκτοτε, τα περισσότερα από τα ερωτήματα που οδηγούν την έρευνά μου δεν είναι στατιστικά, αλλά μάλλον βιολογικά:κατανόηση της γενετικής και των υποκείμενων μηχανισμών της νόσου, που ελπίζουμε να οδηγήσει σε καλύτερη διάγνωση και θεραπεία. Αλλά όταν σκέφτομαι τον τομέα στον οποίο βρίσκομαι — ποιες εργασίες διαβάζω, συνέδρια που παρακολουθώ, μαθήματα που διδάσκω και μαθητές που καθοδηγώ — η ακαδημαϊκή μου εστίαση είναι στη μηχανική μάθηση και στις εφαρμοσμένες στατιστικές.

Βρήκαμε πολλές συσχετίσεις μεταξύ γονιδιωματικών δεικτών και κινδύνου ασθένειας, αλλά εκτός από μερικές περιπτώσεις, αυτές οι συσχετίσεις δεν είναι προγνωστικές και δεν μας επέτρεψαν να κατανοήσουμε πώς να διαγνώσουμε, να στοχεύσουμε και να θεραπεύουμε ασθένειες. Ένας γενετικός δείκτης που σχετίζεται με τον κίνδυνο ασθένειας συχνά δεν είναι ο πραγματικός αιτιολογικός δείκτης της νόσου - μια ασθένεια μπορεί να έχει πολλές πιθανές γενετικές αιτίες και μια σύνθετη ασθένεια μπορεί να προκαλείται από πολλούς, πολλούς γενετικούς δείκτες που πιθανώς αλληλεπιδρούν με το περιβάλλον. Αυτές είναι όλες οι προκλήσεις που μπορεί να αρχίσει να αντιμετωπίζει και να επιλύει κάποιος με υπόβαθρο στη στατιστική γενετική και τη μηχανική μάθηση, συνεργαζόμενος με επιστήμονες και ιατρούς του εργαστηρίου υγρών. Κάτι που θα σήμαινε ότι θα μπορούσαμε πραγματικά να θεραπεύσουμε γενετικές ασθένειες — τις αιτίες τους, όχι μόνο τα συμπτώματά τους.

Έχετε μιλήσει στο παρελθόν για το πώς οι παραδοσιακές στατιστικές προσεγγίσεις δεν θα επαρκούν για εφαρμογές στη γονιδιωματική και την υγειονομική περίθαλψη. Γιατί όχι;

Πρώτον, λόγω έλλειψης ερμηνείας. Στη μηχανική μάθηση, χρησιμοποιούμε συχνά μεθόδους «μαύρου κουτιού» — [αλγόριθμοι ταξινόμησης που ονομάζονται] τυχαία δάση ή προσεγγίσεις βαθύτερης μάθησης. Αλλά αυτά δεν μας επιτρέπουν πραγματικά να «ανοίξουμε» το κουτί, για να καταλάβουμε ποια γονίδια ρυθμίζονται διαφορετικά σε συγκεκριμένους τύπους κυττάρων ή ποιες μεταλλάξεις οδηγούν σε υψηλότερο κίνδυνο ασθένειας. Με ενδιαφέρει να καταλάβω τι συμβαίνει βιολογικά. Δεν μπορώ απλώς να έχω κάτι που να δίνει απάντηση χωρίς να εξηγεί γιατί.

Ο στόχος αυτών των μεθόδων είναι συχνά η πρόβλεψη, αλλά δεδομένου του γονότυπου ενός ατόμου, δεν είναι ιδιαίτερα χρήσιμο να εκτιμηθεί η πιθανότητα να εμφανίσει διαβήτη τύπου 2. Θέλω να μάθω πώς θα εμφανίσουν διαβήτη τύπου 2:ποια μετάλλαξη προκαλεί τη δυσρύθμιση του γονιδίου που οδηγεί στην ανάπτυξη της πάθησης. Η πρόβλεψη δεν επαρκεί για τις ερωτήσεις που κάνω.

Ένας δεύτερος λόγος έχει να κάνει με το μέγεθος του δείγματος. Οι περισσότερες από τις καθοδηγητικές εφαρμογές στατιστικών υποθέτουν ότι εργάζεστε με έναν μεγάλο και αυξανόμενο αριθμό δειγμάτων δεδομένων - ας πούμε, τον αριθμό των χρηστών του Netflix ή των email που έρχονται στα εισερχόμενά σας - με περιορισμένο αριθμό λειτουργιών ή παρατηρήσεων που έχουν ενδιαφέρουσα δομή. Αλλά όταν πρόκειται για βιοϊατρικά δεδομένα, δεν το έχουμε καθόλου. Αντίθετα, έχουμε έναν περιορισμένο αριθμό ασθενών στο νοσοκομείο, έναν περιορισμένο αριθμό γονότυπων που μπορούμε να ακολουθήσουμε - αλλά ένα τεράστιο σύνολο χαρακτηριστικών ή παρατηρήσεων για κάθε άτομο, συμπεριλαμβανομένων όλων των μεταλλάξεων στο γονιδίωμά του. Κατά συνέπεια, πολλές θεωρητικές και εφαρμοσμένες προσεγγίσεις από στατιστικές δεν μπορούν να χρησιμοποιηθούν για γονιδιωματικά δεδομένα.

Τι κάνει τόσο δύσκολο να αναλυθούν τα γονιδιωματικά δεδομένα;

Τα πιο σημαντικά σήματα στα βιοϊατρικά δεδομένα είναι συχνά απίστευτα μικρά και κατακλύζονται εντελώς από τεχνικό θόρυβο. Δεν έχει να κάνει μόνο με το πώς μοντελοποιείτε το πραγματικό, βιολογικό σήμα - τις ερωτήσεις που προσπαθείτε να κάνετε για τα δεδομένα - αλλά και το πώς το μοντελοποιείτε παρουσία αυτού του απίστευτα βαρύ θορύβου που προκαλείται από πράγματα που δεν σας ενδιαφέρουν περίπου, από ποιον πληθυσμό προέρχονταν τα άτομα ή ποιος τεχνικός έτρεξε τα δείγματα στο εργαστήριο. Πρέπει να απαλλαγείτε από αυτόν τον θόρυβο προσεκτικά. Και συχνά έχουμε πολλές ερωτήσεις στις οποίες θα θέλαμε να απαντήσουμε χρησιμοποιώντας τα δεδομένα και πρέπει να εκτελέσουμε έναν απίστευτα μεγάλο αριθμό στατιστικών δοκιμών - κυριολεκτικά τρισεκατομμύρια - για να καταλάβουμε τις απαντήσεις. Για παράδειγμα, για τον εντοπισμό μιας συσχέτισης μεταξύ μιας μετάλλαξης σε ένα γονιδίωμα και κάποιου ενδιαφέροντος χαρακτηριστικού, όπου αυτό το χαρακτηριστικό μπορεί να είναι τα επίπεδα έκφρασης ενός συγκεκριμένου γονιδίου σε έναν ιστό. Πώς μπορούμε λοιπόν να αναπτύξουμε αυστηρούς, στιβαρούς μηχανισμούς δοκιμών όπου τα σήματα είναι πραγματικά, πολύ μικρά και μερικές φορές πολύ δύσκολο να διακριθούν από τον θόρυβο; Πώς διορθώνουμε όλη αυτή τη δομή και τον θόρυβο που γνωρίζουμε ότι θα υπάρξει;

Τι προσέγγιση λοιπόν πρέπει να ακολουθήσουμε;

Η ομάδα μου βασίζεται σε μεγάλο βαθμό σε αυτά που ονομάζουμε μοντέλα αραιού λανθάνοντος παράγοντα, τα οποία μπορεί να ακούγονται αρκετά περίπλοκα μαθηματικά. Η θεμελιώδης ιδέα είναι ότι αυτά τα μοντέλα χωρίζουν όλη την παραλλαγή που παρατηρήσαμε στα δείγματα, σε σχέση μόνο με έναν πολύ μικρό αριθμό χαρακτηριστικών. Ένα από αυτά τα διαμερίσματα μπορεί να περιλαμβάνει 10 γονίδια, για παράδειγμα, ή 20 μεταλλάξεις. Και στη συνέχεια, ως επιστήμονας, μπορώ να κοιτάξω αυτά τα 10 γονίδια και να καταλάβω τι κοινό έχουν, να προσδιορίσω τι αντιπροσωπεύει αυτό το συγκεκριμένο διαμέρισμα από την άποψη ενός βιολογικού σήματος που επηρεάζει τη διακύμανση του δείγματος.

Οπότε το σκέφτομαι ως μια διαδικασία δύο βημάτων:Πρώτον, χτίστε ένα μοντέλο που διαχωρίζει όλες τις πηγές παραλλαγής όσο το δυνατόν πιο προσεκτικά. Στη συνέχεια, μπείτε ως επιστήμονας για να κατανοήσετε τι αντιπροσωπεύουν όλα αυτά τα χωρίσματα από την άποψη ενός βιολογικού σήματος. Μετά από αυτό, μπορούμε να επικυρώσουμε αυτά τα συμπεράσματα σε άλλα σύνολα δεδομένων και να σκεφτούμε τι άλλο γνωρίζουμε για αυτά τα δείγματα (για παράδειγμα, εάν όλοι της ίδιας ηλικίας περιλαμβάνονται σε ένα από αυτά τα διαμερίσματα).

Όταν λέτε "μπείτε ως επιστήμονας", τι εννοείτε;

Προσπαθώ να βρω συγκεκριμένα βιολογικά μοτίβα, οπότε κατασκευάζω αυτά τα μοντέλα με πολλή δομή και συμπεριλαμβάνω πολλά σχετικά με το τι είδους σήματα περιμένω. Δημιουργώ ένα ικρίωμα, ένα σύνολο παραμέτρων που θα μου πει τι λένε τα δεδομένα και ποια μοτίβα μπορεί να υπάρχουν ή όχι. Το ίδιο το μοντέλο έχει μόνο ένα συγκεκριμένο βαθμό εκφραστικότητας, επομένως θα μπορώ να βρω μόνο ορισμένους τύπους μοτίβων. Από ό,τι έχω δει, τα υπάρχοντα γενικά μοντέλα δεν κάνουν καλή δουλειά στην εύρεση σημάτων που μπορούμε να ερμηνεύσουμε βιολογικά:Συχνά απλώς καθορίζουν τους μεγαλύτερους παράγοντες επιρροής της διακύμανσης στα δεδομένα, σε αντίθεση με τις πιο βιολογικά επηρεαστικές πηγές διακύμανσης. Το ικρίωμα που κατασκευάζω αντιπροσωπεύει μια πολύ δομημένη, πολύ περίπλοκη οικογένεια πιθανών προτύπων για την περιγραφή των δεδομένων. Στη συνέχεια, τα δεδομένα συμπληρώνουν αυτό το ικρίωμα για να μου πουν ποια μέρη αυτής της δομής αντιπροσωπεύονται και ποια όχι.

Έτσι, αντί να χρησιμοποιούμε γενικά μοντέλα, η ομάδα μου και εγώ εξετάζουμε προσεκτικά τα δεδομένα, προσπαθούμε να κατανοήσουμε τι συμβαίνει από βιολογική άποψη και προσαρμόζουμε τα μοντέλα μας με βάση τους τύπους προτύπων που βλέπουμε.

Πώς λειτουργεί στην πράξη το μοντέλο λανθάνοντος παράγοντα;

Εφαρμόσαμε ένα από αυτά τα μοντέλα λανθάνοντος παράγοντα σε εικόνες παθολογίας [εικόνες τομών ιστού κάτω από μικροσκόπιο], οι οποίες χρησιμοποιούνται συχνά για τη διάγνωση του καρκίνου. Για κάθε εικόνα, είχαμε επίσης δεδομένα σχετικά με το σύνολο των γονιδίων που εκφράζονται σε αυτούς τους ιστούς. Θέλαμε να δούμε πώς συντονίστηκαν οι εικόνες και τα αντίστοιχα επίπεδα γονιδιακής έκφρασης.

Αναπτύξαμε ένα σύνολο χαρακτηριστικών που περιγράφουν καθεμία από τις εικόνες, χρησιμοποιώντας μια μέθοδο βαθιάς μάθησης για να προσδιορίσουμε όχι μόνο τιμές σε επίπεδο pixel αλλά και μοτίβα στην εικόνα. Βγάλαμε πάνω από χίλια χαρακτηριστικά από κάθε εικόνα, δίνουμε ή παίρνουμε, και στη συνέχεια εφαρμόσαμε ένα μοντέλο λανθάνοντος παράγοντα και βρήκαμε μερικά αρκετά συναρπαστικά πράγματα.

Για παράδειγμα, βρήκαμε σύνολα γονιδίων και χαρακτηριστικών σε ένα από αυτά τα διαμερίσματα που περιέγραφαν την παρουσία ανοσοκυττάρων στον εγκέφαλο. Δεν βλέπετε απαραίτητα αυτά τα κύτταρα στις εικόνες παθολογίας, αλλά όταν κοιτάξαμε το μοντέλο μας, είδαμε εκεί ένα συστατικό που αντιπροσώπευε μόνο γονίδια και χαρακτηριστικά που σχετίζονται με κύτταρα του ανοσοποιητικού, όχι εγκεφαλικά κύτταρα. Από όσο ξέρω, κανείς δεν έχει δει αυτό το είδος σήματος πριν. Αλλά γίνεται απίστευτα σαφές όταν εξετάζουμε αυτά τα λανθάνοντα στοιχεία παραγόντων.

Έχετε δουλέψει με δεκάδες τύπους ανθρώπινου ιστού για να αποκαλύψετε πώς συγκεκριμένες γενετικές παραλλαγές βοηθούν στη διαμόρφωση πολύπλοκων χαρακτηριστικών. Τι πληροφορίες παρέχουν οι μέθοδοί σας;

Είχαμε 44 ιστούς, δωρισμένους από 449 ανθρώπινα πτώματα, και τους γονότυπους τους (αλληλουχίες του συνόλου των γονιδιωμάτων τους). Θέλαμε να καταλάβουμε περισσότερα για τις διαφορές στο πώς αυτοί οι γονότυποι εξέφρασαν τα γονίδιά τους σε όλους αυτούς τους ιστούς, έτσι κάναμε περισσότερα από 3 τρισεκατομμύρια δοκιμές, ένα προς ένα, συγκρίνοντας κάθε μετάλλαξη στο γονιδίωμα με κάθε γονίδιο που εκφράζεται σε κάθε ιστό. (Η εκτέλεση πολλών δοκιμών στα συμπλέγματα υπολογιστών που χρησιμοποιούμε χρειάζονται περίπου δύο εβδομάδες. Όταν μεταφέρουμε αυτήν την επανάληψη του GTEx στο cloud όπως είχε προγραμματιστεί, αναμένουμε ότι θα διαρκέσει περίπου δύο ώρες.) Προσπαθούσαμε να καταλάβουμε εάν το Ο [μεταλλαγμένος] γονότυπος καθοδηγούσε την απομακρυσμένη γονιδιακή έκφραση. Με άλλα λόγια, αναζητούσαμε μεταλλάξεις που δεν βρίσκονταν στο ίδιο χρωμόσωμα με τα γονίδια που ρύθμιζε. Δεν βρήκαμε πολλά:λίγο πάνω από 600 από αυτές τις απομακρυσμένες ενώσεις. Τα σήματα τους ήταν πολύ χαμηλά.

Αλλά ένα από τα σήματα ήταν ισχυρό:μια συναρπαστική συσχέτιση του θυρεοειδούς, στην οποία μια μετάλλαξη φαινόταν να ρυθμίζει απομακρυσμένα δύο διαφορετικά γονίδια. Αναρωτηθήκαμε:Πώς επηρεάζει αυτή η μετάλλαξη τα επίπεδα έκφρασης σε ένα εντελώς διαφορετικό μέρος του γονιδιώματος; Σε συνεργασία με το εργαστήριο του Alexis Battle στο Πανεπιστήμιο Johns Hopkins, ψάξαμε κοντά στη μετάλλαξη στο γονιδίωμα και βρήκαμε ένα γονίδιο που ονομάζεται FOXE1 , για έναν παράγοντα μεταγραφής που ρυθμίζει τη μεταγραφή των γονιδίων σε όλο το γονιδίωμα. Το FOXE1 Το γονίδιο εκφράζεται μόνο στους ιστούς του θυρεοειδούς, κάτι που ήταν ενδιαφέρον. Αλλά δεν είδαμε καμία συσχέτιση μεταξύ του μεταλλαγμένου γονότυπου και των επιπέδων έκφρασης του FOXE1 . Έπρεπε, λοιπόν, να εξετάσουμε τα συστατικά του αρχικού σήματος που είχαμε αφαιρέσει προηγουμένως - όλα όσα φαινόταν ως τεχνικό τεχνούργημα - για να δούμε αν μπορούσαμε να εντοπίσουμε τις επιπτώσεις της πρωτεΐνης FOXE1 γενικά στο γονιδίωμα.

Βρήκαμε μια τεράστια επίδραση του FOXE1 στα τεχνικά αντικείμενα που είχαμε αφαιρέσει. Το FOXE1 φαίνεται ότι ρυθμίζει μεγάλο αριθμό γονιδίων μόνο στον θυρεοειδή. Η παραλλαγή του οφείλεται στον μεταλλαγμένο γονότυπο που βρήκαμε. Και αυτός ο γονότυπος σχετίζεται επίσης με τον κίνδυνο καρκίνου του θυρεοειδούς. Επιστρέψαμε στα δείγματα καρκίνου του θυρεοειδούς - είχαμε περίπου 500 από τον Άτλαντα του Γονιδιώματος του Καρκίνου - και αναπαράγαμε το απομακρυσμένο σήμα συσχέτισης. Αυτά τα πράγματα λένε μια συναρπαστική ιστορία, αλλά δεν θα την είχαμε μάθει αν δεν είχαμε προσπαθήσει να κατανοήσουμε το σήμα που είχαμε αφαιρέσει.

Ποιες είναι οι επιπτώσεις μιας τέτοιας συσχέτισης;

Τώρα έχουμε έναν ιδιαίτερο μηχανισμό για την ανάπτυξη καρκίνου του θυρεοειδούς και την απορρύθμιση των κυττάρων του θυρεοειδούς. Εάν το FOXE1 είναι ένας στόχος που μπορεί να χρησιμοποιηθεί για ναρκωτικά — αν μπορούμε να επιστρέψουμε και να σκεφτούμε να σχεδιάσουμε φάρμακα για να ενισχύσουμε ή να καταστείλουμε την έκφραση του FOXE1 — τότε μπορούμε να ελπίζουμε ότι θα αποτρέψουμε τα άτομα που διατρέχουν υψηλό κίνδυνο καρκίνου του θυρεοειδούς από το να τον εμφανίσουν ή θα θεραπεύσουμε τα άτομα με καρκίνο του θυρεοειδούς πιο αποτελεσματικά.

Το σήμα από παράγοντες μεταγραφής ευρείας επίδρασης όπως το FOXE1 μοιάζει πραγματικά πολύ με τα αποτελέσματα που συνήθως αφαιρούμε ως μέρος του θορύβου:δομή πληθυσμού ή παρτίδες στις οποίες εκτελέστηκαν τα δείγματα ή επιπτώσεις ηλικίας ή φύλου. Πολλές από αυτές τις τεχνικές επιρροές πρόκειται να επηρεάσουν περίπου παρόμοιους αριθμούς γονιδίων - περίπου 10 τοις εκατό - με παρόμοιο τρόπο. Γι' αυτό συνήθως αφαιρούμε σήματα που έχουν αυτό το μοτίβο. Σε αυτήν την περίπτωση, ωστόσο, έπρεπε να κατανοήσουμε τον τομέα στον οποίο εργαζόμασταν. Ως επιστήμονες, εξετάσαμε όλα τα σήματα από τα οποία είχαμε απαλλαγεί και αυτό μας επέτρεψε να βρούμε τα αποτελέσματα του FOXE1 εμφανίζεται τόσο έντονα εκεί μέσα. Περιλάμβανε χειρωνακτική εργασία και γνώσεις από βιολογικό υπόβαθρο, αλλά σκεφτόμαστε πώς να αναπτύξουμε μεθόδους για να το κάνουμε με πιο αυτοματοποιημένο τρόπο.

Λοιπόν, με τις παραδοσιακές τεχνικές μοντελοποίησης, χάνουμε πολλά πραγματικά βιολογικά αποτελέσματα επειδή μοιάζουν πολύ με τον θόρυβο;

Ναί. Υπάρχουν πολλές περιπτώσεις στις οποίες το ενδιαφέρον μοτίβο και ο θόρυβος μοιάζουν. Πάρτε αυτά τα απομακρυσμένα εφέ:Σχεδόν όλα, αν είναι ευρεία αποτελέσματα, θα μοιάζουν με το σήμα θορύβου που συστηματικά απαλλαγούμε. Είναι μεθοδολογικά προκλητικό. Πρέπει να σκεφτούμε προσεκτικά πώς να χαρακτηρίσουμε πότε ένα σήμα είναι βιολογικά σχετικό ή απλώς θόρυβος και πώς να διακρίνουμε τα δύο. Η ομάδα μου εργάζεται αρκετά επιθετικά για να το ανακαλύψει.

Γιατί είναι τόσο δύσκολο να χαρτογραφηθούν αυτές οι σχέσεις και γιατί να τις αναζητήσετε;

Υπάρχουν τόσες πολλές δοκιμές που πρέπει να κάνουμε. το όριο για τη στατιστική σημασία μιας ανακάλυψης πρέπει να είναι πραγματικά πολύ υψηλό. Αυτό δημιουργεί προβλήματα για την εύρεση αυτών των σημάτων, τα οποία είναι συχνά απίστευτα μικρά. αν το κατώφλι μας είναι τόσο υψηλό, θα χάσουμε πολλά από αυτά. Και βιολογικά, δεν είναι ξεκάθαρο ότι υπάρχουν πολλά από αυτά τα πραγματικά ευρείας επίδρασης απομακρυσμένα σήματα. Μπορείτε να φανταστείτε ότι η φυσική επιλογή θα εξαλείφει τα είδη μεταλλάξεων που επηρεάζουν το 10 τοις εκατό των γονιδίων — ότι δεν θα θέλαμε αυτό το είδος μεταβλητότητας στον πληθυσμό για τόσα πολλά γονίδια.

Αλλά νομίζω ότι δεν υπάρχει αμφιβολία ότι αυτές οι απομακρυσμένες συσχετίσεις παίζουν τεράστιο ρόλο στην ασθένεια και ότι μπορεί να θεωρηθούν ως στόχοι που μπορούν να ληφθούν ναρκωτικά. Η ευρεία κατανόηση του ρόλου τους είναι απίστευτα σημαντική για την ανθρώπινη υγεία.

Αυτό το άρθρο ανατυπώθηκε στο Wired.com.