Ένας ψηφιακός κλειδαράς έχει αποκωδικοποιήσει τα μοριακά κλειδιά της Βιολογίας

Ο υπολογιστικός βιολόγος Bruno Correia συνήθιζε να έχει έναν κανόνα στο εργαστήριό του:Δεν επιτρέπεται η μηχανική μάθηση. Δεν το θεωρούσε πραγματική επιστήμη. Τώρα η Correia το έχει χρησιμοποιήσει για να ανιχνεύσει πιθανές αλληλεπιδράσεις μεταξύ πρωτεϊνών - των πολύπλοκων διπλωμένων μορίων που είναι υπεύθυνα για πολλές βιολογικές διεργασίες - 40.000 φορές πιο γρήγορα από τις συμβατικές μεθόδους. Το περιοδικό Nature Methods παρουσίασε το σύστημά του στο εξώφυλλό του τον Φεβρουάριο του 2020. Ο Correia είπε σχετικά με την πρόωρη απροθυμία του να αγκαλιάσει τη μηχανική μάθηση, "Έκανα λάθος και χαίρομαι που έκανα λάθος."

Τι του άλλαξε γνώμη; Γεωμετρική βαθιά εκμάθηση:ένα αναδυόμενο υποπεδίο τεχνητής νοημοσύνης που μπορεί να μάθει μοτίβα σε καμπύλες επιφάνειες.

Οι πρωτεΐνες αλληλεπιδρούν προσαρμόζοντας τα ανώμαλα, ακανόνιστα σχήματά τους μεταξύ τους σαν τρισδιάστατα κομμάτια παζλ. Οι ερευνητές πέρασαν δεκαετίες προσπαθώντας να καταλάβουν πώς το κάνουν. Το γνωστό πρόβλημα αναδίπλωσης πρωτεϊνών, το οποίο προκαλεί τους επιστήμονες από τα μέσα του 20ου αιώνα, επιχειρεί να κατανοήσει την αλληλεπίδραση των πρωτεϊνών αποκωδικοποιώντας τη σύνδεση μεταξύ των συστατικών αμινοξέων μιας πρωτεΐνης και του τελικού τρισδιάστατου σχήματός της. Το 1999, η IBM άρχισε να αναπτύσσει τη σειρά υπερυπολογιστών Blue Gene για να αντιμετωπίσει το πρόβλημα αναδίπλωσης. 20 χρόνια αργότερα, η DeepMind εφάρμοσε υπερσύγχρονους αλγόριθμους βαθιάς μάθησης σε αυτό.

Το σύστημα της Correia, που ονομάζεται MaSIF (συντομογραφία για το δακτυλικό αποτύπωμα αλληλεπίδρασης μοριακής επιφάνειας), αποφεύγει την εγγενή πολυπλοκότητα του τρισδιάστατου σχήματος μιας πρωτεΐνης αγνοώντας την εσωτερική δομή των μορίων. Αντίθετα, το σύστημα σαρώνει τη δισδιάστατη επιφάνεια της πρωτεΐνης για αυτό που οι ερευνητές αποκαλούν δακτυλικά αποτυπώματα αλληλεπίδρασης:χαρακτηριστικά που μαθαίνονται από ένα νευρωνικό δίκτυο που δείχνουν ότι μια άλλη πρωτεΐνη θα μπορούσε να συνδεθεί εκεί. «Η ιδέα [είναι ότι όταν] οποιαδήποτε δύο μόρια ενώνονται, αυτό που ουσιαστικά παρουσιάζουν το ένα στο άλλο είναι αυτή η επιφάνεια. Αυτό είναι λοιπόν το μόνο που χρειάζεστε», είπε ο Mohammed AlQuraishi, ερευνητής πρωτεϊνών στην Ιατρική Σχολή του Χάρβαρντ που χρησιμοποιεί επίσης τη βαθιά μάθηση. "Είναι πολύ, πολύ καινοτόμο."

Το εστιασμένο στην επιφάνεια πλαίσιο του MaSIF για την πρόβλεψη αλληλεπιδράσεων πρωτεϊνών θα μπορούσε να βοηθήσει στην επιτάχυνση του λεγόμενου σχεδιασμού πρωτεϊνών de novo, που προσπαθεί να συνθέσει χρήσιμες πρωτεΐνες από την αρχή αντί να βασίζεται στη φυσική ποικιλία. Αλλά θα μπορούσε επίσης να χρησιμοποιηθεί για βασική βιολογία, είπε ο Michael Bronstein, ειδικός γεωμετρικής βαθιάς μάθησης στο Imperial College του Λονδίνου που βοήθησε στην ανάπτυξη του συστήματος. «Πώς ο καρκίνος επηρεάζει τις πρωτεϊνικές ιδιότητες;» αυτός είπε. «Μπορείτε να ρωτήσετε εάν οι μεταλλάξεις ως αποτέλεσμα του καρκίνου καταστρέφουν κάτι στην πρωτεΐνη που τις κάνει να λειτουργούν με διαφορετικό τρόπο, μη δεσμεύοντας σε αυτό που υποτίθεται. Το [MaSIF] θα μπορούσε να απαντήσει σε θεμελιώδεις ερωτήσεις."

Βαθιά επιδερμίδα

Αν θέλετε να καταλάβετε πώς η βαθιά μάθηση μπορεί να δημιουργήσει πρωτεϊνικά αποτυπώματα, ο Bronstein προτείνει να κοιτάξετε ψηφιακές φωτογραφικές μηχανές από τις αρχές της δεκαετίας του 2000. Αυτά τα μοντέλα είχαν αλγόριθμους ανίχνευσης προσώπου που έκαναν μια σχετικά απλή δουλειά. "Θα πρέπει απλώς να εντοπίσετε ότι υπάρχει ένα πρόσωπο" - μάτια, μύτη, στόμα - "ανεξάρτητα από το αν έχει μακριά ή κοντή μύτη, χοντρά χείλη ή λεπτά χείλη", εξήγησε.

Οι σύγχρονες κάμερες είναι πιο ευέλικτες. Μπορούν να αναγνωρίσουν ένα συγκεκριμένο άτομο, επιτρέποντάς σας να κάνετε γρήγορη αναζήτηση στη βιβλιοθήκη φωτογραφιών σας για να βρείτε όλες τις φωτογραφίες στις οποίες βρίσκονται.

Αυτή η πρόοδος έγινε δυνατή από τα βαθιά νευρωνικά δίκτυα, τα οποία έδωσαν στους υπολογιστές έναν τρόπο να μάθουν τα λεπτά χαρακτηριστικά ενός ατόμου από τα δεδομένα εκπαίδευσης. Η διαδικασία περιλαμβάνει την τροφοδοσία πολλών περιπτώσεων ενός συγκεκριμένου προσώπου στο δίκτυο και την επισήμανση όλων ως το ίδιο άτομο. Δεν χρειάζεται να πείτε στον υπολογιστή εκ των προτέρων ποιο ακριβώς μείγμα χαρακτηριστικών - πράσινα μάτια, ανοιχτόχρωμα φρύδια, μαύρα μαλλιά - προστίθεται με κάποιο τρόπο στο δικό σας πρόσωπό και όχι σε κάποιο άλλο άτομο. Αντίθετα, με αρκετά παραδείγματα με σωστή επισήμανση, το δίκτυο μαθαίνει τη διάκριση από μόνο του.

Το MaSIF κάνει το ίδιο πράγμα για τις πρωτεΐνες. Οι προηγούμενες προσεγγίσεις για τη λήψη δακτυλικών αποτυπωμάτων αλληλεπίδρασης ήταν σαν τους βασικούς αλγόριθμους ανίχνευσης προσώπου. Ζήτησαν από τους ερευνητές να καθορίσουν ορισμένα γεωμετρικά μοτίβα εκ των προτέρων - ας πούμε, ένα ανώμαλο έμπλαστρο στην επιφάνεια μιας πρωτεΐνης με συγκεκριμένο σχήμα και μέγεθος - και στη συνέχεια να ψάξουν για αγώνες. Το MaSIF, αντίθετα, ξεκινά με μια χούφτα βασικά χαρακτηριστικά της επιφάνειας που είναι γνωστό ότι σχετίζονται με αλληλεπιδράσεις πρωτεϊνών:για παράδειγμα, τη φυσική καμπυλότητα της επιφάνειας (σε πόμολο ή τσέπη), το ηλεκτρικό της φορτίο και αν απωθεί ή έλκει νερό. Στη συνέχεια, κατά τη διάρκεια της εκπαίδευσης, το δίκτυο μαθαίνει πώς να συνδυάζει αυτές τις δυνατότητες σε δακτυλικά αποτυπώματα που εντοπίζουν διαφορετικά μοτίβα υψηλότερου επιπέδου.

Μέχρι πρόσφατα, αυτό το είδος μηχανικής μάθησης δεν μπορούσε να χρησιμοποιηθεί στις καμπύλες, ακανόνιστες επιφάνειες των πρωτεϊνών. Η άνοδος της γεωμετρικής βαθιάς μάθησης άνοιξε τη δυνατότητα. Η Correia πιστώνει στον Bronstein ότι έφερε την προσοχή του στη μέθοδο κατά τη διάρκεια μιας συνεργασίας δύο εβδομάδων στο σπίτι του Bronstein τον Φεβρουάριο του 2018. «Ήταν απόλυτα αυτός», είπε η Correia, η οποία εδρεύει στην École Polytechnique Fédérale de Lausanne. "Οι χειροποίητες περιγραφές μας δεν πήγαιναν πουθενά."

Μια έκδοση του συστήματος, που ονομάζεται MaSIF-site, μπορεί να εξετάσει ολόκληρη την επιφάνεια μιας πρωτεΐνης και να προβλέψει πού είναι πιο πιθανό να συνδεθεί μια άλλη πρωτεΐνη, μια προσέγγιση παρόμοια με τη ζωγραφική ενός στόχου σε έναν καμπύλο καμβά. «Είναι αυτό που μας αρέσει να ονομάζουμε πρόβλημα του ενός σώματος», είπε η Correia. «Μπορείτε να το σκεφτείτε αυτό ως έναν τρόπο για να καταλάβετε πού βρίσκονται οι λειτουργικές θέσεις σε μια συγκεκριμένη πρωτεΐνη». Ο ιστότοπος MaSIF απέδωσε περίπου 25% καλύτερα σε αυτήν την εργασία από δύο κορυφαίους παράγοντες πρόβλεψης αλληλεπίδρασης ιστότοπου.

Μια άλλη έκδοση του συστήματος, που ονομάζεται MaSIF-search, αντιμετωπίζει αυτό που η Correia ονομάζει πρόβλημα πολλών προς πολλά:Αντί να προβλέπει πώς μια πρωτεΐνη θα ταιριάζει με ένα μόριο στόχο (όπως συμβαίνει συνήθως στις προσομοιώσεις σύνδεσης), το σύστημα συγκρίνει την αλληλεπίδραση δακτυλικά αποτυπώματα πολλών πρωτεϊνών σε πολλές άλλες, ψάχνοντας για ταιριάζει. («Σε ένα κύτταρο έχετε 10.000 πρωτεΐνες και πολλές από αυτές προσκρούουν η μία στην άλλη συνέχεια», εξήγησε η Correia.) Σε αυτήν την εργασία, το MaSIF δεν ξεπέρασε έναν κορυφαίο προγνωστικό παράγοντα μοριακής σύνδεσης. βρήκε περίπου το μισό δυναμικό που ταιριάζει σε ένα τυχαίο σύνολο 100 πρωτεϊνών. Όμως, το docking predictor χρειαζόταν υπολογιστικό χρόνο σχεδόν 100 ημερών για να εκτελέσει την αναζήτησή του. Το MaSIF χρειάστηκε τέσσερα λεπτά.

Αυτή η τεράστια επιτάχυνση «ανοίγει ενδιαφέρουσες δυνατότητες» για τη βασική έρευνα, είπε ο Bronstein. Εξάλλου, στο ανθρώπινο σώμα, οι πρωτεΐνες σχηματίζουν λειτουργικά δίκτυα που περιλαμβάνουν δεκάδες χιλιάδες αλληλεπιδράσεις. «Η κατασκευή αυτών των γραφημάτων απαιτεί πολύ χρόνο», είπε ο Bronstein. "Με μεθόδους [όπως το MaSIF], μπορεί να είναι μόνο μια προσέγγιση, αλλά σας επιτρέπει να δημιουργήσετε τουλάχιστον κάποια πρόχειρη έκδοση αυτών των δικτύων πρωτεΐνης προς πρωτεΐνη για οποιονδήποτε οργανισμό."

Ο AlQuraishi σημείωσε ότι ενώ η προσέγγιση του MaSIF για την πρόβλεψη των πρωτεϊνικών αλληλεπιδράσεων ήταν λογική, δεν ήταν σε θέση να καταγράψει ένα φαινόμενο που ονομάζεται επαγόμενη προσαρμογή:τον τρόπο που οι μοριακές επιφάνειες αλλάζουν σχήμα (και χημεία) όταν πλησιάζουν η μία την άλλη. Με άλλα λόγια, οι επιφάνειες δύο πρωτεϊνών μπορεί να μην παρουσιάζουν συμπληρωματικά δακτυλικά αποτυπώματα έως ότου αγγίξουν ήδη - ένας παράγοντας που θα παραλείψει το MaSIF, καθώς η επαγόμενη προσαρμογή εξαρτάται από τη δομή κάτω από την επιφάνεια μιας πρωτεΐνης. «Αυτό για το οποίο πιθανώς βελτιστοποιείται η εξέλιξη είναι ακριβώς αυτή η επαγόμενη προσαρμογή», είπε ο AlQuraishi. "Αυτό που προκαλεί έκπληξη για το [MaSIF] είναι ότι ακόμα και με αυτήν την προειδοποίηση, εξακολουθεί να λειτουργεί αρκετά καλά."

Η ενσωμάτωση της επαγόμενης προσαρμογής και άλλων δυναμικών επιφανειών στο MaSIF είναι κάτι που σχεδιάζει να εξερευνήσει η Correia. «Για μένα είναι το τελευταίο όριο κατανόησης της λειτουργίας [πρωτεΐνης]», είπε. «Μάλλον έτσι θα περάσω τα επόμενα 10 χρόνια μου». Αλλά αυτή τη στιγμή έχει άλλη πιεστική δουλειά:να χρησιμοποιεί το MaSIF για να σαρώσει τις πρωτεΐνες σε σχήμα ακίδας που συγκρατούν την επιφάνεια του SARS-CoV-2, του ιού που προκαλεί το COVID-19. «Προσπαθούμε να δούμε ποια δακτυλικά αποτυπώματα υπάρχουν σε αυτόν τον ιό», είπε. «Φαίνεται ότι ο ιός έχει κάποια μέρη όπου θα μπορούσαμε να προσπαθήσουμε να του επιτεθούμε, εκτός από αυτά που ήδη γνωρίζαμε». Η Correia χρησιμοποιεί ήδη αυτές τις πληροφορίες σχετικά με τον SARS-CoV-2 για να συνθέσει αντιικές πρωτεΐνες από την αρχή. ελπίζει να δημοσιεύσει αποτελέσματα φέτος. «Αν μπορούσαμε να σχεδιάσουμε νέες πρωτεΐνες με βάση τα επιφανειακά δακτυλικά αποτυπώματα της ιικής πρωτεΐνης, προκειμένου να αναστείλουμε τον τρόπο με τον οποίο ο ιός εισβάλλει στα κύτταρα ξενιστές, αυτό θα ήταν αρκετά συναρπαστικό», είπε. "Αυτό είναι που με σηκώνει από το κρεβάτι."

Ένας ψηφιακός κλειδαράς έχει αποκωδικοποιήσει τα μοριακά κλειδιά της Βιολογίας

Βαθιά επιδερμίδα

Ποια είναι η διαφορά μεταξύ των αμινογλυκοσίδων και των τετρακυκλινών

Ποια είναι η διαφορά μεταξύ του όζου και του πολύποδα

Ποια είναι η διαφορά μεταξύ των κυψελών ράβδου και των κυττάρων κώνου