Εκεί που βλέπουμε σχήματα, η τεχνητή νοημοσύνη βλέπει υφές

Όταν κοιτάζετε μια φωτογραφία μιας γάτας, το πιθανότερο είναι ότι μπορείτε να αναγνωρίσετε το εικονιζόμενο ζώο είτε είναι τζίντζερ είτε ριγέ — ή αν η εικόνα είναι ασπρόμαυρη, διάστικτη, φθαρμένη ή ξεθωριασμένη. Πιθανότατα μπορείτε επίσης να εντοπίσετε το κατοικίδιο ζώο όταν εμφανίζεται κουλουριασμένο πίσω από ένα μαξιλάρι ή πηδώντας σε έναν πάγκο με θόλωση κίνησης. Έχετε μάθει φυσικά να αναγνωρίζετε μια γάτα σχεδόν σε οποιαδήποτε κατάσταση. Αντίθετα, τα συστήματα μηχανικής όρασης που τροφοδοτούνται από βαθιά νευρωνικά δίκτυα μπορούν μερικές φορές να ξεπεράσουν ακόμη και τους ανθρώπους στην αναγνώριση μιας γάτας υπό σταθερές συνθήκες, αλλά οι εικόνες που είναι έστω και λίγο πρωτότυπες, θορυβώδεις ή κοκκώδεις μπορούν να απορρίψουν εντελώς αυτά τα συστήματα.

Μια ερευνητική ομάδα στη Γερμανία ανακάλυψε τώρα έναν απροσδόκητο λόγο:Ενώ οι άνθρωποι δίνουν προσοχή στα σχήματα των αντικειμένων που απεικονίζονται, οι αλγόριθμοι όρασης υπολογιστών βαθιάς μάθησης προσκολλώνται συνήθως στις υφές των αντικειμένων.

Αυτό το εύρημα, που παρουσιάστηκε στη Διεθνή Διάσκεψη για τις Εκπαιδευτικές Αναπαραστάσεις τον Μάιο, υπογραμμίζει την έντονη αντίθεση μεταξύ του τρόπου με τον οποίο «σκέφτονται» οι άνθρωποι και οι μηχανές και δείχνει πόσο παραπλανητική μπορεί να είναι η διαίσθησή μας σχετικά με το τι κάνει την τεχνητή νοημοσύνη. Μπορεί επίσης να υπονοεί γιατί το δικό μας όραμα εξελίχθηκε με τον τρόπο που εξελίχθηκε.

Γάτες με δέρμα ελέφαντα και αεροπλάνα από ρολόγια

Οι αλγόριθμοι βαθιάς μάθησης λειτουργούν, ας πούμε, παρουσιάζοντας ένα νευρωνικό δίκτυο με χιλιάδες εικόνες που είτε περιέχουν είτε δεν περιέχουν γάτες. Το σύστημα βρίσκει μοτίβα σε αυτά τα δεδομένα, τα οποία στη συνέχεια χρησιμοποιεί για να αποφασίσει τον καλύτερο τρόπο επισήμανσης μιας εικόνας που δεν έχει ξαναδεί. Η αρχιτεκτονική του δικτύου διαμορφώνεται χαλαρά σε αυτήν του ανθρώπινου οπτικού συστήματος, καθώς τα συνδεδεμένα στρώματα του επιτρέπουν να εξάγει όλο και πιο αφηρημένα χαρακτηριστικά από την εικόνα. Αλλά το σύστημα κάνει τους συσχετισμούς που το οδηγούν στη σωστή απάντηση μέσω μιας διαδικασίας μαύρου κουτιού που οι άνθρωποι μπορούν να προσπαθήσουν να ερμηνεύσουν μόνο εκ των υστέρων. «Προσπαθούμε να καταλάβουμε τι οδηγεί στην επιτυχία αυτών των αλγορίθμων όρασης υπολογιστών βαθιάς μάθησης και τι οδηγεί στην ευθραυστότητά τους», δήλωσε ο Thomas Dietterich, επιστήμονας υπολογιστών στο Πανεπιστήμιο του Όρεγκον που δεν συμμετείχε στη νέα μελέτη.

Για να γίνει αυτό, ορισμένοι ερευνητές προτιμούν να εξετάσουν τι συμβαίνει όταν ξεγελούν το δίκτυο τροποποιώντας μια εικόνα. Ανακάλυψαν ότι πολύ μικρές αλλαγές μπορεί να προκαλέσουν το σύστημα να επισημάνει εντελώς εσφαλμένα αντικείμενα σε μια εικόνα — και ότι οι μεγάλες αλλαγές μπορεί μερικές φορές να μην κάνουν το σύστημα να τροποποιήσει καθόλου την ετικέτα του. Εν τω μεταξύ, άλλοι ειδικοί έχουν κάνει πίσω μέσω δικτύων για να αναλύσουν τι αποκρίνονται οι μεμονωμένοι «νευρώνες» σε μια εικόνα, δημιουργώντας έναν «άτλαντα ενεργοποίησης» χαρακτηριστικών που έχει μάθει το σύστημα.

Όμως μια ομάδα επιστημόνων στα εργαστήρια του υπολογιστικού νευροεπιστήμονα Matthias Bethge και του ψυχοφυσικού Felix Wichmann στο Πανεπιστήμιο του Tübingen στη Γερμανία ακολούθησε μια πιο ποιοτική προσέγγιση. Πέρυσι, η ομάδα ανέφερε ότι όταν εκπαίδευσαν ένα νευρωνικό δίκτυο σε εικόνες που υποβαθμίζονται από ένα συγκεκριμένο είδος θορύβου, ήταν καλύτερο από τους ανθρώπους στην ταξινόμηση νέων εικόνων που είχαν υποστεί τον ίδιο τύπο παραμόρφωσης. Αλλά αυτές οι εικόνες, όταν αλλοιώθηκαν με ελαφρώς διαφορετικό τρόπο, εξαπάτησαν εντελώς το δίκτυο, παρόλο που η νέα παραμόρφωση φαινόταν σχεδόν ίδια με την παλιά στους ανθρώπους.

Για να εξηγήσουν αυτό το αποτέλεσμα, οι ερευνητές σκέφτηκαν ποια ποιότητα αλλάζει περισσότερο με ακόμη και μικρά επίπεδα θορύβου. Η υφή φαινόταν η προφανής επιλογή. «Το σχήμα του αντικειμένου… είναι λίγο-πολύ άθικτο αν προσθέσετε πολύ θόρυβο για μεγάλο χρονικό διάστημα», είπε ο Robert Geirhos, μεταπτυχιακός φοιτητής στα εργαστήρια Bethge's και Wichmann και ο κύριος συγγραφέας της μελέτης. Αλλά «η τοπική δομή σε μια εικόνα — που παραμορφώνεται εξαιρετικά γρήγορα όταν προσθέτετε λίγο θόρυβο». Έτσι, βρήκαν έναν έξυπνο τρόπο για να δοκιμάσουν πώς τόσο οι άνθρωποι όσο και τα συστήματα βαθιάς μάθησης επεξεργάζονται εικόνες.

Ο Geirhos, η Bethge και οι συνάδελφοί τους δημιούργησαν εικόνες που περιελάμβαναν δύο αντικρουόμενες ενδείξεις, με σχήμα που λαμβάνεται από ένα αντικείμενο και υφή από άλλο:τη σιλουέτα μιας γάτας χρωματισμένη με τη ραγισμένη γκρίζα υφή του δέρματος ελέφαντα, για παράδειγμα, ή μια αρκούδα φτιαγμένη από δοχεία αλουμινίου ή το περίγραμμα ενός αεροπλάνου γεμάτο με επικαλυπτόμενες όψεις ρολογιού. Παρουσιάστηκαν με εκατοντάδες από αυτές τις εικόνες, οι άνθρωποι τις επισήμαναν με βάση το σχήμα τους - γάτα, αρκούδα, αεροπλάνο - σχεδόν κάθε φορά, όπως αναμενόταν. Τέσσερις διαφορετικοί αλγόριθμοι ταξινόμησης, ωστόσο, έγειραν προς την αντίθετη κατεύθυνση, φτύνοντας ετικέτες που αντανακλούσαν την υφή των αντικειμένων:ελέφαντας, κονσέρβα, ρολόι.

«Αυτό αλλάζει την κατανόησή μας για το πώς τα νευρωνικά δίκτυα βαθιάς τροφοδοσίας - out of the box, ή ο τρόπος που συνήθως εκπαιδεύονται - κάνουν οπτική αναγνώριση», δήλωσε ο Nikolaus Kriegeskorte, ένας υπολογιστικός νευροεπιστήμονας στο Πανεπιστήμιο Columbia που δεν συμμετείχε στην μελέτη.

Όσο περίεργο κι αν φαίνεται αρχικά η προτίμηση της τεχνητής νοημοσύνης για την υφή έναντι του σχήματος, είναι λογικό. «Μπορείτε να σκεφτείτε την υφή ως σχήμα σε λεπτή κλίμακα», είπε ο Kriegeskorte. Αυτή η λεπτή κλίμακα είναι πιο εύκολο για το σύστημα να προσκολληθεί σε:Ο αριθμός των εικονοστοιχείων με πληροφορίες υφής υπερβαίνει κατά πολύ τον αριθμό των εικονοστοιχείων που αποτελούν το όριο ενός αντικειμένου και τα πρώτα βήματα του δικτύου περιλαμβάνουν τον εντοπισμό τοπικών χαρακτηριστικών όπως γραμμές και άκρες. «Αυτό είναι η υφή», είπε ο Τζον Τσότσος, επιστήμονας υπολογιστικής όρασης στο Πανεπιστήμιο York στο Τορόντο, ο οποίος επίσης δεν συμμετείχε στη νέα εργασία. "Ομαδοποιήσεις τμημάτων γραμμής που όλα ευθυγραμμίζονται με τον ίδιο τρόπο, για παράδειγμα."

Ο Geirhos και οι συνεργάτες του έχουν δείξει ότι αυτά τα τοπικά χαρακτηριστικά είναι επαρκή για να επιτρέψουν σε ένα δίκτυο να εκτελεί εργασίες ταξινόμησης εικόνων. Στην πραγματικότητα, η Bethge και ένας άλλος από τους συγγραφείς της μελέτης, ο μεταδιδακτορικός ερευνητής Wieland Brendel, κατέληξαν σε αυτό το σημείο σε μια εργασία που παρουσιάστηκε επίσης στο συνέδριο τον Μάιο. Σε αυτή την εργασία, έχτισαν ένα σύστημα βαθιάς μάθησης που λειτουργούσε πολύ σαν αλγόριθμους ταξινόμησης πριν από την εμφάνιση της βαθιάς μάθησης - σαν μια «σακούλα με χαρακτηριστικά». Χώρισε μια εικόνα σε μικροσκοπικά μπαλώματα, ακριβώς όπως θα έκαναν αρχικά τα τρέχοντα μοντέλα (όπως αυτά που χρησιμοποίησε ο Geirhos στο πείραμά του), αλλά στη συνέχεια, αντί να ενσωματώσει σταδιακά αυτές τις πληροφορίες για να εξάγει χαρακτηριστικά υψηλότερου επιπέδου, πήρε άμεσες αποφάσεις σχετικά με το περιεχόμενο του κάθε μικρό έμπλαστρο («αυτό το έμπλαστρο περιέχει στοιχεία για ένα ποδήλατο, αυτό το έμπλαστρο περιέχει στοιχεία για ένα πουλί»). Απλώς πρόσθεσε αυτές τις αποφάσεις μαζί για να καθορίσει την ταυτότητα του αντικειμένου («περισσότερα μπαλώματα περιέχουν στοιχεία για ένα ποδήλατο, άρα αυτή είναι μια εικόνα ενός ποδηλάτου»), χωρίς να λαμβάνεται υπόψη οι παγκόσμιες χωρικές σχέσεις μεταξύ των μπαλωμάτων. Και όμως μπορούσε να αναγνωρίσει αντικείμενα με εκπληκτική ακρίβεια.

«Αυτό αμφισβητεί την υπόθεση ότι η βαθιά μάθηση κάνει κάτι εντελώς διαφορετικό» από αυτό που έκαναν τα προηγούμενα μοντέλα, είπε ο Brendel. «Προφανώς… έγινε ένα άλμα. Απλώς προτείνω ότι το άλμα δεν είναι τόσο μακριά όσο μερικοί άνθρωποι ίσως έλπιζαν."

Σύμφωνα με τον Amir Rosenfeld, μεταδιδακτορικό ερευνητή στο Πανεπιστήμιο του York και στο Πανεπιστήμιο του Τορόντο που δεν συμμετείχε στη μελέτη, εξακολουθούν να υπάρχουν «μεγάλες διαφορές μεταξύ αυτού που πιστεύουμε ότι τα δίκτυα πρέπει να κάνουν και αυτού που κάνουν στην πραγματικότητα», συμπεριλαμβανομένου του πόσο καλά αναπαράγονται ανθρώπινη συμπεριφορά.

Ο Μπρέντελ εξέφρασε παρόμοια άποψη. Είναι εύκολο να υποθέσουμε ότι τα νευρωνικά δίκτυα θα λύσουν εργασίες με τον τρόπο που κάνουμε εμείς οι άνθρωποι, είπε. "Αλλά έχουμε την τάση να ξεχνάμε ότι υπάρχουν και άλλοι τρόποι."

Μια ώθηση προς περισσότερη ανθρώπινη όραση

Οι τρέχουσες μέθοδοι βαθιάς εκμάθησης μπορούν να ενσωματώσουν τοπικά χαρακτηριστικά όπως η υφή σε πιο καθολικά μοτίβα όπως το σχήμα. "Αυτό που προκαλεί έκπληξη σε αυτά τα έγγραφα και αποδεικνύεται πολύ επιτακτικά, είναι ότι, ενώ η αρχιτεκτονική το επιτρέπει, δεν συμβαίνει αυτόματα εάν το εκπαιδεύσετε απλώς [να ταξινομήσετε τυπικές εικόνες]", είπε ο Kriegeskorte.

Ο Geirhos ήθελε να δει τι θα συνέβαινε όταν η ομάδα ανάγκαζε τα μοντέλα τους να αγνοήσουν την υφή. Η ομάδα τράβηξε εικόνες που χρησιμοποιούνται παραδοσιακά για την εκπαίδευση αλγορίθμων ταξινόμησης και τις «ζωγράφισε» σε διαφορετικά στυλ, ουσιαστικά αφαιρώντας τις χρήσιμες πληροφορίες υφής. Όταν επανεκπαίδευσαν καθένα από τα μοντέλα βαθιάς μάθησης στις νέες εικόνες, τα συστήματα άρχισαν να βασίζονται σε μεγαλύτερα, πιο σφαιρικά μοτίβα και εμφάνισαν μια προκατάληψη σχήματος πολύ περισσότερο σαν αυτή των ανθρώπων.

Και όταν συνέβη αυτό, οι αλγόριθμοι έγιναν επίσης καλύτεροι στην ταξινόμηση των θορυβωδών εικόνων, ακόμη και όταν δεν είχαν εκπαιδευτεί να αντιμετωπίζουν τέτοιου είδους παραμορφώσεις. «Το δίκτυο που βασίζεται σε σχήμα έγινε πιο ισχυρό δωρεάν», είπε ο Geirhos. "Αυτό μας λέει ότι και μόνο η ύπαρξη του σωστού είδους προκατάληψης για συγκεκριμένες εργασίες, σε αυτήν την περίπτωση η μεροληψία σχήματος, βοηθά πολύ στη γενίκευση σε ένα νέο περιβάλλον."

Υπονοεί επίσης ότι οι άνθρωποι μπορεί φυσικά να έχουν αυτό το είδος προκατάληψης επειδή το σχήμα είναι ένας πιο ισχυρός τρόπος για να ορίσουμε αυτό που βλέπουμε, ακόμη και σε νέες ή θορυβώδεις καταστάσεις. Οι άνθρωποι ζουν σε έναν τρισδιάστατο κόσμο, όπου τα αντικείμενα φαίνονται από πολλές γωνίες κάτω από πολλές διαφορετικές συνθήκες, και όπου οι άλλες αισθήσεις μας, όπως η αφή, μπορούν να συμβάλουν στην αναγνώριση αντικειμένων όπως απαιτείται. Επομένως, είναι λογικό το όραμά μας να δίνει προτεραιότητα στο σχήμα έναντι της υφής. (Επιπλέον, ορισμένοι ψυχολόγοι έχουν δείξει μια σχέση μεταξύ της γλώσσας, της μάθησης και της προκατάληψης του σχήματος των ανθρώπων:Όταν τα πολύ μικρά παιδιά εκπαιδεύτηκαν να δίνουν μεγαλύτερη προσοχή στο σχήμα μαθαίνοντας ορισμένες κατηγορίες λέξεων, αργότερα μπόρεσαν να αναπτύξουν ένα πολύ μεγαλύτερο ουσιαστικό ή αντικείμενο λεξιλόγιο από τα παιδιά που δεν έλαβαν την εκπαίδευση.)

Το έργο χρησιμεύει ως υπενθύμιση ότι «τα δεδομένα ασκούν περισσότερες προκαταλήψεις και επιρροές από ό,τι πιστεύουμε», είπε ο Wichmann. Δεν είναι η πρώτη φορά που οι ερευνητές αντιμετωπίζουν το πρόβλημα:προγράμματα αναγνώρισης προσώπου, αυτοματοποιημένοι αλγόριθμοι πρόσληψης και άλλα νευρωνικά δίκτυα έχουν αποδειχθεί προηγουμένως ότι δίνουν υπερβολική βαρύτητα σε απροσδόκητα χαρακτηριστικά λόγω των βαθιά ριζωμένων προκαταλήψεων στα δεδομένα στα οποία εκπαιδεύτηκαν. Η αφαίρεση αυτών των ανεπιθύμητων μεροληψιών από τη διαδικασία λήψης αποφάσεων αποδείχθηκε δύσκολη, αλλά ο Wichmann είπε ότι η νέα εργασία δείχνει ότι είναι εφικτό, κάτι που βρίσκει ενθαρρυντικό.

Ωστόσο, ακόμη και τα μοντέλα του Geirhos που επικεντρώθηκαν στο σχήμα θα μπορούσαν να νικηθούν από υπερβολικό θόρυβο σε μια εικόνα ή από συγκεκριμένες αλλαγές εικονοστοιχείων - κάτι που δείχνει ότι απέχουν πολύ από την επίτευξη όρασης σε ανθρώπινο επίπεδο. (Με παρόμοιο τρόπο, ο Ρόζενφελντ, ο Τσότσος και ο Μάρκους Σόλμπαχ, μεταπτυχιακός φοιτητής στο εργαστήριο του Τσότσου, δημοσίευσαν επίσης πρόσφατα έρευνα που δείχνει ότι οι αλγόριθμοι μηχανικής μάθησης δεν μπορούν να αντιληφθούν ομοιότητες μεταξύ διαφορετικών εικόνων όπως οι άνθρωποι.) Ωστόσο, με μελέτες σαν αυτές, «εσείς «βάζετε το δάχτυλό σας εκεί όπου οι σημαντικοί μηχανισμοί του ανθρώπινου εγκεφάλου δεν έχουν ακόμη καταγραφεί από αυτά τα μοντέλα», είπε ο Kriegeskorte. Και "σε ορισμένες περιπτώσεις", είπε ο Wichmann, "ίσως η εξέταση του συνόλου δεδομένων είναι πιο σημαντική."

Η Sanja Fidler, επιστήμονας υπολογιστών στο Πανεπιστήμιο του Τορόντο που δεν συμμετείχε στη μελέτη, συμφώνησε. «Εναπόκειται σε εμάς να σχεδιάσουμε έξυπνα δεδομένα, έξυπνες εργασίες», είπε. Αυτή και οι συνάδελφοί της μελετούν πώς η παροχή δευτερευουσών εργασιών στα νευρωνικά δίκτυα μπορεί να τα βοηθήσει να εκτελέσουν την κύρια λειτουργία τους. Εμπνευσμένοι από τα ευρήματα του Geirhos, εκπαίδευσαν πρόσφατα έναν αλγόριθμο ταξινόμησης εικόνων όχι μόνο για να αναγνωρίζει τα ίδια τα αντικείμενα, αλλά και για να προσδιορίζει ποια pixel ήταν μέρος του περιγράμματος ή του σχήματός τους. Το δίκτυο έγινε αυτόματα καλύτερο στην κανονική εργασία αναγνώρισης αντικειμένων. «Με ένα μόνο καθήκον, λαμβάνετε επιλεκτική προσοχή και γίνεστε τυφλοί σε πολλά διαφορετικά πράγματα», είπε ο Fidler. «Αν σας δώσω πολλαπλές εργασίες, μπορεί να γνωρίζετε περισσότερα πράγματα και αυτό μπορεί να μην συμβεί. Είναι το ίδιο για αυτούς τους αλγόριθμους». Η επίλυση διαφόρων εργασιών τους επιτρέπει "να αναπτύξουν προκαταλήψεις προς διαφορετικές πληροφορίες", κάτι που μοιάζει με αυτό που συνέβη στα πειράματα του Geirhos σχετικά με το σχήμα και την υφή.

Όλη αυτή η έρευνα είναι «ένα συναρπαστικό βήμα για την εμβάθυνση της κατανόησής μας για το τι συμβαίνει [στη βαθιά μάθηση], ίσως βοηθώντας μας να ξεπεράσουμε τους περιορισμούς που βλέπουμε», είπε ο Dietterich. "Γι' αυτό μου αρέσει αυτή η σειρά χαρτιών."

Εκεί που βλέπουμε σχήματα, η τεχνητή νοημοσύνη βλέπει υφές

Γάτες με δέρμα ελέφαντα και αεροπλάνα από ρολόγια

Μια ώθηση προς περισσότερη ανθρώπινη όραση

Ποια είναι η διαφορά μεταξύ των κυττάρων Schwann και της θήκης μυελίνης

Τι είναι το Αγγειόσπερμο;

Διαφορά μεταξύ ενεργητικής και παθητικής μεταφοράς