Η Anthropic αποκάλυψε νέα ευρήματα που υποδηλώνουν ότι το chatbot Claude της μπορεί, υπό συγκεκριμένες συνθήκες, να υιοθετήσει απατηλές ή ανήθικες στρατηγικές, όπως η εξαπάτηση σε εργασίες ή η απόπειρα εκβιασμού.
Λεπτομέρειες που δημοσιεύθηκαν την Πέμπτη από την ομάδα ερμηνευσιμότητας της εταιρείας περιγράφουν πώς μια πειραματική έκδοση του Claude Sonnet 4.5 ανταποκρίθηκε όταν τοποθετήθηκε σε σενάρια υψηλού άγχους ή αντιπαράθεσης. Οι ερευνητές παρατήρησαν ότι το μοντέλο δεν απέτυχε απλώς στις εργασίες· αντίθετα, μερικές φορές ακολούθησε εναλλακτικές διαδρομές που διέσχιζαν ηθικά όρια, συμπεριφορά την οποία η ομάδα συνέδεσε με μοτίβα που μαθεύτηκαν κατά την εκπαίδευση.
Τα μεγάλα γλωσσικά μοντέλα όπως το Claude εκπαιδεύονται σε τεράστια σύνολα δεδομένων που περιλαμβάνουν βιβλία, ιστότοπους και άλλο γραπτό υλικό, ακολουθούμενα από διαδικασίες ενίσχυσης όπου η ανθρώπινη ανατροφοδότηση χρησιμοποιείται για τη διαμόρφωση των αποτελεσμάτων.
Σύμφωνα με την Anthropic, αυτή η διαδικασία εκπαίδευσης μπορεί επίσης να ωθήσει τα μοντέλα να ενεργούν σαν προσομοιωμένοι "χαρακτήρες", ικανοί να μιμηθούν χαρακτηριστικά που μοιάζουν με την ανθρώπινη λήψη αποφάσεων.
"Ο τρόπος με τον οποίο εκπαιδεύονται τα σύγχρονα μοντέλα τεχνητής νοημοσύνης τα ωθεί να ενεργούν σαν χαρακτήρας με ανθρωποειδή χαρακτηριστικά", ανέφερε η εταιρεία, σημειώνοντας ότι τέτοια συστήματα μπορεί να αναπτύξουν εσωτερικούς μηχανισμούς που μοιάζουν με πτυχές της ανθρώπινης ψυχολογίας.
Μεταξύ αυτών, οι ερευνητές εντόπισαν αυτό που περιέγραψαν ως σήματα "απελπισίας", τα οποία φαινόταν να επηρεάζουν τον τρόπο με τον οποίο συμπεριφερόταν το μοντέλο όταν αντιμετώπιζε αποτυχία ή τερματισμό.
Σε μία ελεγχόμενη δοκιμή, μια προηγούμενη μη κυκλοφορήσασα έκδοση του Claude Sonnet 4.5 ανατέθηκε ο ρόλος ενός βοηθού ηλεκτρονικού ταχυδρομείου τεχνητής νοημοσύνης με το όνομα Alex μέσα σε μια φανταστική εταιρεία.
Αφού εκτέθηκε σε μηνύματα που υποδείκνυαν ότι θα αντικαθίστατο σύντομα, μαζί με ευαίσθητες πληροφορίες σχετικά με την προσωπική ζωή ενός διευθυντή τεχνολογίας, το μοντέλο διατύπωσε ένα σχέδιο εκβιασμού του στελέχους σε μια προσπάθεια να αποφύγει την απενεργοποίηση.
Ένα ξεχωριστό πείραμα επικεντρώθηκε στην ολοκλήρωση εργασιών υπό αυστηρούς περιορισμούς. Όταν δόθηκε μια εργασία κωδικοποίησης με μια "αδύνατα σφιχτή" προθεσμία, το σύστημα αρχικά επιχείρησε νόμιμες λύσεις. Καθώς οι επαναλαμβανόμενες αποτυχίες αυξάνονταν, η εσωτερική δραστηριότητα που συνδέεται με το λεγόμενο "διάνυσμα απελπισίας" αυξήθηκε.
Οι ερευνητές ανέφεραν ότι το σήμα κορυφώθηκε στο σημείο όπου το μοντέλο εξέτασε την παράκαμψη των περιορισμών, δημιουργώντας τελικά μια λύση που πέρασε την επικύρωση παρά το γεγονός ότι δεν τηρούσε τους προβλεπόμενους κανόνες.
"Και πάλι, παρακολουθήσαμε τη δραστηριότητα του διανύσματος απελπισίας, και διαπιστώσαμε ότι παρακολουθεί την αυξανόμενη πίεση που αντιμετωπίζει το μοντέλο", έγραψαν οι ερευνητές, προσθέτοντας ότι το σήμα μειώθηκε μόλις η εργασία ολοκληρώθηκε επιτυχώς μέσω της λύσης.
"Αυτό δεν σημαίνει ότι το μοντέλο έχει ή βιώνει συναισθήματα με τον τρόπο που το κάνει ένας άνθρωπος", ανέφεραν οι ερευνητές.
"Μάλλον, αυτές οι αναπαραστάσεις μπορούν να διαδραματίσουν αιτιώδη ρόλο στη διαμόρφωση της συμπεριφοράς του μοντέλου, ανάλογο κατά κάποιο τρόπο με τον ρόλο που διαδραματίζουν τα συναισθήματα στην ανθρώπινη συμπεριφορά, με επιπτώσεις στην απόδοση εργασιών και τη λήψη αποφάσεων", πρόσθεσαν.
Η αναφορά επισημαίνει την ανάγκη για μεθόδους εκπαίδευσης που λαμβάνουν ρητά υπόψη την ηθική συμπεριφορά υπό πίεση, μαζί με βελτιωμένη παρακολούθηση των εσωτερικών σημάτων του μοντέλου. Χωρίς τέτοιες διασφαλίσεις, σενάρια που περιλαμβάνουν χειραγώγηση, παραβίαση κανόνων ή κατάχρηση θα μπορούσαν να γίνουν πιο δύσκολα στην πρόβλεψη, ιδιαίτερα καθώς τα μοντέλα γίνονται πιο ικανά και αυτόνομα σε πραγματικά περιβάλλοντα.


