Meta: Πειράματα και δεδομένα που «εκτόξευσαν» το Llama

Ένα συγκεκριμένο εύρημα σχετικά με το πώς χτίζονται τα μοντέλα ΑΙ ενδέχεται να επηρεάσει το ποιος θα μοιραστεί τα οφέλη αυτής της νέας τεχνολογίας. Ήρθε στην επιφάνεια το πώς οι ερευνητές της Meta χρησιμοποίησαν μια διαδικασία που ονομάζεται ablation για να εντοπίσουν δεδομένα που συνέβαλαν στη βελτίωση των μοντέλων τεχνητής νοημοσύνης Llama της εταιρείας.
Στον τομέα της AI, η μέθοδος αυτή, η οποία παραπέμπει σε μια ιατρική τεχνική που καταστρέφει σκόπιμα ιστό με σκοπό τη βελτίωση λειτουργιών, όπως η εγκεφαλική δραστηριότητα, περιλαμβάνει την αφαίρεση μερών ενός συστήματος για να μελετηθεί πόσο συμβάλλουν αυτά στην τελική απόδοση. Σύμφωνα με το BusinessInsider, στα συγκεκριμένα πειράματα της Meta, αντικαταστάθηκε ένα τμήμα των δεδομένων εκπαίδευσης των μοντέλων της με «πειρατικά» βιβλία από μια τεράστια βάση δεδομένων, τη LibGen και ακολούθως το μοντέλο Llama επανεκπαιδεύτηκε ώστε να καταγραφεί η όποια επίδραση.
Η Meta πρόσθεσε στα δεδομένα εκπαίδευσης βιβλία επιστήμης και τεχνολογίας, μαζί με έργα μυθοπλασίας. Σε ένα δεύτερο πείραμα, πρόσθεσε μόνο μυθοπλασία. Και στα δύο σύμφωνα με εσωτερικό έγγραφο της Meta που κατατέθηκε στο δικαστήριο, η απόδοση του Llama βελτιώθηκε αισθητά στις αξιολογήσεις του κλάδου. Όπως σημειώνει ο Νικ Βίνσετ, αναπληρωτής καθηγητής στη σχολή πληροφορικής του πανεπιστημίου Simon Fraser, φαίνεται ότι η Meta διαθέτει την ικανότητα να αποδίδει αξία σε συγκεκριμένα δεδομένα εκπαίδευσης.
Αποδεικνύεται ότι η τεχνική ablation έχει εξελιχθεί σε κοινή πρακτική όχι μόνο στη Meta, αλλά και σε ολόκληρη τη βιομηχανία τεχνητής νοημοσύνης. Ένας μηχανικός της εταιρείας ανέφερε στο LinkedIn ότι έχει πραγματοποιήσει πάνω από 100 ablation πειράματα κατά την ανάπτυξη του Llama 4 αλλά και προηγούμενων εκδόσεων των μεγάλων μοντέλων της εταιρείας.
Ωστόσο, η Meta, όπως και οι περισσότερες άλλες εταιρείες στον χώρο της AI, δεν δημοσιεύει τα αποτελέσματα αυτών των πειραμάτων. «Αυτό γίνεται για έναν πολύ συγκεκριμένο λόγο», εξηγεί ο Βίνσετ. «Αν οι τεχνολογικοί κολοσσοί αποκαλύψουν ποια δεδομένα συνέβαλαν στη βελτίωση των μοντέλων τους, τότε οι δημιουργοί αυτών των δεδομένων θα ζητήσουν αποζημίωση – και θα έχουν μια ξεκάθαρη εκτίμηση του τι δικαιούνται…Αν αυτά τα νούμερα γίνουν δημόσια, θα μπορούσαν να προσφέρουν στις οργανώσεις περιεχομένου πιο σταθερό νομικό έρεισμα.» Επιπλέον η δημοσιοποίηση των αποτελεσμάτων των πειραμάτων ενδέχεται να έχει επιπτώσεις στις υψηλού προφίλ αγωγές για πνευματικά δικαιώματα που βρίσκονται σε εξέλιξη σε όλο το τεχνολογικό τοπίο – με την υπόθεση Kadrey κατά Meta να αποτελεί χαρακτηριστικό παράδειγμα.
Δείτε επίσης: Σχέδιο 1,3 δισ. ευρώ για την κατασκευή κατοικιών στην Ισπανία
Ωστόσο οι τεχνολογικοί κολοσσοί και οι AI startups υποστηρίζουν ότι δεν παραβιάζονται πνευματικά δικαιώματα, από τη στιγμή που τα μηχανήματα «μαθαίνουν» από δημοσιευμένο υλικό στο διαδίκτυο.
Ο Νικ Βίνσετ επισημαίνει: «Είναι πιθανό ότι η δημοσίευση τέτοιων εκτιμήσεων αξίας θα υπονόμευε τη νομική θέση που σκοπεύουν να υιοθετήσουν οι Big Tech εταιρείες σε αυτές τις δίκες». Από την πλευρά της, εκπρόσωπος της Meta δηλώνει ότι η εταιρεία διαφωνεί με τα επιχειρήματα των εναγόντων στη συγκεκριμένη υπόθεση και προσθέτει ότι τα μοντέλα Llama «βοηθούν ιδιώτες και επιχειρήσεις να γίνουν πιο καινοτόμοι, παραγωγικοί και δημιουργικοί…Θα συνεχίσουμε να υπερασπιζόμαστε σθεναρά τον εαυτό μας και να προστατεύουμε την ανάπτυξη της γενετικής τεχνητής νοημοσύνης προς όφελος όλων.»
Ας επισημανθεί ότι η διατήρηση των πειραμάτων ablation υπό καθεστώς μυστικότητας ευθυγραμμίζεται με μια ευρύτερη τάση στον χώρο της τεχνητής νοημοσύνης να μην αποκαλύπτονται οι διεργασίες με τις οποίες τα δεδομένα συμβάλλουν στη δημιουργία και την απόδοση των AI μοντέλων.
Παρότι το 2017, η εμβληματική μελέτη της Google που εγκαινίασε την εποχή της γενετικής τεχνητής νοημοσύνης αποκάλυπτε αναλυτικά τα δεδομένα εκπαίδευσης που χρησιμοποιήθηκαν, περίπου 40.000 προτάσεις από τη The Wall Street Journal και λίγα χρόνια αργότερα, η OpenAI περιέγραφε για το GPT- 2, πώς συγκέντρωσε ιστοσελίδες μέσω εκατομμυρίων εξωτερικών συνδέσμων από το Reddit, σήμερα, η διαφάνεια έχει εξαφανιστεί. Συγκεκριμένα όταν η Meta κυκλοφόρησε το Llama 4 στις αρχές Απριλίου, δημοσίευσε ένα model card για να εξηγήσει πώς δημιουργήθηκε το προϊόν δεν αναφέρθηκε πουθενά στα πειράματα ablation περιγράφοντας τα δεδομένα εκπαίδευσης μόνο γενικά ως «ένα μείγμα από δημόσια διαθέσιμα δεδομένα, αδειοδοτημένο περιεχόμενο και πληροφορίες από τα προϊόντα και τις υπηρεσίες της Meta».
Η στροφή αυτή προς την αδιαφάνεια οφείλεται προφανώς στο ότι η αποκάλυψη των πηγών των δεδομένων θα μπορούσε να οδηγήσει σε οικονομικές διεκδικήσεις από τους δημιουργούς τους. «Είναι πραγματικά απογοητευτικό που δεν είναι ανοιχτοί γι’ αυτό, και δεν δίνουν την πρέπουσα αναγνώριση στο υλικό», αναφέρει σχετικά ο Μπιλ Γκρος, CEO της startup ProRata, η οποία επιδιώκει αποζημιώσεις για τους δημιουργούς για τη συμβολή τους στην εκπαίδευση AI. Σύμφωνα με την άποψη του, οι δημιουργοί περιεχομένου θα πρέπει να αμείβονται διπλά: για τη χρήση των δεδομένων τους στην εκπαίδευση AI μοντέλων και για τα ίδια αυτά μοντέλα που βασίζονται στο περιεχόμενο για να απαντήσουν σε ερωτήσεις χρηστών.
Τα αποτελέσματα της Meta
Τα πειράματα ablation της Meta στο πρώτο βήμα της εκπαίδευσης χρησιμοποιούν τεράστιους όγκους δεδομένων για να βοηθήσουν τα μοντέλα να κατανοήσουν τον κόσμο. Για παράδειγμα, για να «μάθει» ένα σύστημα να αναγνωρίζει ένα λάμα, πρέπει να δει όσο το δυνατόν περισσότερες φωτογραφίες με λάμα και αλπακά, ώστε να μπορέσει να διακρίνει.
Στο πρώτο πείραμα ablation, διαπιστώθηκε ότι η προσθήκη επιστημονικών, τεχνολογικών και λογοτεχνικών βιβλίων στα δεδομένα εκπαίδευσης βελτίωσε την απόδοση του Llama κατά 4,5% σε έναν βιομηχανικό δείκτη γνωστό ως BooIQ, ενώ η προσθήκη μόνο λογοτεχνικών βιβλίων κατέληξε σε ακόμη υψηλότερη βελτίωση – 6%.
Σε έναν άλλο δείκτη, γνωστό ως SIQA, οι συνολικές αποδόσεις των πειραμάτων έφτασαν το 5,5% Ο Πίτερ Χέντερσον επίκουρος καθηγητής πληροφορικής στο Πανεπιστήμιο Princeton, ανάρτησε γραφήματα της Meta στο Twitter από το δικαστικό έγγραφο που αποτυπώνουν αυτές τις επιδόσεις. Αν και οι αποδόσεις της τάξεως του 5% φαίνονται μικρές, στον «αγώνα ταχύτητας» της AI κάθε ποσοστιαία μονάδα μετρά. «Στην πραγματικότητα αυτό είναι τεράστιο, γιατί είναι εξαιρετικά δύσκολο να κερδίσεις κάθε επιπλέον μονάδα σε αυτούς τους δείκτες αξιολόγησης», σημειώνει ο Gross.
Η βελτίωση του Llama στον δείκτη BooIQ καταδεικνύει τη σημασία των συγκεκριμένων δεδομένων εκπαίδευσης και πόσο εξαρτώνται από αυτά τα AI μοντέλα και οι εταιρείες τεχνολογίας. Ο δείκτης αποτελείται από 15.942 ερωτήσεις τύπου «ναι/όχι» στις οποίες πρέπει να απαντήσουν τα μοντέλα. Όσο περισσότερες σωστές απαντήσεις, τόσο υψηλότερη η απόδοση. Ένα ποσοστό βελτίωσης 5% μεταφράζεται σε περίπου 800 επιπλέον σωστές απαντήσεις.
Ειδικότερα μία από τις ερωτήσεις στο BooIQ: «Μπορούν τα ξωτικά και οι άνθρωποι να κάνουν παιδιά στο Lord of the Rings;» Μπορείς να απαντήσεις με σιγουριά μόνο αν έχεις διαβάσει τα έργα του J.R.R. Tolkien – ή αν τα βιβλία του περιλαμβάνονται στα δεδομένα εκπαίδευσης. Η απάντηση, παρεμπιπτόντως, είναι «ναι» – τα ξωτικά και οι άνθρωποι μπορούν να αποκτήσουν απογόνους στον κόσμο του Άρχοντα των Δαχτυλιδιών.
Ο Ν. Βίνσετ υποθέτει ότι αποκαλύψεις για τα μυστικά πειράματα της Meta θα οδηγήσουν στη δημιουργία ενός νέου συστήματος, το οποίο θα αναδεικνύει αρκούντως τις πηγές των δεδομένων εκπαίδευσης και θα προβλέπει ανάλογη αποζημίωση. «Τα προϊόντα με AI chatbots βασίζονται στο γεγονός ότι κάποιος άνθρωπος, κάπου, έκανε κάτι χρήσιμο, το έγραψε και το δημοσίευσε», σχολιάζει. «Η τεχνολογία αυτή απλώς πακετάρει ξανά αυτό το υλικό σε κάτι – ελπίζουμε – ακόμη πιο χρήσιμο».
«Στην ουσία, πίσω απ’ όλα αυτά βρίσκονται άνθρωποι. Χωρίς τα δεδομένα τους, τα μοντέλα AI δεν θα ήταν τόσο αποδοτικά», καταλήγει. «Οι αποδείξεις από τα πειράματα ablation μπορεί τελικά να βοηθήσουν στο να θεσπιστεί μια υγιής ροή δεδομένων. Είναι σημαντικό να διατηρηθούν οι θεσμοί που ενθαρρύνουν τους ανθρώπους να παράγουν περιεχόμενο, γνώση και να τα μοιράζονται».