ΝΥΤ: Εκπαιδεύοντας το GPT-4 με ένα εκατομμύριο ώρες βίντεο στο YouTube

Νωρίτερα αυτήν την εβδομάδα, η Wall Street Journal ανέφερε ότι οι εταιρείες τεχνητής νοημοσύνης προσκρούουν σε τοίχο στην προσπάθεια να συγκεντρώσουν υψηλής ποιότητας δεδομένα εκπαίδευσης.

Οι New York Times με τη σειρά τους παρουσίασαν λεπτομερώς ορισμένους από τους τρόπους με τους οποίους οι εταιρείες κλήθηκαν να αντιμετωπίσουν το συγκεκριμένο πρόβλημα. Αφού επισημαίνουν πως πρόκειται για μια «βουτιά» στη γκρίζα ζώνη του νόμου περί πνευματικών δικαιωμάτων ξεδιπλώνουν την ιστορία με την OpenAI, η οποία, απελπισμένη για δεδομένα, φέρεται να ανέπτυξε το μοντέλο μηχανικής μάθησης για αναγνώριση και μεταγραφή ομιλίας «Whisper». Με τον τρόπο αυτό κατάφερε να ξεπεράσει το εμπόδιο, μεταγράφοντας πάνω από ένα εκατομμύριο ώρες βίντεο στο YouTube για να εκπαιδεύσει το GPT-4.

Σύμφωνα με τους ΝΥΤ η εταιρεία γνώριζε ότι αυτό ήταν νομικά αμφισβητήσιμο, αλλά πίστευε ότι η χρήση που έκανε είναι θεμιτή. Η εκπρόσωπος της OpenAI, Lindsay Held, δήλωσε στο The Verge ότι η εταιρεία επιμελείται «μοναδικά» σύνολα δεδομένων για κάθε ένα από τα μοντέλα της για να «βοηθήσει στην κατανόηση του κόσμου» και να διατηρήσει την παγκόσμια ερευνητική της ανταγωνιστικότητα. Η Held πρόσθεσε ότι η εταιρεία χρησιμοποιεί «πολυάριθμες πηγές, συμπεριλαμβανομένων των «δημόσια διαθέσιμων δεδομένων».

Όλα για τη μάθηση…

Το άρθρο των Times αναφέρει ότι η εταιρεία εξάντλησε τα αποθέματα χρήσιμων δεδομένων το 2021 και συζήτησε τη μεταγραφή βίντεο από το YouTube, podcasts και ηχητικά βιβλία. Μέχρι τότε, είχε εκπαιδεύσει τα μοντέλα της σε δεδομένα που περιλάμβαναν κώδικα υπολογιστή από το Github, βάσεις δεδομένων με κινήσεις σκακιού και περιεχόμενο σχολικών εργασιών από το Quizlet.

Ο εκπρόσωπος της Google, Matt Bryant, δήλωσε στο The Verge ότι η εταιρεία έχει «δει ανεπιβεβαίωτες αναφορές» για τη δραστηριότητα του OpenAI, προσθέτοντας ότι «τόσο τα αρχεία robots.txt όσο και οι όροι υπηρεσίας μας απαγορεύουν την μη εξουσιοδοτημένη απόσπαση ή λήψη περιεχομένου του YouTube».

Κάτι παρόμοιο δήλωσε και ο διευθύνων σύμβουλος του YouTube, Neal Mohan, σχετικά με την πιθανότητα η OpenAI να χρησιμοποίησε το YouTube.

Ο Bryant δήλωσε επίσης ότι η Google λαμβάνει «τεχνικά και νομικά μέτρα» για να αποτρέψει μια μη εξουσιοδοτημένη χρήση «όταν έχουμε σαφή νομική ή τεχνική βάση για να το κάνουμε».

Η Google, το OpenAI και όχι μόνο «παλεύουν» με τα δεδομένα καθώς αυτά «εξατμίζονται γρήγορα». Πιθανές λύσεις για το πρόβλημα αυτό περιλαμβάνουν την εκπαίδευση των μοντέλων σε «συνθετικά» δεδομένα (παράγονται από έναν αλγόριθμο υπολογιστή) που δημιουργούνται από τα δικά τους μοντέλα, αναφέρει η Journal. Άλλη επιλογή των εταιρειών είναι να χρησιμοποιούν δεδομένα είτε έχουν άδεια είτε όχι όμως οι πολλαπλές αγωγές που κατατέθηκαν τον τελευταίο περίπου χρόνο, ο τρόπος αυτός, μάλλον αρχίζει να εκλείπει.

Source link