Εταιρείες τεχνητής νοημοσύνης όπως η OpenAI επιδιώκουν να ξεπεράσουν απροσδόκητες καθυστερήσεις και προκλήσεις στην επιδίωξη ολοένα και μεγαλύτερων γλωσσικών μοντέλων, αναπτύσσοντας τεχνικές εκπαίδευσης που χρησιμοποιούν πιο ανθρώπινους τρόπους για να «σκέφτονται» οι αλγόριθμοι.
Δεκάδες επιστήμονες, ερευνητές και επενδυτές AI είπαν στο Reuters ότι πιστεύουν ότι αυτές οι τεχνικές, που βρίσκονται πίσω από το μοντέλο o1 που κυκλοφόρησε πρόσφατα η OpenAI, θα μπορούσαν να αναδιαμορφώσουν τον ανταγωνισμό στην τεχνητή νοημοσύνη και να έχουν επιπτώσεις στους τύπους πόρων για τους οποίους οι εταιρείες τεχνητής νοημοσύνης έχουν ακόρεστη ζήτηση, από ενέργεια μέχρι διάφορους σε τύπους ημιαγωγών.
Eρευνητές σε μεγάλα εργαστήρια τεχνητής νοημοσύνης αντιμετωπίζουν καθυστερήσεις και απογοητευτικά αποτελέσματα στον αγώνα για την κυκλοφορία ενός μοντέλου μεγάλης γλώσσας που ξεπερνά το μοντέλο GPT-4 της OpenAI
Μετά την κυκλοφορία του viral ChatGPT chatbot πριν από δύο χρόνια, οι εταιρείες τεχνολογίας, των οποίων οι αποτιμήσεις επωφελήθηκαν σε μεγάλο βαθμό από την έκρηξη της τεχνητής νοημοσύνης, υποστήριξαν δημόσια ότι η «κλιμάκωση» των τρεχόντων μοντέλων μέσω της προσθήκης περισσότερων δεδομένων και υπολογιστικής ισχύος θα οδηγήσει συνεχώς σε βελτιωμένα μοντέλα τεχνητής νοημοσύνης.
Αλλά τώρα, μερικοί από τους πιο εξέχοντες επιστήμονες της τεχνητής νοημοσύνης μιλούν ανοιχτά για τους περιορισμούς της φιλοσοφίας «το μεγαλύτερο είναι το καλύτερο».
OpenAI: Πιάνουν… ταβάνι τα σημερινά μοντέλα ΑΙ
Ο Ilya Sutskever, συνιδρυτής των εργαστηρίων AI Safe Superintelligence (SSI) και OpenAI, είπε πρόσφατα στο Reuters ότι τα αποτελέσματα από την κλιμάκωση της προεκπαίδευσης – τη φάση της εκπαίδευσης ενός μοντέλου τεχνητής νοημοσύνης που χρησιμοποιεί μια τεράστια ποσότητα δεδομένων χωρίς ετικέτα για την κατανόηση των γλωσσικών μοτίβων και δομών – έχουν «ταβάνι».
Ο Sutskever αναγνωρίζεται ευρέως ως ένας πρώιμος υποστηρικτής της επίτευξης μαζικών αλμάτων στη γενετική πρόοδο της τεχνητής νοημοσύνης μέσω της χρήσης περισσότερων δεδομένων και υπολογιστικής ισχύος στην προεκπαίδευση, η οποία τελικά δημιούργησε το ChatGPT. Ο Sutskever άφησε την OpenAI νωρίτερα φέτος για να ιδρύσει την SSI.
«Η δεκαετία του 2010 ήταν η εποχή της κλιμάκωσης, τώρα επιστρέφουμε ξανά στην εποχή του θαύματος και της ανακάλυψης. Όλοι αναζητούν το επόμενο πράγμα», είπε ο Sutskever. «Η κλιμάκωση του σωστού πράγματος έχει μεγαλύτερη σημασία τώρα από ποτέ».
Παρασκηνιακά, ερευνητές σε μεγάλα εργαστήρια τεχνητής νοημοσύνης αντιμετωπίζουν καθυστερήσεις και απογοητευτικά αποτελέσματα στον αγώνα για την κυκλοφορία ενός μοντέλου μεγάλης γλώσσας που ξεπερνά το μοντέλο GPT-4 της OpenAI, το οποίο είναι σχεδόν δύο ετών, σύμφωνα με τρεις πηγές εξοικειωμένες με το θέμα.
Οι λεγόμενες «εκπαιδευτικές διαδρομές» για μεγάλα μοντέλα μπορούν να κοστίσουν δεκάδες εκατομμύρια δολάρια με την ταυτόχρονη εκτέλεση σε εκατοντάδες τσιπ. Είναι πιο πιθανό να έχουν αποτυχία λόγω υλικού, δεδομένου του πόσο περίπλοκο είναι το σύστημα. Οι ερευνητές μπορεί να μην γνωρίζουν την τελική απόδοση των μοντέλων μέχρι το τέλος της δοκιμής, η οποία μπορεί να διαρκέσει μήνες.
Ένα άλλο πρόβλημα είναι ότι τα μοντέλα μεγάλων γλωσσών «καταβροχθίζουν» τεράστιες ποσότητες δεδομένων και τα μοντέλα τεχνητής νοημοσύνης έχουν εξαντλήσει όλα τα εύκολα προσβάσιμα δεδομένα στον κόσμο. Οι ελλείψεις ηλεκτρικής ισχύος παρεμπόδισαν επίσης τις προπονήσεις, καθώς η διαδικασία απαιτεί τεράστιες ποσότητες ενέργειας.
Για να ξεπεράσουν αυτές τις προκλήσεις, οι ερευνητές εξερευνούν τον «υπολογισμό χρόνου δοκιμής», μια τεχνική που ενισχύει τα υπάρχοντα μοντέλα τεχνητής νοημοσύνης κατά τη λεγόμενη φάση «συμπερασμάτων» ή όταν το μοντέλο χρησιμοποιείται. Για παράδειγμα, αντί να επιλέγει αμέσως μια απάντηση, ένα μοντέλο θα μπορούσε να δημιουργήσει και να αξιολογήσει πολλαπλές δυνατότητες σε πραγματικό χρόνο, επιλέγοντας τελικά την καλύτερη πορεία προς τα εμπρός.
Αυτή η μέθοδος επιτρέπει στα μοντέλα να αφιερώνουν περισσότερη επεξεργαστική ισχύ σε απαιτητικές εργασίες όπως μαθηματικά ή προβλήματα κωδικοποίησης ή πολύπλοκες λειτουργίες που απαιτούν ανθρώπινη λογική και λήψη αποφάσεων.
«Αποδείχθηκε ότι το να έχεις ένα bot να σκέφτεται για μόλις 20 δευτερόλεπτα σε μια παρτίδα πόκερ είχε την ίδια ενισχυτική απόδοση με το να κλιμακώσεις το μοντέλο κατά 100.000 φορές και να το εκπαιδεύσεις για 100.000 φορές περισσότερο», δήλωσε ο Noam Brown, ερευνητής στην OpenAI που εργάστηκε στο o1, μιλώντας στο συνέδριο TED AI στο Σαν Φρανσίσκο τον περασμένο μήνα.
Η OpenAI αγκάλιασε αυτήν την τεχνική στο νεότερο μοντέλο της, γνωστό ως «o1», παλαιότερα γνωστό ως Q* και Strawberry, το οποίο ανέφερε για πρώτη φορά το Reuters τον Ιούλιο. Το μοντέλο O1 μπορεί να “σκέφτεται” τα προβλήματα με έναν τρόπο πολλαπλών βημάτων, παρόμοιο με τον άνθρωπο. Περιλαμβάνει επίσης τη χρήση δεδομένων και ανατροφοδότησης από διδάκτορες και ειδικούς του κλάδου.
Την ίδια στιγμή, ερευνητές σε άλλα κορυφαία εργαστήρια τεχνητής νοημοσύνης, από τα Anthropic, xAI και Google DeepMind, εργάζονται επίσης για να αναπτύξουν τις δικές τους εκδοχές της τεχνικής, σύμφωνα με πέντε άτομα που γνωρίζουν τις προσπάθειες.
«Βλέπουμε πολλά χαμηλά φρούτα που μπορούμε να τα μαζέψουμε για να βελτιώσουμε αυτά τα μοντέλα πολύ γρήγορα», δήλωσε ο Kevin Weil, επικεφαλής προϊόντων στην OpenAI σε μια διάσκεψη τεχνολογίας τον Οκτώβριο. «Μέχρι να προλάβουν οι άνθρωποι, θα προσπαθήσουμε να είμαστε τρία ακόμη βήματα μπροστά».
Οι συνέπειες θα μπορούσαν να αλλάξουν το ανταγωνιστικό τοπίο για το υλικό τεχνητής νοημοσύνης, που μέχρι στιγμής κυριαρχείται από την ακόρεστη ζήτηση για τσιπ τεχνητής νοημοσύνης της Nvidia. Εξέχοντες επενδυτές επιχειρηματικών κεφαλαίων, από τη Sequoia έως τον Andreessen Horowitz, που έχουν διαθέσει δισεκατομμύρια για να χρηματοδοτήσουν την ακριβή ανάπτυξη μοντέλων AI σε πολλά εργαστήρια τεχνητής νοημοσύνης, συμπεριλαμβανομένων των OpenAI και xAI, λαμβάνουν υπόψη τη μετάβαση και σταθμίζουν τον αντίκτυπο στα ακριβά στοιχήματά τους.
Η ζήτηση για τσιπ τεχνητής νοημοσύνης της Nvidia, τα οποία είναι αυτή τη στιγμή σε απογείωση όσον αφορά στη ζήτησή τους, έχει τροφοδοτήσει την άνοδό της και την έχουν καταστήσει ως την πιο πολύτιμη εταιρεία στον κόσμο, ξεπερνώντας την Apple τον Οκτώβριο. Σε αντίθεση με τα τσιπ εκπαίδευσης, όπου κυριαρχεί η Nvidia, ο γίγαντας των chip θα μπορούσε να αντιμετωπίσει περισσότερο ανταγωνισμό στην αγορά συμπερασμάτων.
Ερωτηθείσα για τον πιθανό αντίκτυπο στη ζήτηση για τα προϊόντα της, η Nvidia επεσήμανε τις πρόσφατες παρουσιάσεις της εταιρείας σχετικά με τη σημασία της τεχνικής πίσω από το μοντέλο o1. Ο Διευθύνων Σύμβουλος της Jensen Huang έχει μιλήσει για την αυξανόμενη ζήτηση για χρήση των τσιπ της για συμπεράσματα.
“Ανακαλύψαμε τώρα έναν δεύτερο νόμο κλιμάκωσης και αυτός είναι ο νόμος κλιμάκωσης σε μια στιγμή εξαγωγής συμπερασμάτων…Όλοι αυτοί οι παράγοντες έχουν οδηγήσει στη ζήτηση για το Blackwell να είναι απίστευτα υψηλή”, δήλωσε ο Huang τον περασμένο μήνα σε συνέδριο στην Ινδία , αναφερόμενος στο τελευταίο chip AI της εταιρείας.
Πηγή: OT.gr