MIT Technology Review για DeepSeek/Πώς ένα κορυφαίο κινεζικό μοντέλο AI παρέκαμψε τις κυρώσεις των ΗΠΑ

MIT Technology Review για DeepSeek/Πώς ένα κορυφαίο κινεζικό μοντέλο AI παρέκαμψε τις κυρώσεις των ΗΠΑ

Το ενδιαφέρον της κοινότητας της τεχνητής νοημοσύνης μονοπωλεί τώρα το DeepSeek R1, ένα νέο μοντέλο λογικής ανοιχτού κώδικα.

Το μοντέλο αναπτύχθηκε από την κινεζική startup τεχνητής νοημοσύνης DeepSeek, η οποία ισχυρίζεται ότι το R1 είναι εξίσου ισχυρό ή ξεπερνά το ChatGPT o1 της OpenAI σε πολλαπλά βασικά κριτήρια αναφοράς, αλλά λειτουργεί με ένα κλάσμα του κόστους.

«Αυτό θα μπορούσε να είναι ένα επίτευγμα που αποκαθιστά τις ισορροπίες, σπουδαίο για ερευνητές και προγραμματιστές με περιορισμένους πόρους, ειδικά εκείνους από τον Παγκόσμιο Νότο», λέει ο Hancheng Cao, επίκουρος καθηγητής συστημάτων πληροφοριών στο Πανεπιστήμιο Emory της Ατλάντα.

Η επιτυχία του DeepSeek είναι ακόμη πιο αξιοσημείωτη, δεδομένων των περιορισμών που αντιμετωπίζουν οι κινεζικές εταιρείες τεχνητής νοημοσύνης, με την αύξηση των ελέγχων στις εξαγωγές τσιπ αιχμής από τις ΗΠΑ. Ωστόσο, τα πρώτα στοιχεία δείχνουν ότι αυτά τα μέτρα δεν λειτουργούν όπως έπρεπε. Αντί να περιορίζουν τις δυνατότητες τεχνητής νοημοσύνης της Κίνας, οι κυρώσεις φαίνεται να οδηγούν νεοφυείς επιχειρήσεις όπως το DeepSeek να καινοτομούν με τρόπους που δίνουν προτεραιότητα στην αποτελεσματικότητα, την κοινή χρήση πόρων και τη συνεργασία.

Για να δημιουργήσει το R1, το DeepSeek έπρεπε να επεξεργαστεί από το μηδέν τη διαδικασία εκπαίδευσής του για να μειώσει την πίεση στις GPU (μονάδες επεξεργασίας γραφικών) του, μια ποικιλία που κυκλοφόρησε από την Nvidia ειδικά για την κινεζική αγορά με απόδοση περιορισμένη, στο μισό της ταχύτητας των κορυφαίων προϊόντων της, σύμφωνα με τον Zihan Wang, πρώην υπάλληλο της DeepSeek και σημερινό διδακτορικό φοιτητή στην επιστήμη των υπολογιστών στο Πανεπιστήμιο Northwestern.

Το DeepSeek R1 έχει επαινεθεί από ερευνητές για την ικανότητά του να αντιμετωπίζει σύνθετες συλλογιστικές εργασίες, ιδιαίτερα στα μαθηματικά και τη συγγραφή κώδικα. Το μοντέλο χρησιμοποιεί μια προσέγγιση «αλυσίδας σκέψης» παρόμοια με αυτή που χρησιμοποιεί το ChatGPT ο1, η οποία του επιτρέπει να λύνει προβλήματα, με βήμα προς βήμα επεξεργασία των ερωτημάτων.

Ο Δημήτρης Παπαηλιόπουλος, επικεφαλής στο ερευνητικό εργαστήριο AI Frontiers της Microsoft, λέει ότι αυτό που τον εξέπληξε περισσότερο στο R1 είναι η μηχανική του απλότητα. «Το DeepSeek στόχευε σε ακριβείς απαντήσεις αντί να περιγράφει λεπτομερώς κάθε λογικό βήμα, μειώνοντας σημαντικά τον υπολογιστικό χρόνο και διατηρώντας παράλληλα υψηλό επίπεδο αποτελεσματικότητας», λέει.

Το DeepSeek κυκλοφόρησε επίσης έξι μικρότερες εκδόσεις του R1 που είναι αρκετά μικρές ώστε να τρέχουν τοπικά σε φορητούς υπολογιστές. Ισχυρίζεται ότι μια από αυτές ξεπερνά ακόμη και το o1-mini του OpenAI σε ορισμένα κριτήρια αναφοράς. «Το DeepSeek έχει αναπαράγει σε μεγάλο βαθμό το o1-mini και έχει αφήσει τελείως ανοιχτό τον κώδικά του», έγραψε στο Twitter ο CEO της Perplexity, Aravind Srinivas. Το DeepSeek δεν απάντησε στο αίτημα του MIT Technology Review για σχόλια.

Παρά το θόρυβο γύρω από το R1, το DeepSeek παραμένει σχετικά άγνωστο. Με έδρα το Hangzhou (Καντόνα) της Κίνας, ιδρύθηκε τον Ιούλιο του 2023 από τον Liang Wenfeng, απόφοιτο του Πανεπιστημίου Zhejiang, με υπόβαθρο στην πληροφορική και την ηλεκτρονική μηχανική. «Επωάστηκε» από το High-Flyer, ένα hedge fund που ίδρυσε ο Liang το 2015. Όπως ο Sam Altman του OpenAI, ο Liang στοχεύει να δημιουργήσει τεχνητή γενική νοημοσύνη (AGI), μια μορφή τεχνητής νοημοσύνης που μπορεί να φτάσει ή ακόμα και να ξεπεράσει τους ανθρώπους σε μια σειρά εργασιών.

Η εκπαίδευση μεγάλων γλωσσικών μοντέλων (LLMs) απαιτεί μια ομάδα άριστα εκπαιδευμένων ερευνητών και σημαντική υπολογιστική ισχύ. Σε μια πρόσφατη συνέντευξή του στο κινεζικό μέσο ενημέρωσης LatePost, ο Kai-Fu Lee, ένας βετεράνος επιχειρηματίας και πρώην επικεφαλής της Google China, είπε ότι μόνο οι «παίκτες της πρώτης γραμμής» συνήθως ασχολούνται με την κατασκευή «θεμελιωδών μοντέλων» όπως το ChatGPT, επειδή απαιτούν εξαιρετικά πολλούς πόρους. Η κατάσταση περιπλέκεται περαιτέρω από τους περιορισμούς των εξαγωγών των ΗΠΑ σε προηγμένους ημιαγωγούς. Ωστόσο, η απόφαση της High-Flyer να ασχοληθεί με την τεχνητή νοημοσύνη σχετίζεται άμεσα με αυτούς τους περιορισμούς. Πολύ πριν από τις αναμενόμενες κυρώσεις, ο Liang απέκτησε ένα σημαντικό απόθεμα τσιπ Nvidia A100, ένα είδος του οποίου η εξαγωγή στην Κίνα απαγορεύεται πλέον. Το κινεζικό μέσο ενημέρωσης 36Kr εκτιμά ότι η εταιρεία έχει απόθεμα πάνω από 10.000 μονάδων, αλλά ο Dylan Patel, ιδρυτής της εταιρείας συμβούλων τεχνητής νοημοσύνης SemiAnalysis, εκτιμά ότι έχει τουλάχιστον 50.000 μονάδες. Η αναγνώριση των δυνατοτήτων αυτού του αποθέματος για εκπαίδευση τεχνητής νοημοσύνης ήταν αυτό που οδήγησε τον Liang να ιδρύσει το DeepSeek, και μπόρεσε να τα χρησιμοποιήσει σε συνδυασμό με τα τσιπ χαμηλότερης ισχύος για να αναπτύξει τα μοντέλα του.

Τεχνολογικοί γίγαντες όπως η Alibaba και η ByteDance, καθώς και μια χούφτα νεοσύστατες επιχειρήσεις με επενδυτές με μεγάλες τσέπες, κυριαρχούν στον κινεζικό χώρο της τεχνητής νοημοσύνης, καθιστώντας δύσκολο τον ανταγωνισμό από μικρές ή μεσαίες επιχειρήσεις. Μια εταιρεία όπως η DeepSeek, η οποία δεν σχεδιάζει να αντλήσει κεφάλαια, είναι σπάνια.

Ο Zihan Wang, πρώην υπάλληλος της DeepSeek, είπε στο MIT Technology Review ότι είχε πρόσβαση σε άφθονους υπολογιστικούς πόρους και του δόθηκε η ελευθερία να πειραματιστεί όταν εργαζόταν στη DeepSeek, «μια πολυτέλεια που λίγοι νέοι απόφοιτοι θα είχαν σε οποιαδήποτε εταιρεία».

Σε συνέντευξή του στο 36Kr τον Ιούλιο του 2024, ο Liang είπε ότι μια πρόσθετη πρόκληση που αντιμετωπίζουν οι κινεζικές εταιρείες, πέρα από τις κυρώσεις για τσιπ, είναι ότι οι τεχνικές μηχανικής τεχνητής νοημοσύνης τους τείνουν να είναι λιγότερο αποτελεσματικές. «Εμείς (οι περισσότερες κινεζικές εταιρείες) πρέπει να καταναλώνουμε διπλάσια υπολογιστική ισχύ για να επιτύχουμε τα ίδια αποτελέσματα. Σε συνδυασμό με τα κενά στην απόδοση των δεδομένων, αυτό θα μπορούσε να σημαίνει ότι χρειαζόμαστε έως και τέσσερις φορές περισσότερη υπολογιστική ισχύ. Στόχος μας είναι να κλείνουμε συνεχώς αυτά τα κενά», είπε.

Αλλά το DeepSeek βρήκε τρόπους για να μειώσει τη χρήση μνήμης και να επιταχύνει τους υπολογισμούς χωρίς να θυσιάζει σε σημαντικό βαθμό την ακρίβεια. «Η ομάδα λατρεύει να μετατρέπει μια πρόκληση hardware σε ευκαιρία για καινοτομία», λέει ο Wang.

Ο ίδιος ο Liang συμμετέχει ενεργά στην ερευνητική διαδικασία του DeepSeek, εκτελώντας πειράματα μαζί με την ομάδα του. «Όλη η ομάδα μοιράζεται μια συνεργατική κουλτούρα και αφοσίωση στη βασική έρευνα», λέει ο Wang.

Εκτός από το ότι δίνουν προτεραιότητα στην αποτελεσματικότητα, οι κινεζικές εταιρείες επίσης υιοθετούν ολοένα και περισσότερο τις αρχές του ανοιχτού κώδικα. Το Alibaba Cloud κυκλοφόρησε πάνω από 100 νέα μοντέλα τεχνητής νοημοσύνης ανοιχτού κώδικα, που υποστηρίζουν 29 γλώσσες και εξυπηρετούν διάφορες εφαρμογές, όπως η συγγραφή κώδικα και τα μαθηματικά. Ομοίως, νεοφυείς επιχειρήσεις όπως το Minimax και το 01.AI έχουν ανοιχτό τον κώδικα των μοντέλων τους.

Σύμφωνα με μια λευκή βίβλο που κυκλοφόρησε πέρυσι από την China Academy of Information and Communications Technology, ένα κρατικό ερευνητικό ινστιτούτο, ο αριθμός των μεγάλων γλωσσικών μοντέλων τεχνητής νοημοσύνης παγκοσμίως έφτασε τα 1.328, με το 36% να έχει αναπτυχθεί στην Κίνα. Αυτό τοποθετεί την Κίνα ως τον δεύτερο μεγαλύτερο παραγωγό τεχνητής νοημοσύνης, πίσω από τις Ηνωμένες Πολιτείες.

«Αυτή η γενιά νέων Κινέζων ερευνητών ταυτίζεται έντονα με την κουλτούρα ανοιχτού κώδικα, επειδή επωφελείται πάρα πολύ από αυτήν», λέει ο Thomas Qitong Cao, επίκουρος καθηγητής τεχνολογικής πολιτικής στο Πανεπιστήμιο Tufts.

«Ο έλεγχος των εξαγωγών των ΗΠΑ έχει ουσιαστικά στριμώξει τις κινεζικές εταιρείες σε μια γωνία όπου πρέπει να είναι πολύ πιο αποτελεσματικές με τους περιορισμένους υπολογιστικούς τους πόρους», λέει ο Matt Sheehan, ερευνητής τεχνητής νοημοσύνης στο Carnegie Endowment for International Peace. «Πιθανώς θα δούμε μεγάλες συγχωνεύσεις στο μέλλον λόγω έλλειψης υπολογιστικής ισχύος».

Αυτό μπορεί να είχε ήδη αρχίσει να συμβαίνει. Πριν από δύο εβδομάδες, η Alibaba Cloud ανακοίνωσε ότι συνεργάστηκε με την startup 01.AI με έδρα το Πεκίνο, που ιδρύθηκε από τον Kai-Fu Lee, για τη συγχώνευση ερευνητικών ομάδων και τη δημιουργία ενός «βιομηχανικού εργαστηρίου μεγάλων μοντέλων δεδομένων».

«Είναι ενεργειακά αποδοτικό και φυσικό να προκύψει κάποιου είδους καταμερισμός εργασίας στη βιομηχανία της τεχνητής νοημοσύνης», λέει ο Cao, ο καθηγητής Tufts. «Η ταχεία εξέλιξη της τεχνητής νοημοσύνης απαιτεί ευελιξία από τις κινεζικές εταιρείες για να επιβιώσουν».

Απόδοση KREPORT

Σχετικά Άρθρα