Τι ανακοίνωσε η DeepSeek και γιατί προκάλεσε τόση αναταραχή;

Δημοσίευμα του stratechery.com αποτελεί ένα FAQ από τον Ben Thompson σχετικά με την DeepSeek, μια Κινέζικη εταιρεία τεχνητής νοημοσύνης. Η DeepSeek ανακοίνωσε τα μοντέλα της V2, V3, και R1, τα οποία ξεχωρίζουν για την εκπληκτική τους αποτελεσματικότητα στην εκπαίδευση και την εξαιρετικά χαμηλή τους τιμή. Αυτή η εξέλιξη προκάλεσε έντονες αντιδράσεις στην αγορά, ιδιαίτερα στην Nvidia, λόγω της απρόσμενης ανταγωνιστικότητας της DeepSeek παρά τις κυρώσεις των ΗΠΑ. Το κείμενο αναλύει τις τεχνικές καινοτομίες της DeepSeek, τις επιπτώσεις στην αγορά τεχνητής νοημοσύνης, και την κριτική στην πολιτική των ΗΠΑ για τα τσιπ. Τέλος, επισημαίνεται η σημασία της ανοικτής πηγής στην ανάπτυξη της τεχνητής νοημοσύνης.

 
Τι ανακοίνωσε η DeepSeek και γιατί προκάλεσε τόση αναταραχή; Η DeepSeek ανακοίνωσε το μοντέλο λογικής R1, παρόμοιο με το o1 της OpenAI, καθώς και το V3, ένα μοντέλο που διακρίνεται για το εξαιρετικά χαμηλό κόστος εκπαίδευσής του. Η αναταραχή προήλθε κυρίως από το γεγονός ότι η DeepSeek, μια κινεζική εταιρεία, φαίνεται να έχει επιτύχει ανταγωνιστική απόδοση με αμερικανικές εταιρείες, όπως η OpenAI, παρά τις κυρώσεις των ΗΠΑ στις εξαγωγές τσιπ. Ειδικότερα, το V3 εκπαιδεύτηκε με πολύ χαμηλό κόστος, λόγω καινοτομιών στην αρχιτεκτονική του και στην αξιοποίηση των τσιπ H800, τα οποία δεν εμπίπτουν στις κυρώσεις. Επιπλέον, η ανακοίνωση του R1, ενός μοντέλου λογικής, αμφισβήτησε την κυριαρχία της OpenAI στον τομέα αυτό.

Ποιες είναι οι βασικές καινοτομίες των μοντέλων V2 και V3 της DeepSeek; Το V2 εισήγαγε δύο σημαντικές καινοτομίες:

  • DeepSeekMoE (Mixture of Experts): Το μοντέλο χωρίζεται σε εξειδικευμένους “ειδικούς” και ενεργοποιούνται μόνο οι απαραίτητοι για κάθε εργασία, βελτιώνοντας την αποδοτικότητα.
  • DeepSeekMLA (Multi-head Latent Attention): Συμπιέζει το key-value store, μειώνοντας δραστικά τη χρήση μνήμης κατά την εξαγωγή συμπερασμάτων. Το V3 βελτίωσε περαιτέρω την αποδοτικότητα με:
  • Μια νέα προσέγγιση στην εξισορρόπηση φορτίου (load balancing) που μειώνει το overhead επικοινωνίας.
  • Πολλαπλή πρόβλεψη token στην εκπαίδευση (multi-token prediction) που αυξάνει την πυκνότητα κάθε βήματος, μειώνοντας το overhead.

Πώς κατάφερε η DeepSeek να εκπαιδεύσει το μοντέλο V3 με τόσο χαμηλό κόστος; Το μοντέλο V3 της DeepSeek εκπαιδεύτηκε με ένα εκπληκτικά χαμηλό κόστος (περίπου $5.576 εκατομμύρια) λόγω της χρήσης του H800 και της ικανότητας της DeepSeek να βελτιστοποιήσει την αρχιτεκτονική του μοντέλου και την υποδομή εκπαίδευσης, ξεπερνώντας τους περιορισμούς μνήμης του H800. Οι καινοτομίες της DeepSeek στην τεχνολογία MoE και η μείωση της ακρίβειας υπολογισμών (από BF16/FP32 σε FP8) επέτρεψαν σημαντική μείωση του κόστους εκπαίδευσης, αξιοποιώντας στο έπακρο τους 2048 H800 GPUs που διέθεταν. Επιπλέον, σημαντική ήταν και η επιτυχής προσαρμογή του προγραμματισμού των 20 από τις 132 μονάδες επεξεργασίας κάθε τσιπ H800 για την διαχείριση των επικοινωνιών μεταξύ των τσιπ, κάτι που ήταν αδύνατο να επιτευχθεί με CUDA.

Τι είναι η απόσταξη μοντέλων (distillation) και ποια η σημασία της στην περίπτωση της DeepSeek; Η απόσταξη είναι μια τεχνική όπου ένα μικρότερο μοντέλο (“μαθητής”) εκπαιδεύεται να μιμείται τη συμπεριφορά ενός μεγαλύτερου, πιο σύνθετου μοντέλου (“δάσκαλος”). Στην περίπτωση της DeepSeek, είναι πιθανό ότι χρησιμοποίησαν απόσταξη για να βελτιώσουν τα μοντέλα τους, αξιοποιώντας την έξοδο άλλων μοντέλων, ακόμα και μέσω APIs ή chat clients. Αυτό οδηγεί στην ταχύτερη βελτίωση της απόδοσης των μοντέλων, με το κόστος, όμως, να επιβαρύνει κυρίως τις εταιρείες που αναπτύσσουν τα μοντέλα αυτά, όπως OpenAI.

Τι είναι το μοντέλο R1 και το R1-Zero της DeepSeek και ποια είναι η σημασία τους; Το R1 είναι ένα μοντέλο λογικής παρόμοιο με το o1 της OpenAI, ικανό να σκέφτεται προβλήματα, παρέχοντας υψηλότερης ποιότητας αποτελέσματα. Το R1-Zero είναι ακόμα πιο σημαντικό, καθώς είναι ένα μοντέλο που ανέπτυξε την ικανότητα της λογικής μέσω καθαρής ενισχυτικής μάθησης (reinforcement learning) χωρίς ανθρώπινη παρέμβαση, ένα σημαντικό βήμα στην ανάπτυξη αυτόνομων συστημάτων τεχνητής νοημοσύνης. Το R1-Zero έμαθε να αναπτύσσει δικές του αλυσίδες σκέψης, συμπεριλαμβανομένων των “Aha moments” όταν επαναξιολογεί μια αρχική προσέγγιση. Στη συνέχεια, το R1 προέκυψε από την ενσωμάτωση δεδομένων και τη βελτίωση της διαδικασίας ενισχυτικής μάθησης, με τελικό στόχο μια μορφή πιο ευανάγνωστη από τον άνθρωπο.

Ποιες είναι οι επιπτώσεις των επιτευγμάτων της DeepSeek για τις μεγάλες εταιρείες τεχνολογίας; Τα επιτεύγματα της DeepSeek, όπως το χαμηλό κόστος εκπαίδευσης και εξαγωγής συμπερασμάτων, είναι ευεργετικά για τις περισσότερες μεγάλες εταιρείες τεχνολογίας. Εταιρείες όπως η Microsoft, η Amazon και η Apple μπορούν να ωφεληθούν από το χαμηλότερο κόστος υποδομής και τα ανοικτού κώδικα μοντέλα. Η Meta είναι ο μεγαλύτερος ωφελημένος, καθώς οι μειωμένες απαιτήσεις μνήμης και κόστους για την εξαγωγή συμπερασμάτων καθιστούν την τεχνητή νοημοσύνη πιο προσβάσιμη για τις υπηρεσίες της. Αντίθετα, η Google βρίσκεται σε χειρότερη θέση, καθώς η μείωση της ανάγκης για εξειδικευμένο υλικό μειώνει το πλεονέκτημά της με τα TPUs και ταυτόχρονα αυξάνει την πιθανότητα εμφάνισης προϊόντων που θα μπορούσαν να αντικαταστήσουν την αναζήτηση.

Ποιος είναι ο ρόλος των κυρώσεων τσιπ (chip ban) στα επιτεύγματα της DeepSeek; Ενώ οι κυρώσεις τσιπ απαγόρευαν την εξαγωγή των H100, η DeepSeek κατάφερε να χρησιμοποιήσει τα H800 και να βελτιστοποιήσει την αρχιτεκτονική της, έτσι ώστε να ξεπεράσει τους περιορισμούς μνήμης που συνεπάγεται η χρήση αυτών. Αυτό, στην ουσία, την ανάγκασε να καινοτομήσει και να αναπτύξει πιο αποδοτικές τεχνικές. Ως αποτέλεσμα, οι κυρώσεις, που αρχικά στόχευαν στην αποδυνάμωση της Κίνας, ενδέχεται να έχουν ενισχύσει τις καινοτομίες της, με αποτέλεσμα τη μείωση της τιμής της μετοχής της Nvidia, η οποία δεν μπορεί να βασιστεί τόσο σε πωλήσεις προηγμένων τσιπ στην Κίνα.

Είναι η ανοικτή διάθεση των μοντέλων της DeepSeek (open-source) σημαντική και γιατί; Η ανοικτή διάθεση των μοντέλων της DeepSeek είναι πολύ σημαντική για διάφορους λόγους. Πρώτον, δημιουργεί ένα ισχυρό τεχνικό οικοσύστημα, προσελκύοντας ταλαντούχους μηχανικούς που αναζητούν εταιρείες με ανοικτές και συνεργατικές πρακτικές. Δεύτερον, αντιμετωπίζει την τάση των αμερικανικών εταιρειών για κλειστό κώδικα (closed-source), όπου οι εταιρείες ελέγχουν την πρόσβαση στην τεχνολογία. Επιπλέον, σε έναν κόσμο όπου τα μοντέλα γίνονται εμπορεύσιμα (commodities), η διαφοροποίηση προκύπτει από τη διατήρηση χαμηλότερου κόστους. Με αυτόν τον τρόπο, η DeepSeek, μέσω του ανοικτού κώδικα, στοχεύει στην ενίσχυση της ανάπτυξης και της συνεργασίας, ωφελώντας έτσι το σύνολο της κοινότητας τεχνητής νοημοσύνης.

Σχετικά Άρθρα