Les aspects technologiques, économiques et géopolitiques du nouveau chatbot chinois

Alexis Tremblay
Alexis Tremblay

La Chine a lancé son chatppt, Deepseek, le chatbot de l’intelligence artificielle qui remet en question OpenII et est bouleversé Le monde non seulement d’un point de vue technologique. Aux États-Unis, les grandes sociétés technologiques se sont effondrées à la bourse. Et il y a eu des critiques: Deepseek a été accusé d’avoir « volé » par Chatgpt, de ne pas répondre aux questions sur la Chine et en Italie, un bloc est déjà arrivé par le garant de la vie privée.

Mais qu’est-ce que cela signifie? Nous le voyons dans cet article, où nous analysons le Aspects technologiques et économiques Et géopolitique de Deepseek.

Deepseek-R1: le modèle de raisonnement capable d’imiter le raisonnement humain

Qu’est-ce que Deepseek, ou plus précisément Deepseek-R1? C’est le nouveau chatbot de l’intelligence artificielle chinoise qui a réussi à atteindre le Même niveau des plus célèbres Chatgpt o1 de la société américaine Openai. En fait, les deux modèles font quelque chose d’extrêmement similaire à notre raisonnement: le So-appelé Chaîne de pensée. En un mot, avant de répondre à une question, ils le divisent en petits problèmes à résoudre et font une série d’étapes intermédiaires avant de répondre.
Mais Deepseek le fait avec un grand avantage: est Cbeaucoup moins osé Et cette chose a eu un impact énorme dans le monde à la fois d’un point de vue technologique et économique.

Prom de profondeur

Mais qu’est-ce que cette technologie coûte moins cher? Chatgpt et Deepsek sont tous deux Llm, Signifiant quoi Modèle de grande languelittéralement de grands modèles linguistiques. C’est-à-dire qu’ils sont une intelligence artificielle capable de Répondez en utilisant notre langue. Mais alors que nous utilisons notre cerveau pour raisonner qui s’est entraîné au fil des ans en étudiant et avec l’expérience, les LLM sont formés à travers de nombreuses données qui viennent données Dans le repas de Dei modèles mathématiques. Et pour enseigner à ces intelligences artificielles pour nous répondre, beaucoup sont fabriqués calculs Merci à Supercomputer, qui utilise certains cartes graphiques, dit GPU, qui ne sont rien de plus que des circuits électroniques, des puces, capable d’élaborer des milliards de calculs par seconde.

Parce que Deepseek est révolutionnaire: comment le modèle chinois a réduit les coûts

Tandis que pour former la dernière version de Chatgpt o1 À ce sujet est estimé 30 000 GPUpour Deepseek-R1-c’est-à-dire que la considération chinoise a été déclarée qu’ils ont servi un peu plus 2 000donc un quinzième. Mais non seulement cela, Chatgpt a été formé avec des cartes graphiques plus puissantes que celles utilisées pour former Deepseek.

Et grâce à cette réduction des coûts de calcul, la société chinoise qui a financé le projet – le haut-voleur qu’elle avait dépensé «seulement» 5 à 6 millions Pour former Deepseek-R1, par rapport aux 100 millions dépensés pour le chat de chat.

puce nvidia

Mais comment est-il possible que Deepseek-R1 ait les mêmes résultats que Chatgpt O1 s’il a utilisé beaucoup moins de GPU et encore moins puissant? Pourquoi Liang Wenfeng – fondateur de Deepseek – et ses chercheurs ont inventé un Nouveau modèle mathématique Révolutionnaire qui nécessite beaucoup moins de puissance de calcul et qui ouvre les portes à la recherche dans le domaine de l’intelligence artificielle.

Et le plus impressionnant est que ce modèle révolutionnaire est né de un besoin. En fait, en 2022, le président de l’époque des États-Unis Biden a imposé à la société américaine Nvidia – qui produit des cartes graphiques – de N’exportez pas le GPU vers la Chine avec l’intention déclarée des raisons de sécurité. En fait, la technologie est fortement utilisée dans l’armée et les États-Unis, entravant le développement technologique de la Chine, ils voulaient se protéger à l’avance de menace militaire.

Wenfeng Mais en 2021, il avait heureusement (pour lui) acheté Quelques milliers H800cartes nvidia assez puissantes. Et il n’avait que ceux disponibles. Et c’est pour cette raison qu’il était dû ingénieur: Disons qu’il avait un ordinateur plus faible et devait en faire assez.

Et comment l’a-t-il fait? Nous essayons de le comprendre en un mot.

Le nouveau modèle mathématique: l’utilisation massive de l’apprentissage du renforcement

Le modèle utilisé pour Train Chatgpt Il est fortement basé sur une méthodologie appelée Réglage fin supervisé ou SFT Ce qui fonctionne essentiellement comme ça. Ça commence toujours à un étagère très vaste, c’est-à-dire d’une série de textes et des sources officielles à partir desquelles le modèle Apprenez à parler. Cette bibliothèque est initialement traitée et divisée en exemples étiquetés, de sorte que le modèle apprend plus ou moins quelle réponse il correspond à quelle question. C’est la partie principale, qui vient alors perfectionné Merci au So-Salled Apprentissage du renforcementc’est-à-dire l’apprentissage par renforcement, qui est fait par des êtres humains dans la formation de Chatgpt. C’est-à-dire qu’ils viennent évaluer les réponses obtenues via SFT Et s’ils sont bons, l’auditeur humain lui donne un score élevé, s’ils ne sont pas précis, il lui donne un score faible. Grâce à ces scores, le modèle s’installe lentement sur les réponses qui maximisent le score. Et ce modèle fonctionne parfaitement.

Sft de chatppt

Les chercheurs de Profondeur Cependant, ils se sont demandé ce qui se passerait si le modèle était Fortement basé sur l’apprentissage du renforcement. Ainsi, la formation Deepseek ne commence pas à partir de données supervisées telles que Chatgpt, mais elle commence directement à donner des scores aux réponses afin de les diriger lentement vers la bonne réponse, à travers des prix qui évaluent la correction d’une question et de son utilité. Et ça le fait évaluer plus de réponses en même tempsqui sont comparés les uns aux autres. Ensuite, dans ce modèle, la supervise de réglage final est utilisée, mais pour terminer les réponses, réduisant ainsi le coût de calcul.

Ce changement de perspective a permis à Deepseek d’être beaucoup plus léger. Pendant que le modèle Chatgpt o1 a un billion De Paramètres, Deepseek-R1 Il a « seul » 671 milliardset en plus, il ne les utilise pas tous ensemble, mais à chaque question, seuls les paramètres dont ils ont besoin actifs. Cette méthode est appelée Mélange d’experts.

RL de Deepseek

Tout cela a donné une secousse à l’économie des États-Unis, en particulier à l’entreprise Nvidia, qui a perdu 600 milliards à la bourse. Mais pourquoi?

L’impact sur l’économie mondiale de Deepseek

Comme nous l’avons dit, Chatppt, Mais aussi les autres LLM comme Copilot, ils avaient besoin milliers et des milliers de GPU pour leur formation. Puis est venu Deepseek-R1 et a montré que beaucoup moins étaient suffisants, ce qui a conduit à un forte dévaluation sur le marché des GPUou plutôt son fabricant, Nvidia.

Les créateurs en profondeur ont également déclaré qui sont suffisants seulement 6 millions Pour créer le modèle. Et cela a donné un secouer à la grande technologie américaine Comme OpenI, Google, Microsoft et Meta, car il a montré que même les petites entreprises peuvent se permettre de créer un tel modèle. De plus, Deepseek-R1 est gratuit, tandis que Chagpt O1 est payé, ou plutôt, il a été jusqu’à il y a quelques heures! En fait, OpenII, qui avait mis sa version la plus sophistiquée qui puisse être utilisée par l’abonnement, l’a maintenant rendement libre pour rester compétitif avec Deepseek.

Chatgpt o3

Mais le plus important est que Deepseek est l’open sourcece qui signifie que le code qui a été utilisé pour programmer le modèle et la formation est public, tout le monde peut consulter et utiliser pour former un nouveau LLM. Et en fait quelques jours après la sortie de R1, il y a déjà des dizaines de nouveaux chatbots IA.

Ce dont nous parlons n’est pas un seul secousse économique, mais aussi géopolitique.Chine, Quelques jours seulement après le règlement du nouveau président Trump, qui pousse beaucoup sur le développement de l’intelligence artificielle, il a réussi à démontrer qu’il être comme la plus grande puissance occidentale. Et il a également démontré qu’il pouvait dépasser les limites dictées par les États-Unis, comme le bloc sur les exportations GPU. Beaucoup appellent ce moment un « moment de Spoutnik », en comparant ce succès chinois à quand en ’57, l’Union soviétique a envoyé le premier satellite en orbite, brisant ainsi l’idée d’une supériorité technologique des États-Unis.

Mais il y a une série de considérations Cela doit être fait.

Les zones d’ombre de Deepseek: du vol d’informations aux problèmes de confidentialité

Tout d’abord, Deepseek a utilisé beaucoup moins de puissance de calcul pour être formé, mais chaque fois que nous le remettons en question, des calculs sont effectués. Alors le Problème des limitations d’exportation des cartes graphiques, reste impactant pour la Chine.

Ensuite, il y a un thème de Confidentialité, Autrement dit, ce qui arrive aux données que nous insérons dans le chatbot. Et ici nous arrivons à l’Italie, où était Deepseek bloqué Du garant de la confidentialité italienne, le GPDP. Attention, cela ne signifie pas que cela ne fonctionne pas hein, le chatbot continue de fonctionnermais la collecte des données que nous insérons a été bloquée. En effet, les données recueillies par Deepseek sont enregistrées sur des serveurs qui sont sur le sol chinois et cela va à l’encontre des règles du GPDP sur la protection de nos données.

Blocage de confidentialité profonde Italie

Ensuite, il y a le thème de réponses politiques: Deepseek ne peut pas répondre à une série de questions, c’est-à-dire celles qui vont à l’encontre du parti. Si vous demandez par exemple le chatbot Ce qui s’est passé en 1989 à Piazza Tiananmen à Pékinoù il y avait une protestation étudiante contre le régime qui s’est terminé par un carnage des étudiants, le chatbot Web de Deepseek est glacialdit simplement qu’il ne répond pas à de telles questions. Mais cela ne doit pas nous surprendre: étant une technologie chinoise, le chatbot public a des règles pour lesquelles il ne dit pas les choses contre le régime, nous ne pouvons pas nous attendre à notre propre liberté de la presse.

Enfin, il y a le grand thème de mensonges et du « vol ». Il y en a beaucoup qui croient que 6 millions de dépenses déclarées sont trop peu nombreuses, que l’entreprise a donc menti sur les chiffres Aussi pour donner la secousse à l’économie mondiale dont nous avons parlé. Et la même chose s’applique aux GPU: il y a ceux qui disent que Deepseek est en fait en possession de beaucoup plus de GPU et de puissance élevée.

Ensuite, il y a le soupçon que Profondeur avoir Chatgpt tournec’est-à-dire qu’il a été formé sur les réponses Chatgpt. Mais la même chose Chatte est depuis des années accusé avoir volé depuis Les journaux tels que le New York Timesplates-formes vidéo comme YouTube. En bref, la vérité n’est pas encore connue et il ne le saura peut-être jamais, il est vrai qu’Openai accuse Deepseek de « voler », mais elle est la même que le vol. Un chien qui se mord la queue.