Qu’est-ce qu’un modèle grand langage (LLM)? De Chatgpt à Deepseek, voici comment ils fonctionnent et à quoi ils servent

Alexis Tremblay
Alexis Tremblay

Chatgpt, Gemini, Claude et Deepseek sont les protagonistes absolus de ces dernières années. En fait, l’intelligence artificielle fait partie de la vie quotidienne grâce à Grands modèles linguistiques (Dans les modèles de grande langue anglais, LLM). Mais que sont-ils exactement et comment fonctionnent-ils? LLM sont des systèmes d’intelligence artificielle capables de interpréter et générer du textepermettant d’interagir avec eux en parlant normalement, comme nous le ferions avec une personne: ils sont capables de soutenir conversations, écrire textes e résumer documents, mais, malgré leurs compétences, ils peuvent s’engager erreurs Et ils n’ont pas une réelle compréhension des réponses qu’ils génèrent. Nous devons donc les utiliser avec conscience.

Que sont LLM et à quoi ils servent

UN Modèle de grande langue (LLM) est une intelligence artificielle conçue pour interpréter, procès Et générer du texte écrit. Les LLM font partie du domaine du traitement du langage naturel (NLP), c’est-à-dire le traitement du langage naturel, qui traite de l’enseignement des ordinateurs comment interpréter le langage humain. Pour cela, nous pouvons interagir avec ces modèles en parlant simplement ou en écrivant naturellement.

chatbot llm parlant humain

Ces outils sont utilisés dans de nombreux contextes différents: ils peuvent écrire un e-mail, traduire textes, répondre à demandes, résumer articles, générer Contenu créatif ou soutien dans étude et dans le programmation. Il existe également des expériences dans le domaine médical, dans lequel les modèles sont accompagnés de médecins et de médecins pour le formulation d’un diagnostic À partir des symptômes.

Il existe de nombreux modèles différents, chacun avec ses propres caractéristiques. Les plus connus sont Chatte Et Profondeurutile pour écrire, traduire et résumer le contenu. Gémeaux Et Claude Ils sont un peu moins connus, mais ils sont également tout aussi flexibles et adaptés à différentes tâches. En particulier, les Gémeaux sont efficaces dans la gestion de textes longs, tandis que Claude se démarque dans la génération du code. Malgré les différences, tous ces modèles partagent certaines bases communes. Voyons maintenant, de manière intuitive, comment ils fonctionnent.

Comment l’intelligence artificielle fait pour apprendre

LLM est en mesure d’interpréter nos demandes et de générer des phrases qui semblent être écrites par des humains. Mais comment savent-ils quels sont les bons mots à utiliser et comment structurer les phrases? Pour ce faire, ils collectent et oui Ils utilisent d’énormes quantités de texte contenant des milliards de mots. Le modèle apprend alors dans trois phases Principal:

  • Dans le premier, appelé Pré-formation (D’où le « P » dans Chat-gpt), le modèle apprend à Copier et répéter l’énorme quantité de texte qui lui est fourni. Cette phase comprend substantiellement complet au modèle Phrases avec des mots manquantspour le faire Apprenez les structures et les règles du langagesans enseignements explicites. C’est un peu comme un enfant qui apprend à parler à l’écoute et à la répétition.
  • La deuxième phase est leInstruction Fine-Tonning. Ici, le modèle est invité non seulement à compléter les phrases, mais aussi à suivre uninstruction précise (comme « écrire un e-mail officiel » ou « explique la photosynthèse à un enfant ») et générer une réponse utile et pertinent.
  • Dans la troisième phase, le Renforcement d’apprentissage de la rétroaction humainele modèle est encore amélioré grâce aux commentaires des évaluateurs humains qui voient les réponses possibles à la même question et indiquent ce qu’ils préfèrent.
LLM Chatgpt Netwural Network

Comment le LLM interprète ce que nous écrivons et générons les réponses

En termes concrètes, que se passe-t-il lorsque nous écrivons une demande à Chatgpt et que nous obtenons une réponse? Lorsque nous écrivons une demande à un LLM, le modèle prend la phrase et le rompt en « jeton« , C’est petit Personnages Blocs qui contiennent uninformation. Un jeton peut en être un mot entier, un syllabemais aussi un caractère unique. Par exemple, si nous demandons à Chatgpt: « Expliquez-moi pourquoi l’inflation augmente les prix, mais fais-le comme si j’étais un ami au bar. » La phrase est décomposée en jeton comme nous le voyons ici.

Image

Dans ce cas, « comment » est un jeton, mais le point seul l’est aussi. En effet, le point nous donne des informations: elle nous dit que la phrase est terminée.

Chaque jeton vient alors converti Dans un certain nombre E analysé de un Transformateurle cœur du LLM (c’est d’ici que le chatppt « t » arrive). Les transformateurs sont des réseaux de neurones introduits par Google en 2017, qui ont révolutionné l’interprétation du langage grâce à un mécanisme appelé autosoins. Dans la première phrase, nous, les humains, comprenons immédiatement que « Fallo » fait référence à « Spiega Me ». Pour un algorithme, cependant, cette connexion n’est pas immédiate. Grâce aux soins personnels, cependant, le modèle parvient à établir des liens même entre des mots éloignés dans la phrase et à comprendre le sens des mots basés sur le contexte. De cette façon, il parvient à interpréter correctement les demandes complexes.

Une fois que la demande « arrive », le modèle doit produire un répondre. Pour ce faire, calculez étape par étape quel est le jeton plus probable À insérer, sur la base de tout ce qu’il a appris pendant la pré-formation. Pour cette raison, il est dit que les LLM sont des perroquets stochastiques: ils répètent ce qu’ils ont appris, mais avec une certaine dose de hasard. Ce « hasard » est différent pour chaque modèle et est défini par un paramètre appelé température. Un LLM à basse température générera des réponses plus prévisibles et plus liées aux sources de démarrage, tandis que celle à haute température créera des réponses plus créatives mais moins fiables. Précisément pour cette raison, nous ne pouvons pas compter aveuglément sur les réponses d’un LLM: les phrases qu’il produit pourraient jouer plausibles, mais être fausses.