L’IA conversationnelle fait référence à des technologies telles que les agents virtuels ou les chatbots qui utilisent de grandes quantités de données et le traitement du langage naturel pour imiter les interactions humaines et reconnaître la parole et le texte. Ces dernières années, le paysage de l’IA conversationnelle a évolué de manière spectaculaire, notamment avec le lancement de ChatGPT.
Voici d’autres modèles linguistiques open-source (LLM) qui révolutionnent l’IA conversationnelle.
LLaMA
Date de sortie : 24 février 2023
LLaMa est un LLM fondamental développé par Meta AI. Il est conçu pour être plus polyvalent et responsable que les autres modèles. La sortie de LLaMa vise à démocratiser l’accès à la communauté de recherche et promouvoir les bonnes pratiques en matière d’IA. LLaMa est disponible en plusieurs tailles, avec un nombre de paramètres allant de 7B à 65B. L’accès au modèle sera accordé au cas par cas aux laboratoires de recherche industriels, aux chercheurs universitaires, etc.
OpenLLaMA
Date de sortie : 1 mai 2023
OpenLLaMA est une version open source du célèbre modèle de langage LLaMA développé par Meta AI. Cet outil d’intelligence artificielle offre une prévisualisation publique du modèle OpenLLaMA 7B, qui a été entraîné sur pas moins de 200 milliards de tokens.
Contrairement au modèle LLaMA original, OpenLLaMA est entraîné sur le jeu de données RedPajama, publié par Together. Ce jeu de données est une reproduction du jeu de données d’entraînement LLaMA contenant plus de 1,2 billion de tokens. Les étapes de prétraitement et les hyperparamètres d’entraînement sont les mêmes que ceux du papier original LLaMA, incluant l’architecture du modèle, la longueur du contexte, les étapes d’entraînement, le programme d’apprentissage et l’optimiseur. La seule différence réside dans le jeu de données utilisé.
OpenAssistant
Date de sortie : 8 mars 2023
OpenAssistant est un projet développé par LAION-AI visant à fournir à chacun un excellent modèle linguistique basé sur les conversations. Grâce à une formation approfondie sur de grandes quantités de texte et de code, il a acquis la capacité d’effectuer diverses tâches, notamment répondre aux questions, générer du texte, traduire des langues et produire du contenu créatif. Bien qu’OpenAssistant soit encore en phase de développement, il a déjà acquis plusieurs compétences, telles que interagir avec des systèmes externes comme Google Search pour recueillir des informations. De plus, il s’agit d’une initiative open-source, ce qui signifie que tout le monde peut contribuer à ses progrès.
Dolly
Date de sortie : 8 mars 2023
Dolly est un LLM suivant des instructions développé par Databricks. Il est formé sur la plateforme d’apprentissage automatique Databricks sous licence d’utilisation commerciale. Dolly est alimenté par le modèle Pythia 12B et a été formé sur un large éventail d’instructions/réponses totalisant environ 15 000. Bien que Dolly ne soit pas à la pointe de la technologie, ses performances pour suivre les instructions sont impressionnantes.
Alpaca
Date de sortie : 13 mars 2023
Alpaca est un petit modèle suivant des instructions développé par l’Université de Stanford. Il est basé sur le modèle LLaMa de Meta (7B de paramètres). Il est conçu pour bien fonctionner sur de nombreuses tâches d’instructions tout en étant facile et peu coûteux à reproduire. Bien qu’il ressemble au modèle text-davinci-003 d’OpenAI, il est nettement moins cher (< 600 $) à produire. Le modèle est open-source et a été formé sur un ensemble de données de 52 000 démonstrations de suivi d’instructions.
Vicuna
Date de sortie : avril 2023
Vicuna a été développé par une équipe de l’UC Berkeley, du CMU, de Stanford et de l’UC San Diego. Il s’agit d’un chatbot qui a été formé en affinant le modèle LLaMa sur des conversations partagées par les utilisateurs et collectées à partir de ShareGPT. Basé sur l’architecture du transformateur, Vicuna est un modèle linguistique auto-régressif et offre des capacités de conversation naturelles et engageantes. Avec 13B de paramètres, il produit des réponses plus détaillées et bien structurées que Alpaca, et sa qualité est comparable à celle de ChatGPT.
Koala
Date de sortie : 3 avril 2023
Le Berkeley Artificial Intelligence Research Lab (BAIR) a développé Koala, un modèle de dialogue basé sur le modèle LLaMa 13B. Il est conçu pour être plus sûr et plus facilement interprétable que les autres LLM. Koala a été affiné sur des données d’interaction librement disponibles, en se concentrant sur des données qui incluent des interactions avec des modèles fermés très performants. Koala est utile pour étudier la sécurité et les biais des modèles linguistiques et pour comprendre le fonctionnement interne des modèles linguistiques de dialogue. De plus, Koala est une alternative open-source à ChatGPT qui comprend EasyLM, un cadre pour former et affiner les LLM.
Pythia
Date de sortie : avril 2023
Eleuther AI a créé un ensemble de modèles linguistiques autorégressifs appelés Pythia, conçus pour soutenir la recherche scientifique. Pythia comprend 16 modèles différents allant de 70M à 12B de paramètres. Tous les modèles sont formés en utilisant les mêmes données et architecture, permettant des comparaisons et explorant comment ils évoluent avec l’échelle.
OpenChatKit
Date de sortie : 5 avril 2023
Together a développé OpenChatKit, un cadre de développement de chatbots open-source qui vise à simplifier et rationaliser le processus de création d’applications d’IA conversationnelle. Le chatbot est conçu pour la conversation et l’instruction et excelle dans la synthèse, la génération de tableaux, la classification et le dialogue. Avec OpenChatKit, les développeurs peuvent accéder à une base solide et open-source pour créer des chatbots spécialisés et polyvalents pour diverses applications. Le cadre est basé sur l’architecture GPT-4 et est disponible en trois tailles de modèle différentes – 3B, 6B et 12B de paramètres – pour s’adapter à diverses ressources informatiques et exigences d’application.
RedPajama
Date de sortie : 13 avril 2023
RedPajama est un projet créé par une équipe de Together, Ontocord.ai, ETH DS3Lab, Stanford CRFM, Hazy Research et MILA Québec AI Institute. Leur objectif est de développer des modèles open-source de premier ordre, en commençant par reproduire l’ensemble de données d’entraînement LLaMA qui contient plus de 1,2 billion de jetons. Ce projet vise à créer un modèle linguistique entièrement ouvert, reproductible et à la pointe de la technologie avec trois éléments essentiels : les données de pré-entraînement, les modèles de base et les données et modèles d’ajustement des instructions. L’ensemble de données est actuellement accessible via Hugging Face, et les utilisateurs ont la possibilité de reproduire les résultats en utilisant les scripts Apache 2.0 disponibles sur GitHub.
StableLM
Date de sortie : 19 avril 2023
StableLM est un modèle linguistique open-source développé par Stability AI. Le modèle est formé sur un ensemble de données expérimentales trois fois plus grand que l’ensemble de données The Pile et est efficace dans les tâches conversationnelles et de codage malgré sa petite taille. Le modèle existe en 3B et 7B de paramètres, avec des modèles plus grands à venir. StableLM peut générer du texte et du code, ce qui le rend adapté à diverses applications en aval. Stability AI met également à disposition une série de modèles de recherche affinés par instruction, en utilisant une comb