“Un très gros problème” – Dolly est un modèle d’IA gratuit et open source de type ChatGPT


Le logo Databricks Dolly

Databrick

Mercredi, Databricks a publié Dolly 2.0, qui serait le premier modèle de langage large (LLM) open source suivant les instructions à usage commercial qui a été affiné sur un ensemble de données générées par l’homme. Cela pourrait servir de point de départ convaincant pour les concurrents homebrew ChatGPT.

Databricks est une société américaine de logiciels d’entreprise fondée en 2013 par les créateurs de Apache Étincelle. Ils fournissent une plate-forme Web pour travailler avec Spark pour le Big Data et l’apprentissage automatique. En publiant Dolly, Databricks espère permettre aux organisations de créer et de personnaliser des LLM “sans payer pour l’accès à l’API ni partager de données avec des tiers”, selon le lancement de Dolly. article de blog.

Dolly 2.0, son nouveau modèle de 12 milliards de paramètres, est basé sur La pythie d’EleutherAI famille de modèles et exclusivement affiné sur des données de formation (appelées “databricks-dolly-15k”) issues du crowdsourcing des employés de Databricks. Ce calibrage lui donne des capacités plus conformes au ChatGPT d’OpenAI, qui est meilleur pour répondre aux questions et engager le dialogue en tant que chatbot qu’un LLM brut qui n’a pas été affiné.

Dolly 1.0, sorti en mars, a rencontré des limitations concernant l’utilisation commerciale en raison des données de formation, qui contenaient la sortie de ChatGPT (grâce à Alpaga) et était soumis aux conditions d’utilisation d’OpenAI. Pour résoudre ce problème, l’équipe de Databricks a cherché à créer un nouvel ensemble de données qui permettrait une utilisation commerciale.

Pour ce faire, Databricks a organisé 13 000 démonstrations de comportement de suivi des instructions de la part de plus de 5 000 de ses employés entre mars et avril 2023. Pour inciter à la participation, ils ont organisé un concours et décrit sept tâches spécifiques pour la génération de données, y compris les questions-réponses ouvertes, les questions-réponses fermées. , extraction et synthèse d’informations de Wikipédia, brainstorming, classification et écriture créative.

L’ensemble de données résultant, ainsi que les poids du modèle et le code de formation de Dolly, ont été publiés entièrement en open source sous un Creative Commons licence, permettant à quiconque d’utiliser, de modifier ou d’étendre l’ensemble de données à toutes fins, y compris des applications commerciales.

En revanche, OpenAI ChatGPT est un modèle propriétaire qui oblige les utilisateurs à payer pour l’accès à l’API et à respecter des conditions de service spécifiques, limitant potentiellement la flexibilité et les options de personnalisation pour les entreprises et les organisations. Méta Lamaun modèle partiellement open source (avec des poids restreints) qui a récemment engendré une vague de produits dérivés après ses poids fuite sur BitTorrent, ne permet pas une utilisation commerciale.

Sur Mastodon, le chercheur en intelligence artificielle Simon Willison appelé Dolly 2.0 “un très gros problème”. Willison expérimente souvent des modèles de langage open source, y compris Dolly. “L’une des choses les plus excitantes à propos de Dolly 2.0 est le jeu d’instructions de réglage fin, qui a été fabriqué à la main par 5 000 employés de Databricks et publié sous une licence CC”, a écrit Willison dans un toot Mastodon.

Si l’enthousiaste réaction au seul modèle LLaMA partiellement ouvert de Meta est une indication, Dolly 2.0 pourrait potentiellement déclencher une nouvelle vague de modèles de langage open source qui ne sont pas entravés par des limitations ou des restrictions propriétaires sur l’utilisation commerciale. Alors que le mot est encore sur le réel de Dolly capacité de performanced’autres améliorations pourraient permettre d’exécuter des LLM raisonnablement puissants sur des machines grand public locales.

“Même si Dolly 2 n’est pas bon, je pense que nous verrons bientôt un tas de nouveaux projets utilisant ces données de formation”, a déclaré Willison à Ars. “Et certains d’entre eux pourraient produire quelque chose de vraiment utile.”

Actuellement, le Poids de chariot sont disponibles chez Hugging Face, et le ensemble de données databricks-dolly-15k peut être trouvé sur GitHub.