ServiceNow et Hugging Face ont collaboré pour lancer l’un des modèles de langage naturel à accès libre (LLM) les plus performants et les plus responsables pour la génération de code. Le modèle StarCoder LLM, qui contient 15 milliards de paramètres, a été conçu pour rendre l’IA générative plus transparente et accessible afin de permettre une innovation responsable à grande échelle. Il fait partie du projet BigCode, une initiative visant à développer des systèmes d’IA de pointe pour le code de manière ouverte et responsable avec le soutien de la communauté scientifique de recherche en IA ouverte.
StarCoder permet à des développeurs de toutes tailles de s’impliquer
StarCoder est un modèle conçu pour égaliser les chances, de sorte que les développeurs de toutes tailles d’organisations puissent exploiter la puissance de l’IA générative. Ce nouveau LLM marque une étape importante dans le projet BigCode et donne aux ingénieurs logiciels professionnels la possibilité de relever les défis de programmation les plus complexes et permet aux développeurs citoyens de construire de nouveaux logiciels, indépendamment de leurs compétences techniques. Il peut être déployé pour apporter une IA générative de type pair-programming aux applications, avec des capacités telles que la conversion texte-en-code et texte-en-flux de travail.
Un accès libre avec une licence de modèle d’IA responsable
StarCoder a été entraîné avec un trillion de jetons de code source sous licence permissive couvrant plus de 80 langages de programmation provenant de l’ensemble de données The Stack v1.2 de BigCode. Il sera publié en accès libre sur la plateforme Hugging Face Code Open RAIL-M sous une licence de modèle d’IA responsable permettant une distribution exempte de redevances. Contrairement aux logiciels open-source traditionnels publiés sans restrictions d’utilisation, BigCode publie le modèle avec une licence de modèle d’IA responsable qui inclut des restrictions d’utilisation qui s’appliquent aux modifications du modèle et aux applications utilisant le modèle.
L’engagement de ServiceNow envers l’excellence de l’IA
ServiceNow Research et Hugging Face ont lancé conjointement le projet BigCode en septembre 2022. Le projet continue d’opérer en tant que collaboration scientifique ouverte, les deux sociétés exploitant le savoir-faire et les ressources collectives de la communauté open-source grâce aux groupes de travail, aux forces opérationnelles et aux réunions BigCode. Au cours des trois dernières années seulement, ServiceNow a élargi sa gamme de produits avec plusieurs acquisitions notables d’IA, notamment Attivio, Element AI, and Hitch Works offrant des capacités d’IA pratiques et adaptées aux besoins de la plateforme Now.
StarCoder : Démocratisation de l’IA
« Les efforts conjoints menés par Hugging Face et ServiceNow permettent de publier des modèles de base puissants qui permettent à la communauté de construire une large gamme d’applications plus efficacement qu’une seule entreprise ne pourrait le faire », a déclaré Leandro von Werra, ingénieur en apprentissage automatique chez Hugging Face.
Les données d’entraînement
Le modèle a été entraîné sur un sous-ensemble de The Stack 1.2. L’ensemble de données ne contient que du code sous licence permissive et comprend un processus de désinscription permettant aux contributeurs de retirer leurs données de l’ensemble de données (voir Suis-je dans The Stack). En collaboration avec Toloka, nous avons supprimé les informations personnelles identifiables des données d’entraînement, telles que les noms, les mots de passe et les adresses e-mail.
Modèles
GitHub: Tout ce que vous devez savoir sur l’utilisation ou la personnalisation de StarCoder.
StarCoder: StarCoderBase entraîné en plus sur Python.
StarCoderBase: Entraîné sur plus de 80 langues provenant de The Stack.
StarEncoder: Modèle d’encodeur entraîné sur The Stack.
StarPii: Détecteur de PII basé sur StarEncoder.
Outils et démonstrations
StarCoder Chat: Discutez avec StarCoder !
VSCode Extension: Codez avec StarCoder !
StarCoder Playground: Écrivez avec StarCoder !
StarCoder Editor: Modifiez avec StarCoder !
Données et gouvernance
StarCoderData: Ensemble de données de pré-entraînement de StarCoder.
Tech Assistant Prompt: Avec ces commandes, vous pouvez transformer StarCoder en assistant technique.
Governance Card: Une carte présentant la gouvernance du modèle.
StarCoder License Agreement: Le modèle est sous licence OpenRAIL-M v1 de BigCode.
StarCoder Search: Recherche de code en texte intégral dans l’ensemble de données de pré-entraînement.
StarCoder Membership Test: Test ultra-rapide pour savoir si du code était présent dans l’ensemble de données de pré-entraînement.