SHANGHAI–(BUSINESS WIRE)–Le 24 janvier, lors de la conférence “New Architecture of Large Language Model”, Rock AI (une filiale de Shanghai Stonehill Technology Co., Ltd.) a officiellement dévoilé le premier grand modèle linguistique à usage général sans mécanisme d’attention, le modèle Yan. Il s’agit également d’un des rares grands modèles de l’industrie qui ne dépend pas d’une architecture de Transformer. Le Modèle Yan offre une efficacité d’entraînement 7 fois supérieure à celle des modèles Transformer ayant des paramètres équivalents, une capacité d’inférence 5 fois plus élevée et une capacité mémoire 3 fois plus importante. De plus, il prend en charge un fonctionnement sans perte sur les CPU, réduit l’hallucination dans les expressions et offre un support à 100 % pour les applications de déploiement privé.
Lors de la réunion, Liu Fanping, le PDG de Rock AI, a prononcé un discours : “Nous espérons que l’architecture Yan pourra servir d’infrastructure pour le domaine de l’intelligence artificielle, et établir un écosystème de développeurs dans le domaine de l’IA. En fin de compte, nous visons à permettre à quiconque d’utiliser des grands modèles polyvalents sur n’importe quel appareil, fournissant des services d’IA plus économiques, pratiques et sécurisés, et à promouvoir la construction d’un avenir de l’intelligence artificielle inclusive.”
Le Transformer, en tant qu’architecture fondamentale pour les grands modèles tels que ChatGPT, a connu un succès significatif, mais il présente encore de nombreuses lacunes, dont une consommation élevée en puissance de calcul, une utilisation étendue de la mémoire, des coûts élevés et des difficultés dans le traitement de données de séquence longue. Pour résoudre ces problèmes, le Modèle Yan remplace l’architecture Transformer par une “Architecture Yan” générative nouvellement développée. Cette architecture permet une inférence sans perte de séquences infiniment longues sur des CPU grand public, réalisant les effets de performance d’un grand modèle avec des centaines de milliards de paramètres en n’utilisant que des dizaines de milliards de paramètres, répondant aux besoins pratiques des entreprises pour le déploiement économique et facile de grands modèles.
Lors de la conférence de presse, l’équipe de recherche a présenté de nombreuses comparaisons empiriques entre le Modèle Yan et un modèle Transformer de la même échelle de paramètres. Les données expérimentales ont montré que dans les mêmes conditions de ressources, le modèle avec l’architecture Yan a une efficacité d’entraînement et une capacité d’inférence respectivement 7 et 5 fois plus élevées que celles de l’architecture Transformer, et sa capacité mémoire est améliorée de 3 fois. En réponse au défi des séquences longues auquel fait face le Transformer, le Modèle Yan se comporte également de manière excellente, capable théoriquement d’atteindre une inférence de longueur illimitée.
De plus, l’équipe de recherche a innové avec une fonction d’association raisonnable et un opérateur de mémoire, combinés à des méthodes de calcul linéaires, pour réduire la complexité de la structure interne du modèle. Le Modèle Yan nouvellement conçu tentera d’ouvrir la “boîte noire” jusqu’ici “ininterprétable” du traitement du langage naturel, facilitant l’application généralisée de grands modèles dans des domaines à haut risque tels que la santé, la finance et le droit. En même temps, l’avantage matériel du Modèle Yan, capable de fonctionner sur des CPU grand public sans compression ni élagage, élargit considérablement les possibilités de déploiement de grands modèles dans diverses industries.
Liu Fanping a déclaré : “Dans la prochaine phase, Rock AI vise à créer un système d’interaction homme-machine en temps réel à pleine modalité, à réaliser l’entraînement côté extrémité et à intégrer l’entraînement et l’inférence. Nous prévoyons de connecter pleinement la perception, la cognition, la prise de décision et l’action pour construire une boucle intelligente pour l’intelligence artificielle générale. Cela offrira plus d’options pour la plateforme fondamentale des grands modèles dans des domaines de recherche tels que les robots polyvalents et l’intelligence incarnée.”