Aperçu de la société Minimax AI
MiniMax AI développe des technologies de modélisation de l'IA à grande échelle, des constructeurs d'infrastructures et des solutions d'application de contenu. Dernière incursion dans le domaine de l'IA générative de la startup licorne soutenue par Alibaba et Tencent, MiniMax se consacre au développement de systèmes moteurs d'intelligence artificielle générale (AGI). Fondée en 2021, l'entreprise a son siège à Shanghai, en Chine. L'un de ses principaux produits est un générateur de texte-vidéo qui a fait parler de lui pour sa capacité à générer des images hyperréalistes d'êtres humains, y compris des mouvements de mains précis.
Produits Minimax AI
Génération vidéo Modèle : video-01
Video-01 est Modèle d'IA qui peut générer des vidéos haute résolution à partir d'instructions textuelles, avec une résolution de 1 280 x 720 pixels à 25 images par seconde. Les vidéos sont actuellement limitées à six secondes. Video-01 propose différents styles, notamment des dessins animés, des images de synthèse et des graphiques de jeux vidéo. Le modèle présente relativement peu d'erreurs d'image ou d'artefacts et semble même capable d'afficher du texte dans les vidéos. MiniMax video-01 est un bon modèle, à peu près équivalent à Machine à rêves de Luma Labs mais pas aussi bien que la piste Gen-3
Modèle Music Generation : Music-01
Music-01 est un modèle d'aide à la synthèse vocale, dont les principales caractéristiques sont les suivantes
- Génération de musique hautement anthropomorphique : Ce modèle crée des compositions musicales complexes et émotionnelles, ce qui le rend idéal pour divers scénarios créatifs et offre une flexibilité et une innovation significatives en matière de création musicale.
- Prise en charge de plusieurs styles : Le modèle prend en charge un large éventail de styles musicaux, des instruments traditionnels à la musique électronique moderne, et de la musique classique chinoise à la musique pop occidentale.
Texte grand modèle : abab 6.5s
abab 7 prend en charge l'entraînement efficace de vastes ensembles de données, améliorant considérablement la praticité et la vitesse de réponse tout en réduisant drastiquement les coûts d'entraînement et de raisonnement pour les modèles de grande taille. Par rapport à l'architecture Transformer traditionnelle, cette nouvelle architecture réduit les coûts de plus de 90% pour une longueur de séquence de 128K, avec des avantages encore plus importants au fur et à mesure que la longueur de la séquence augmente.
Voice big modèle : speech-01
Variété de sons hyper-anthropomorphes de haute qualité, capacités de génération de voix de nouvelle génération.