Minimax AI - Empresa de geração de vídeo com IA na China

IA Minimax

Visão geral da empresa Minimax AI

A MiniMax AI está a desenvolver tecnologias de modelação de IA em grande escala, construtores de infraestruturas e soluções de aplicação de conteúdos. A mais recente incursão em IA generativa pela startup unicórnio apoiada por Alibaba e Tencent, MiniMax é dedicada ao desenvolvimento de sistemas de motores de Inteligência Artificial Geral (AGI), que foi fundada em 2021 e está sediada em Xangai, China. Um de seus principais produtos é um gerador de texto para vídeo que se tem destacado pela sua capacidade de gerar imagens hiper-realistas de seres humanos, incluindo movimentos precisos das mãos.

Produtos Minimax AI

Modelo de geração de vídeo: video-01

O vídeo-01 é Modelo de IA que pode gerar vídeos de alta resolução a partir de instruções de texto, suportando uma resolução de 1.280 x 720 pixéis a 25 fotogramas por segundo. Os vídeos estão atualmente limitados a seis segundos. O Video-01 oferece vários estilos, incluindo anime, CGI e gráficos de videojogos. O modelo apresenta relativamente poucos erros ou artefactos de imagem e até parece capaz de apresentar texto em vídeos. O MiniMax video-01 é um bom modelo, aproximadamente equivalente a Máquina de sonhos da Luma Labs mas não tão bom como a pista Gen-3

Modelo Music Generation: Music-01

O Music-01 é um modelo de IA de texto para música. As principais caraterísticas incluem

  • Geração de música altamente antropomórfica: Este modelo cria composições musicais complexas e emocionais, tornando-o ideal para vários cenários criativos e oferecendo uma flexibilidade e inovação significativas na criação musical.
  • Suporte multi-estilo: O modelo lida habilmente com uma vasta gama de estilos musicais - de instrumentos tradicionais a música eletrónica moderna, e de música clássica chinesa a pop ocidental.

Texto Grande Modelo: abab 6.5s

O abab 7 suporta o treino eficiente de vastos conjuntos de dados, aumentando significativamente a praticidade e a velocidade de resposta, ao mesmo tempo que reduz drasticamente os custos de treino e raciocínio para grandes modelos. Em comparação com a arquitetura Transformer tradicional, esta nova arquitetura reduz os custos em mais de 90% com um comprimento de sequência de 128K, com vantagens ainda maiores à medida que o comprimento da sequência aumenta.

Modelo de voz grande: speech-01

Variedade de tons hiper-antropomórficos de alta qualidade, capacidades de geração de voz da próxima geração.

Partilhar

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *