NEW

Change Your Voice with AI

Diálogo: O modelo de IA de voz mais expressivo do mundo

O Dialog é um modelo de IA de voz altamente expressivo e natural, ideal para narrações, audiolivros, podcasts e agentes de voz, onde é necessário um tom de conversação, prosódia e emoção precisos e envolventes.

A confiança das equipas de

A NextKast criou um DJ de IA totalmente automatizado para os nossos clientes de estações de rádio utilizando as vozes do PlayAI Dialog . Adoramos o som expressivo, emocional e natural das vozes e não encontrámos mais nada no mercado. Na rádio, manter o público envolvido é o objetivo principal, e as vozes da Play fazem isso.

Winston Potgieter, Fundador, Axis Entertainment

Latência < 320ms

Optimizado para conversas com várias voltas

Prosódia dinâmica e emoção

Implementável no local

Ouvir o Diálogo em ação

Crie narrações de IA, podcasts e audiolivros envolventes e emotivos, ou potencie agentes de voz ultra-realistas. O Dialog compreende cada turno de uma conversa e gera um discurso com a prosódia, o ritmo e a emoção corretos.

voice

Podcast de IA entre anfitriões

Gerar podcasts completos com IA com quaisquer vozes

Começar
voice

Conversa entre personagens

Criar conversas contextuais cativantes entre várias personagens

Começar
voice

Narração envolvente

Gerar conteúdos narrativos dramáticos ricos

Começar
voice

Diálogos dramáticos para uma cena

Rápido e direto para gerar entregas dramáticas

Começar

O diálogo utiliza todo o contexto de uma conversa

Ao contrário dos modelos anteriores de IA de voz, o PlayDialog utiliza todo o contexto de conversação como entrada, o que significa que as narrações e as conversações entre várias partes soam fluidas, envolventes e naturais, com excelente prosódia, ritmo e entoação.

Referência de clonagem de voz

A Dialog oferece a melhor clonagem de voz da sua classe

As nossas capacidades de clonagem de voz líderes no sector significam que, com o PlayDialog, obtém uma reprodução fiel que quase não se distingue do original. Crie narrações, podcasts e dobragens sempre com precisão.

O Dialog é preferido 3:1 em relação ao modelo líder da indústria

O Dialog foi preferido por 3:1 nos testes em comparação com o modelo mais conhecido da indústria, ganhando em emoção, qualidade e precisão. Experimente e sinta a diferença

Diálogo PlayAI vs Modelo concorrente
Generate spoken audio from input text

  import axios from 'axios';
  import dotenv from 'dotenv';
  
  dotenv.config();
  
  // Set up headers with your API secret key and user ID
  const userId = process.env.PLAYDIALOG_USER_ID;
  const secretKey = process.env.PLAYDIALOG_SECRET_KEY;
  
  const headers = {
    'X-USER-ID': userId,
    Authorization: secretKey,
    'Content-Type': 'application/json',
  };
  
  // Define the model
  const model = 'PlayDialog';
  
  // Define voices for the 2 hosts
  // Find all voices here https://docs.play.ai/tts-api-reference/voices
  const voice1 = 's3://voice-cloning-zero-shot/baf1ef41-36b6-428c-9bdf-50ba54682bd8/original/manifest.json';
  const voice2 = 's3://voice-cloning-zero-shot/e040bd1b-f190-4bdb-83f0-75ef85b18f84/original/manifest.json';
  
  // Podcast transcript should be in the format of Host 1: ... Host 2:
  const transcript = `
  Host 1: Welcome to The Tech Tomorrow Podcast! Today we're diving into the fascinating world of voice AI and what the future holds.
  Host 2: And what a topic this is. The technology has come so far from those early days of basic voice commands.
  Host 1: Remember when we thought it was revolutionary just to ask our phones to set a timer?
  Host 2: Now we're having full conversations with AI that can understand context, emotion, and even cultural nuances. It's incredible.
  Host 1: Though it does raise some interesting questions about privacy and ethics. Where do we draw the line?
  Host 2: Exactly. The potential benefits for accessibility and education are huge, but we need to be thoughtful about implementation.
  Host 1: Well, we'll be exploring all of these aspects today. Stay with us as we break down the future of voice AI.
  `;
  
  const payload = {
    model,
    text: transcript,
    voice: voice1,
    voice2: voice2,
    turnPrefix: 'Host 1:',
    turnPrefix2: 'Host 2:',
    outputFormat: 'mp3',
  };
  
  // Send the POST request to trigger podcast generation
  const response = await axios.post('https://api.play.ai/api/v1/tts/', payload, { headers });
  
  // Get the job ID to check the status
  const jobId = response.data.id;
  
  if (!jobId) {
    throw new Error('Job ID not returned by API');
  }
  
  // Use the job ID to check completion status
  const url = `https://api.play.ai/api/v1/tts/${jobId}`;
  const delaySeconds = 2000;
  
  // Keep checking until status is COMPLETED.
  // Longer transcripts take more time to complete.
  let podcastAudio = null;
  while (!podcastAudio) {
    const statusResponse = await axios.get(url, { headers });
    const status = statusResponse.data.output?.status;
    console.log(status);
  
    if (status === 'COMPLETED') {
      // Once completed, audio URL will be available
      podcastAudio = statusResponse.data.output.url;
    } else {
      await new Promise((resolve) => setTimeout(resolve, delaySeconds));
    }
  }
  
  console.log('Podcast audio URL:', podcastAudio);
  
  

É fácil de codificar

O PlayDialog é fácil de utilizar e está disponível através da nossa API e em plataformas como a Fal. Também suporta Websockets e streaming a partir de LLMs.

Precisa dele no local? Não há problema

Os modelos da PlayAI vão para onde precisar deles, incluindo no local para as aplicações de segurança mais elevada

OnPrem
Certificações empresariais

O diálogo está pronto para as empresas

O Dialog é compatível com o RGPD, SOC 2 tipo II e ISO2700. Todos os modelos estão disponíveis a pedido em plataformas de nuvem ou no local para as aplicações empresariais mais exigentes

Caraterísticas principais

Vozes realistas

Os modelos de voz TTS da Play são líderes no sector em termos de qualidade de voz, prosódia e entoação.

Baixa latência

Tempo para o primeiro áudio tão baixo quanto 320 ms, menos se for necessária uma implantação no local

Fácil de utilizar

Geração e personalização de IA de voz, tudo suportado por APIs fáceis de utilizar.

Exatidão

O diálogo é aperfeiçoado para garantir a geração exacta de acrónimos e sequências numéricas (por exemplo, números de telefone e de cartão de crédito).

Multilingue

Suporte total para inglês, espanhol e árabe; mais de 25 idiomas em desenvolvimento

Segurança

Todos os modelos são compatíveis com GDPR, ISO 27001 e SOC 2 tipo II. Também disponível no local.

Quer falar com a nossa equipa?

Se tiver um caso de utilização empresarial em mente, gostaríamos de o ouvir.