NEW

Change Your Voice with AI

Diálogo: El modelo de IA de voz más expresivo del mundo

Dialog es un modelo de IA de voz altamente expresivo y de sonido natural, ideal para narraciones, audiolibros, podcasts y agentes de voz, donde se requiere un tono conversacional, prosodia y emoción precisos y atractivos.

Equipos de confianza en

NextKast creó un DJ de IA completamente automatizado para nuestros clientes de estaciones de radio utilizando las voces de PlayAI Dialog. Nos encanta lo expresivas, emotivas y naturales que suenan las voces, y no encontramos nada similar en el mercado. En la radio, mantener a la audiencia comprometida es el objetivo principal, y las voces de Play lo logran.

Winston Potgieter, Fundador, Axis Entertainment

< 320 ms de latencia

Optimizado para conversaciones multigiro

Prosodia dinámica y emoción

Desplegable en local

Escuche Dialog en acción

Cree narraciones, podcasts y audiolibros atractivos y emotivos con IA, o potencie agentes de voz ultrarrealistas. Dialog entiende cada turno de una conversación y genera un discurso con la prosodia, el ritmo y la emoción adecuados.

voice

Podcast AI entre anfitriones

Genera podcasts completos de IA con cualquier voz

Comenzar
voice

Conversation between characters

Cree atractivas conversaciones contextuales entre varios personajes

Comenzar
voice

Narración atractiva

Generar un rico contenido narrativo dramático

Comenzar
voice

Diálogos dramáticos para una escena

Rápido y directo para generar entregas espectaculares

Comenzar

El diálogo utiliza todo el contexto de la conversación

A diferencia de los modelos anteriores de IA vocal, PlayDialog utiliza todo el contexto de la conversación como entrada, lo que significa que las narraciones y las conversaciones entre varios interlocutores suenan fluidas, atractivas y naturales, con una prosodia, un ritmo y una entonación excelentes..

Benchmark de clonación de voz

Dialog ofrece la mejor clonación de voz de su clase

Nuestra capacidad de clonación de voz, líder en el sector, significa que con PlayDialog obtendrá una reproducción fiel apenas distinguible del original. Cree narraciones, podcasts y doblajes con precisión en todo momento.

Dialog se prefiere 3:1 sobre el modelo líder del sector

Dialog fue preferido 3:1 en las pruebas frente al modelo más conocido del sector, ganando en emoción, calidad y precisión. Pruébelo y experimente la diferencia

Diálogo PlayAI frente al modelo de la competencia
Generate spoken audio from input text

  import axios from 'axios';
  import dotenv from 'dotenv';
  
  dotenv.config();
  
  // Set up headers with your API secret key and user ID
  const userId = process.env.PLAYDIALOG_USER_ID;
  const secretKey = process.env.PLAYDIALOG_SECRET_KEY;
  
  const headers = {
    'X-USER-ID': userId,
    Authorization: secretKey,
    'Content-Type': 'application/json',
  };
  
  // Define the model
  const model = 'PlayDialog';
  
  // Define voices for the 2 hosts
  // Find all voices here https://docs.play.ai/tts-api-reference/voices
  const voice1 = 's3://voice-cloning-zero-shot/baf1ef41-36b6-428c-9bdf-50ba54682bd8/original/manifest.json';
  const voice2 = 's3://voice-cloning-zero-shot/e040bd1b-f190-4bdb-83f0-75ef85b18f84/original/manifest.json';
  
  // Podcast transcript should be in the format of Host 1: ... Host 2:
  const transcript = `
  Host 1: Welcome to The Tech Tomorrow Podcast! Today we're diving into the fascinating world of voice AI and what the future holds.
  Host 2: And what a topic this is. The technology has come so far from those early days of basic voice commands.
  Host 1: Remember when we thought it was revolutionary just to ask our phones to set a timer?
  Host 2: Now we're having full conversations with AI that can understand context, emotion, and even cultural nuances. It's incredible.
  Host 1: Though it does raise some interesting questions about privacy and ethics. Where do we draw the line?
  Host 2: Exactly. The potential benefits for accessibility and education are huge, but we need to be thoughtful about implementation.
  Host 1: Well, we'll be exploring all of these aspects today. Stay with us as we break down the future of voice AI.
  `;
  
  const payload = {
    model,
    text: transcript,
    voice: voice1,
    voice2: voice2,
    turnPrefix: 'Host 1:',
    turnPrefix2: 'Host 2:',
    outputFormat: 'mp3',
  };
  
  // Send the POST request to trigger podcast generation
  const response = await axios.post('https://api.play.ai/api/v1/tts/', payload, { headers });
  
  // Get the job ID to check the status
  const jobId = response.data.id;
  
  if (!jobId) {
    throw new Error('Job ID not returned by API');
  }
  
  // Use the job ID to check completion status
  const url = `https://api.play.ai/api/v1/tts/${jobId}`;
  const delaySeconds = 2000;
  
  // Keep checking until status is COMPLETED.
  // Longer transcripts take more time to complete.
  let podcastAudio = null;
  while (!podcastAudio) {
    const statusResponse = await axios.get(url, { headers });
    const status = statusResponse.data.output?.status;
    console.log(status);
  
    if (status === 'COMPLETED') {
      // Once completed, audio URL will be available
      podcastAudio = statusResponse.data.output.url;
    } else {
      await new Promise((resolve) => setTimeout(resolve, delaySeconds));
    }
  }
  
  console.log('Podcast audio URL:', podcastAudio);
  
  

Es fácil codificar

PlayDialog es fácil de usar y está disponible a través de nuestra API y en plataformas como Fal. También es compatible con Websockets y streaming desde LLMs.

¿Lo necesita en Prem? No hay problema

Los modelos de PlayAI van donde usted los necesite, incluso on-prem para las aplicaciones de mayor seguridad

OnPrem
Certificaciones de empresa

Dialog está preparado para la empresa

Dialog cumple las normativas GDPR, SOC 2 tipo II e ISO2700. Todos los modelos están disponibles bajo petición en plataformas en la nube u on-prem para las aplicaciones empresariales más exigentes

Características principales

Voces reales

Los modelos de voz TTS de Play lideran el sector en calidad de voz, prosodia y entonación.

Baja latencia

El tiempo transcurrido hasta la primera señal de audio es de tan sólo 320 ms, o menos si se requiere una implantación local.

Fácil de usar

Generación y personalización de IA por voz, todo ello mediante API fáciles de usar.

Precisión

El diálogo se ajusta para garantizar la generación precisa de acrónimos y secuencias numéricas (por ejemplo, números de teléfono o de tarjetas de crédito).

Multilingüe

Totalmente compatible con inglés, español y árabe; más de 25 idiomas en desarrollo.

Seguridad

Todos los modelos cumplen con GDPR, ISO 27001 y SOC 2 tipo II. También disponible en local.

¿Quiere hablar con nuestro equipo?

Si tiene en mente un caso de uso empresarial, nos encantaría conocerlo.