Change Your Voice with AI

Dialog : Le modèle d'IA vocale le plus expressif au monde

Dialog est un modèle d'IA vocal très expressif et naturel, idéal pour les narrations, les livres audio, les podcasts et les agents vocaux, où le ton, la prosodie et l'émotion de la conversation doivent être précis et engageants.

Les équipes de

“NextKast a construit un DJ IA entièrement automatisé pour nos clients stations de radio en utilisant les voix PlayAI Dialog de PlayAI. Nous aimons l'expressivité, l'émotion et le naturel des voix, et nous n'avons rien trouvé d'autre sur le marché. sur le marché. Dans le domaine de la radio, l'essentiel est de maintenir l'attention du public, et les voix PlayAI Dialog le font. Play y parviennent.”

Winston Potgieter, fondateur, Axis Entertainment

< 320 ms de latence

Optimisé pour les conversations à plusieurs tours

Prosodie dynamique et émotion

Déployable sur site

Écouter Dialog en action

Créez des narrations, des podcasts et des livres audio engageants et émouvants, ou utilisez des agents vocaux ultra-réalistes. Dialog comprend chaque tournant d'une conversation et génère un discours avec la prosodie, le rythme et l'émotion appropriés.

Podcast AI entre hôtes

Générer des podcasts AI entiers avec n'importe quelle voix

Commencer

Conversation entre les personnages

Créer des conversations contextuelles engageantes entre plusieurs personnages

Commencer

Une narration captivante

Générer un contenu narratif riche et dramatique

Commencer

Dialogues dramatiques pour une scène

Prompt et direct pour générer des livraisons spectaculaires

Commencer

Le dialogue utilise tout le contexte d'une conversation

Contrairement aux modèles d'IA vocale précédents, PlayDialog utilise l'ensemble du contexte d'une conversation comme entrée, ce qui signifie que les narrations et les conversations multipartites sont fluides, engageantes et naturelles, avec une prosodie, un rythme et une intonation excellents.

Créer un podcast

Dialog offre le meilleur clonage vocal de sa catégorie

Grâce à nos capacités de clonage de voix à la pointe de l'industrie, PlayDialog vous permet d'obtenir une reproduction fidèle qui se distingue à peine de l'original. Créez des narrations, des podcasts et des doublages précis à chaque fois.

Lire les documents

Le dialogue est préféré à 3:1 par rapport au modèle le plus répandu dans l'industrie.

Dialog a été préféré 3 fois au modèle le plus connu de l'industrie, l'emportant sur le plan de l'émotion, de la qualité et de la précision. Essayez-le et découvrez la différence

Voir les résultats

Generate spoken audio from input text


  import axios from 'axios';
  import dotenv from 'dotenv';
  
  dotenv.config();
  
  // Set up headers with your API secret key and user ID
  const userId = process.env.PLAYDIALOG_USER_ID;
  const secretKey = process.env.PLAYDIALOG_SECRET_KEY;
  
  const headers = {
    'X-USER-ID': userId,
    Authorization: secretKey,
    'Content-Type': 'application/json',
  };
  
  // Define the model
  const model = 'PlayDialog';
  
  // Define voices for the 2 hosts
  // Find all voices here https://docs.play.ai/tts-api-reference/voices
  const voice1 = 's3://voice-cloning-zero-shot/baf1ef41-36b6-428c-9bdf-50ba54682bd8/original/manifest.json';
  const voice2 = 's3://voice-cloning-zero-shot/e040bd1b-f190-4bdb-83f0-75ef85b18f84/original/manifest.json';
  
  // Podcast transcript should be in the format of Host 1: ... Host 2:
  const transcript = `
  Host 1: Welcome to The Tech Tomorrow Podcast! Today we're diving into the fascinating world of voice AI and what the future holds.
  Host 2: And what a topic this is. The technology has come so far from those early days of basic voice commands.
  Host 1: Remember when we thought it was revolutionary just to ask our phones to set a timer?
  Host 2: Now we're having full conversations with AI that can understand context, emotion, and even cultural nuances. It's incredible.
  Host 1: Though it does raise some interesting questions about privacy and ethics. Where do we draw the line?
  Host 2: Exactly. The potential benefits for accessibility and education are huge, but we need to be thoughtful about implementation.
  Host 1: Well, we'll be exploring all of these aspects today. Stay with us as we break down the future of voice AI.
  `;
  
  const payload = {
    model,
    text: transcript,
    voice: voice1,
    voice2: voice2,
    turnPrefix: 'Host 1:',
    turnPrefix2: 'Host 2:',
    outputFormat: 'mp3',
  };
  
  // Send the POST request to trigger podcast generation
  const response = await axios.post('https://api.play.ai/api/v1/tts/', payload, { headers });
  
  // Get the job ID to check the status
  const jobId = response.data.id;
  
  if (!jobId) {
    throw new Error('Job ID not returned by API');
  }
  
  // Use the job ID to check completion status
  const url = `https://api.play.ai/api/v1/tts/${jobId}`;
  const delaySeconds = 2000;
  
  // Keep checking until status is COMPLETED.
  // Longer transcripts take more time to complete.
  let podcastAudio = null;
  while (!podcastAudio) {
    const statusResponse = await axios.get(url, { headers });
    const status = statusResponse.data.output?.status;
    console.log(status);
  
    if (status === 'COMPLETED') {
      // Once completed, audio URL will be available
      podcastAudio = statusResponse.data.output.url;
    } else {
      await new Promise((resolve) => setTimeout(resolve, delaySeconds));
    }
  }
  
  console.log('Podcast audio URL:', podcastAudio);

Il est facile à coder

PlayDialog est facile à utiliser et est disponible via notre API et sur des plateformes comme Fal. Il prend également en charge les Websockets et le streaming à partir des LLM.

Lire les documents

Besoin d'un service sur site ? Pas de problème

Les modèles de PlayAI vont là où vous en avez besoin, y compris sur site pour les applications les plus sûres.

Contacter les ventes

Le dialogue est prêt pour l'entreprise

Dialog est conforme aux normes GDPR, SOC 2 type II et ISO2700. Tous les modèles sont disponibles sur demande sur des plateformes cloud ou sur site pour les applications d'entreprise les plus exigeantes.

Contacter les ventes

Caractéristiques principales

Des voix réalistes

Les modèles vocaux TTS de Play sont à la pointe de l'industrie en matière de qualité vocale, de prosodie et d'intonation.

Faible latence

Le temps nécessaire pour obtenir le premier son n'est que de 320 ms, voire moins si un déploiement sur site est nécessaire.

Facile à utiliser

La génération et la personnalisation de l'IA vocale sont prises en charge par des API faciles à utiliser.

Précision

Le dialogue est affiné pour assurer la génération précise d'acronymes, de séquences numériques (par exemple, numéros de téléphone, de carte de crédit).

Multilingue

Anglais, espagnol, arabe entièrement pris en charge ; plus de 25 langues en cours de développement

Sécurité

Tous les modèles sont conformes aux normes GDPR, ISO 27001 et SOC 2 type II. On-prem également disponible.

Vous voulez parler à notre équipe ?

Si vous avez un cas d'utilisation en entreprise à l'esprit, nous serions ravis de l'entendre.

Contacter les ventes