Change Your Voice with AI
A confiança das equipas de
“A NextKast criou um DJ de IA totalmente automatizado para os nossos clientes de estações de rádio utilizando as vozes do PlayAI Dialog . Adoramos o som expressivo, emocional e natural das vozes e não encontrámos mais nada no mercado. Na rádio, manter o público envolvido é o objetivo principal, e as vozes da Play fazem isso.”
Winston Potgieter, Fundador, Axis Entertainment
Latência < 320ms
Optimizado para conversas com várias voltas
Prosódia dinâmica e emoção
Implementável no local
Crie narrações de IA, podcasts e audiolivros envolventes e emotivos, ou potencie agentes de voz ultra-realistas. O Dialog compreende cada turno de uma conversa e gera um discurso com a prosódia, o ritmo e a emoção corretos.
Ao contrário dos modelos anteriores de IA de voz, o PlayDialog utiliza todo o contexto de conversação como entrada, o que significa que as narrações e as conversações entre várias partes soam fluidas, envolventes e naturais, com excelente prosódia, ritmo e entoação.
As nossas capacidades de clonagem de voz líderes no sector significam que, com o PlayDialog, obtém uma reprodução fiel que quase não se distingue do original. Crie narrações, podcasts e dobragens sempre com precisão.
O Dialog foi preferido por 3:1 nos testes em comparação com o modelo mais conhecido da indústria, ganhando em emoção, qualidade e precisão. Experimente e sinta a diferença
import axios from 'axios';
import dotenv from 'dotenv';
dotenv.config();
// Set up headers with your API secret key and user ID
const userId = process.env.PLAYDIALOG_USER_ID;
const secretKey = process.env.PLAYDIALOG_SECRET_KEY;
const headers = {
'X-USER-ID': userId,
Authorization: secretKey,
'Content-Type': 'application/json',
};
// Define the model
const model = 'PlayDialog';
// Define voices for the 2 hosts
// Find all voices here https://docs.play.ai/tts-api-reference/voices
const voice1 = 's3://voice-cloning-zero-shot/baf1ef41-36b6-428c-9bdf-50ba54682bd8/original/manifest.json';
const voice2 = 's3://voice-cloning-zero-shot/e040bd1b-f190-4bdb-83f0-75ef85b18f84/original/manifest.json';
// Podcast transcript should be in the format of Host 1: ... Host 2:
const transcript = `
Host 1: Welcome to The Tech Tomorrow Podcast! Today we're diving into the fascinating world of voice AI and what the future holds.
Host 2: And what a topic this is. The technology has come so far from those early days of basic voice commands.
Host 1: Remember when we thought it was revolutionary just to ask our phones to set a timer?
Host 2: Now we're having full conversations with AI that can understand context, emotion, and even cultural nuances. It's incredible.
Host 1: Though it does raise some interesting questions about privacy and ethics. Where do we draw the line?
Host 2: Exactly. The potential benefits for accessibility and education are huge, but we need to be thoughtful about implementation.
Host 1: Well, we'll be exploring all of these aspects today. Stay with us as we break down the future of voice AI.
`;
const payload = {
model,
text: transcript,
voice: voice1,
voice2: voice2,
turnPrefix: 'Host 1:',
turnPrefix2: 'Host 2:',
outputFormat: 'mp3',
};
// Send the POST request to trigger podcast generation
const response = await axios.post('https://api.play.ai/api/v1/tts/', payload, { headers });
// Get the job ID to check the status
const jobId = response.data.id;
if (!jobId) {
throw new Error('Job ID not returned by API');
}
// Use the job ID to check completion status
const url = `https://api.play.ai/api/v1/tts/${jobId}`;
const delaySeconds = 2000;
// Keep checking until status is COMPLETED.
// Longer transcripts take more time to complete.
let podcastAudio = null;
while (!podcastAudio) {
const statusResponse = await axios.get(url, { headers });
const status = statusResponse.data.output?.status;
console.log(status);
if (status === 'COMPLETED') {
// Once completed, audio URL will be available
podcastAudio = statusResponse.data.output.url;
} else {
await new Promise((resolve) => setTimeout(resolve, delaySeconds));
}
}
console.log('Podcast audio URL:', podcastAudio);
O PlayDialog é fácil de utilizar e está disponível através da nossa API e em plataformas como a Fal. Também suporta Websockets e streaming a partir de LLMs.
Os modelos da PlayAI vão para onde precisar deles, incluindo no local para as aplicações de segurança mais elevada
O Dialog é compatível com o RGPD, SOC 2 tipo II e ISO2700. Todos os modelos estão disponíveis a pedido em plataformas de nuvem ou no local para as aplicações empresariais mais exigentes
Os modelos de voz TTS da Play são líderes no sector em termos de qualidade de voz, prosódia e entoação.
Tempo para o primeiro áudio tão baixo quanto 320 ms, menos se for necessária uma implantação no local
Geração e personalização de IA de voz, tudo suportado por APIs fáceis de utilizar.
O diálogo é aperfeiçoado para garantir a geração exacta de acrónimos e sequências numéricas (por exemplo, números de telefone e de cartão de crédito).
Suporte total para inglês, espanhol e árabe; mais de 25 idiomas em desenvolvimento
Todos os modelos são compatíveis com GDPR, ISO 27001 e SOC 2 tipo II. Também disponível no local.
Se tiver um caso de utilização empresarial em mente, gostaríamos de o ouvir.