VoiceCraft-X
Unifying Multilingual, Voice-Cloning Speech Synthesis and Speech Editing
Abstract. We introduce VoiceCraft-X, an autoregressive neural codec language model which unifies multilingual speech editing and zero-shot Text-to-Speech (TTS) synthesis across 11 languages: English, Mandarin, Korean, Japanese, Spanish, French, German, Dutch, Italian, Portuguese, and Polish. VoiceCraft-X utilizes the Qwen3 large language model for phoneme-free cross-lingual text processing and a novel token reordering mechanism with time-aligned text and speech tokens to handle both tasks as a single sequence generation problem. The model generates high-quality, natural-sounding speech, seamlessly creating new audio or editing existing recordings within one framework. VoiceCraft-X shows robust performance in diverse linguistic settings, even with limited per-language data, underscoring the power of unified autoregressive approaches for advancing complex, real-world multilingual speech applications.
Contents
Zero-shot TTS Samples
Prompt Transcription | Target Transcription | Prompt | VoiceCraft-X | VoiceCraft | XTTS-v2 | Ground Truth |
---|---|---|---|---|---|---|
The Washington Township Public School District serves students in kindergarten through twelfth grade. | Selected forms are propagated by stem cuttings in Micronesia. | |||||
Youth Congress always remained in highlights of the leading state news. | He studied the mammalian chronology of the European Eocene and Upper Miocene. | |||||
It is currently the oldest preserved Union Pacific steam locomotive. | The two quickly covered the table with a towel when they noticed the officers. | |||||
He also purchased land to further his orange and grape growing capacity. | Moreover, a few deities are not easily classifiable under these terms. | |||||
Approved operators and a scheduled ferry service take people to the island. | Nicholas Nixon extensively documented issues surrounded by American life. | |||||
High gain is also used to induce audio feedback, which increases sustain dramatically. | He contributed donations to the new Birmingham University following representations by Joseph Chamberlain. | |||||
The building is now offices. | Roy is bilingual, and can speak English and French. | |||||
Notable among them his works for the estates of Harewood and Wentworth Woodhouse. | He later transferred to the United States Army Air Corps. | |||||
The Washington Township Public School District serves students in kindergarten through twelfth grade. | In New Zealand, the rank of superintendent is above inspector and below assistant commissioner. | |||||
Gum arabic is used primarily in the food industry as a stabilizer. | One variation assigns a point based on the pair rolled, rather than the singleton. |
Prompt Transcription | Target Transcription | Prompt | VoiceCraft-X | XTTS-v1 | XTTS-v2 | Ground Truth |
---|---|---|---|---|---|---|
可并没有出差错,他们办事有条不稳。 | 机场工作人员和驻场武警,连夜在机场跑道上扫雪除冰。 | |||||
本次活动共计收到来自全球,六百余位新人的报名。 | 他们都可以证明,蚯蚓王的通讯网站搜索很准,动物界家喻户晓。 | |||||
深情演绎南北通透洋房空间的,重重重品质内涵。 | 市中心发生数百名抗议者沿街,打砸汽车和商铺窗户事件。 | |||||
顺风时提高警惕,逆风时笃定前行。 | 通过调查,将筛选出一批口味,令人消费者满意的产品。 | |||||
这场小雨让昆明又回到了清寒的温春季。 | 二是房地产交易结构,进入以二手房为主的阶段。 | |||||
时值夏季,北江河中水量充沛,水流湍急。 | 全球每年有超过一百三十五万人,因交通事故而死亡。 | |||||
大象卷起我,像扔皮球一样,扔到大街上。 | 一月六日天下文化,举办字里行间的新书导读会。 | |||||
本次活动共计收到来自全球,六百余位新人的报名。 | 昏睡中,只见一名男子从张建强的背后,抡起铁锤狂砸。 | |||||
不料,冯二当场露出丑相,把那块宝石夺走了。 | 上半年,广东完成固定资产投资一点五五万亿元。 |
Prompt Transcription | Target Transcription | Prompt | VoiceCraft-X | XTTS-v2 | Ground Truth |
---|---|---|---|---|---|
그녀는 그 과정을 힘들어 하지 않고 재밌게 받아들인다 | 성빈센트병원 제공신경외과 전문의들은 흔히 혈관을 택배기사에 비유한다 | ||||
떴다방 분양권 불법전매 다운계약서 등에 대한 단속을 피해서다 | 그러한 청소년들이 우울증을 이겨 내는 데 무엇이 도움이 됩니까 | ||||
몬터규는 자녀들이 사랑을 제대로 못 받고 크면 매우 심각한 결과가 초래된다는 결론을 내렸습니다 | 매달 지원금이 들어와서 경제적인 부분도 부담이 덜 됩니다 | ||||
대외변수에 실적 불안감까지 겹치면서 코스피 낙폭이 어느 정도 수준까지 이어질지 가늠하기도 어려운 상황이다 | 무수단급은 지금 현재 완전히 성능개량을 하지는 못한 걸로 추정하고 있죠 | ||||
한 특허법인은 전국을 돌며 쉰 다섯 건을 수임 십 사 억여원을 벌어들인 것으로 나타났다 | 그래야 아내가 내게서 위로와 힘을 얻을 수 있을 거라고 생각했거든요 | ||||
이천 십 오 년에는 전국 모든 대학을 평가해 오 등급으로 나누고 등급에 따라 정원감축을 추진했다 | 목적은 다르지만 결국 모두 명품이 주는 보상심리에서 비롯됐다는 게 전문가들 분석이다 | ||||
아울러 미약하게나마 제가 할 수 있는 일을 찾아 실천하겠습니다 | 지금은 대통령한테 줄을 대서 당선을 해보겠다 이런 이미지를 주는 경향이 없지 않다고 생각합니다 | ||||
그러면서 일기를 읽어 보고 소감을 써 주시겠다고 말씀하셨어요 | 증권 시장의 호황으로도 사회 정의가 구현될 수는 없다 |
Prompt Transcription | Target Transcription | Prompt | VoiceCraft-X | XTTS-v2 | Ground Truth |
---|---|---|---|---|---|
また禰寝氏は、中山王の治める、琉球王国との交易にも参加した。 | 構造は、鋼製の単一アーチで、橋脚は、石積みである。 | ||||
シャンチーの専業プロは、チームから支払われる給料と、対局費を、主な収入としている。 | 同母姉に、スウェーデン王妃、ジョゼフィーヌがいる。 | ||||
フォーミュラカーは、通常、オープンホイールで、シングルシーターである。 | 一方で、漁業と商業で、リャネス港は繁栄していた。 | ||||
少年時代は、ロシア帝国、チェルニーヒウ県、プルィルークィ郡、トロスチャヌィーツャ村で過ごした。 | デビューウェイトは、スーパーバンタム級ではなく、フェザー級だった。 | ||||
芸能プロダクション、アミューズのグループ企業。 | デビュー後の数年間は、ベビーフェイスとして、本名で活動。 | ||||
スウェーデン移民の両親の許に、マサチューセッツ州、ケンブリッジにて生まれる。 | 大西洋上の、巡航高度から、動力なしで、地上へ滑空飛行し、緊急着陸に成功した。 | ||||
防氷ブーツは、表面に張られた、ゴム製の薄い膜でできている。 | 学校や病院などの、給食業務で、栄養素を計算する上で、重要な資料のひとつである。 | ||||
シャンシャン馬は、鵜戸神宮へ参拝する、新婚夫婦が乗っていた馬のこと。 | 上院議員として、バーンウェルは、カリフォルニア州の、連邦加入に賛成した。 |
Prompt Transcription | Target Transcription | Prompt | VoiceCraft-X | XTTS-v1 | XTTS-v2 | Ground Truth |
---|---|---|---|---|---|---|
Venus también se lleva a Eneas, vencido por Diomedes, en sus brazos blancos. | Y Aquiles amarraba cada mañana por los pies a su carro a Héctor, y le daba vuelta al monte tres veces. | |||||
Antonio se deslizó por la escotilla, esperando encontrarlo en la cala. | La barca se arrastró primero mansamente sobre la tranquila superficie de la bahía. | |||||
Ha habido cien batallas sobre los cuerpos de los héroes muertos. | Por el cuello le mete la lanza a Héctor, que cae muerto, pidiendo a Aquiles que dé su cadáver a Troya. | |||||
Aquiles quiere el cuerpo de Héctor, para quemarlo en los funerales de su amigo Patroclo. | Por eso hay en la Ilíada tantas descripciones de combates, y tantas curas de heridas, y tantas arengas. | |||||
Cuando las olas le levantaban, sacaba el cuerpo fuera para ver más lejos. | El compadre les esperaba en la barca preparando la vela. | |||||
De vez en cuando tirón y arriba un pez, que se revolvía y brillaba como estaño animado. | El viento soplaba fuerte y la barca cabeceaba rudamente sobre las olas de larga y profunda ondulación. | |||||
Diez días más tarde respondí lo mismo, y de igual modo en la siguiente semana. | Un día me dijo que estaba enamorado, y que posiblemente se casaría muy pronto. | |||||
Y, entre la cena, volviéndose al doctor, le dijo. | Estemos a razón y vengamos al punto. |
Prompt Transcription | Target Transcription | Prompt | VoiceCraft-X | XTTS-v1 | XTTS-v2 | Ground Truth |
---|---|---|---|---|---|---|
Elle pleura tant, qu'une jeune fée, qui venait en promenade de ce côté, eut pitié d'elle. | Elle gigotait, elle se penchait à droite, à gauche, en avant, en arrière. | |||||
STUART MARIE : S'apitoyer sur son sort. | Il les recueille à propos, Et les garde en sa mémoire. | |||||
Pour n'avoir pas voulu me lamenter, pleurer et descendre à toutes les bassesses auxquelles on vous a accoutumés. | Car, pour aggraver votre honte, ils m'appelleront sage, quoique je ne le sois point. | |||||
Pour s'en éclaircir, il prit son couteau, et, avec un peu de peine, il l'ouvrit. | Je les ai déjà jetés trois fois sans avoir tiré le moindre fruit de mon travail. | |||||
Les deux enfants étaient une petite fille de six ans et un petit garçon de quatre ans. | Berthe était une petite fille très étourdie qui laissait toujours les portes ouvertes. | |||||
En vendant de la rente, quand il apprend au château qu'il y aura le lendemain apparence de coup d'État. | Il y a déjà de la grandeur et de l'audace à oser aimer un homme placé si loin de moi par sa position sociale. | |||||
Eut-il alors la pensée de se sauver ? | Et vous en tomberiez d'accord. | |||||
L'oiseau enleva la pêche et la tablette, et les porta sur les genoux du monarque. | Il passait pour le plus fortuné de tous les hommes, tout l'empire était rempli de son nom. |
Prompt Transcription | Target Transcription | Prompt | VoiceCraft-X | XTTS-v1 | XTTS-v2 | Ground Truth |
---|---|---|---|---|---|---|
Man sieht nur die steinerne Straße hier, sonst gar nichts, sagte das Kind bedauerlich. | Der Türmer wollte nun weitergehen, aber Heidi konnte sich von dem unterhaltenden Schauspiel fast nicht trennen. | |||||
Mit diesem Ganzen weiß er allerdings selbst am wenigsten etwas anzufangen. | Alles schien vorbereitet; nur zum Schein war eine dünne Erdkruste aufgerichtet. | |||||
Das Schweigen der Nacht begann, wenn sie auch selbst noch zögerte, zu kommen. | Der weite Fabrikhof lag schweigend und menschenleer da, die Arbeiter hatten längst Feierabend gemacht. | |||||
Der König aber hatte noch sieben Kinder von seiner ersten Frau, sechs Buben und ein Mädchen. | Wenn ichs keinem Menschen sagen wollte, so wollte sie es mir wohl sagen. | |||||
Wie wir zwei beide, dann soll man ihn wohl vergessen können? | Mahnte er: Der Kapitän ist Feinschmecker. | |||||
Es ist ähnlich, murmelte er, es ist sehr ähnlich! | Ich will doch meine Zeit und Mühe nicht an eine Arbeit verschwenden, die für Sie keinen Wert hat. | |||||
Die Sardinen sind heraus, aber dafür steckt etwas Papiernes drin. | So etwas habe ich noch nie gesehen. | |||||
Sebastian stand draußen vor der Tür und musste erst fertig lachen, eh er wieder eintreten konnte. | Heidi suchte in seiner Tasche herum. |
Prompt Transcription | Target Transcription | Prompt | VoiceCraft-X | XTTS-v1 | XTTS-v2 | Ground Truth |
---|---|---|---|---|---|---|
As estrelas, apagando A luz com que resplandecem, Vão tímidas vacilando Até que desaparecem. | É que, às vezes, amarrado Me deixam durante o dia. | |||||
Dei causa que a Fortuna castigasse as minhas mal fundadas esperanças. | Mudando andei costume, terra e estado, por ver se se mudava a sorte dura. | |||||
Nas casas ferve a panela Sobre o fogão, nas cozinhas. | Com todo o seu vigor as cordas não partiu. | |||||
Põe-na no colo a criança, E de olhá-la não se cansa, Beijando-a a todo o momento. | Para chegar à abundância, É preciso trabalhar. | |||||
Entretanto, a moça, desde que se viu observada tão de perto, fugiu arrebatadamente para o interior da casa. | Sacrifiquei a vida a meu cuidado, que Amor não quer cordeiros, nem bezerros. | |||||
Era preciso decidir entre os seus desejos de vingar o sexo e as conveniências da sua posição. | Era entretanto uma casa solidamente construída. | |||||
A morte, a meu pesar, me assegurou de quanto mal me vinha. | Já perdi o que perder o medo me ensinou. | |||||
Foi após este derradeiro desgosto que regressou ao Brazil. | A turba batia nas faces, consternada, por terra. |
Prompt Transcription | Target Transcription | Prompt | VoiceCraft-X | XTTS-v1 | XTTS-v2 | Ground Truth |
---|---|---|---|---|---|---|
Schande over den booswicht, die haar verlaten heeft! | Want ik dacht, dat wij niet eens spoken konden toelaten. | |||||
Dat is een gevaarlijke vrouw! | In een knoopsgat droeg hij ook een ruikertje van viooltjes, maar deze waren zeer klein. | |||||
Hij zette toen de kruik neer, ging liggen en sliep in. | Toen verkleedde zij zich en nam de gedaante aan van een andere oude vrouw. | |||||
Ik had meer vertrouwen moeten stellen in uw wonderbaarlijk vermogen. | Onzin! riep hij, wat hebben drie zwarten met onze overeenkomst te maken. | |||||
En toen riep hij de oudste van zijn dochters. | Zie je dan niet, dat ik vastgebonden ben? | |||||
Toen zij Sneeuwwitje dood zagen liggen, dachten zij dadelijk aan de stiefmoeder, en gingen zoeken. | Ik ga niet weg, voordat het vat leeg is, zei de wolf. | |||||
O, dat is al te schoon, ongelooflijk schoon! | Kijk maar eens! | |||||
In Baker-Street lagen verscheidene brieven voor Holmes. | Ik stond daar, terwijl zijn bloed langs me spoot en ik wachtte even. |
Prompt Transcription | Target Transcription | Prompt | VoiceCraft-X | XTTS-v1 | XTTS-v2 | Ground Truth |
---|---|---|---|---|---|---|
Prima di tutto, chiudere quell'uscio e metterci il paletto. | Oh Signore, scampatene e liberatene tutte le creature della terra! | |||||
Ma era talmente imbarazzata con quell'argomento, che non vedeva il momento di mutar soggetto. | È la prima posizione nel ballo, disse Alice. | |||||
Una collana doppia le stringeva il collo. | Quegli esperimenti, a cui si prestavano da vittime, per obbedienza, sembravano loro pratiche infernali. | |||||
Dovete sapere che, or saranno circa vent'anni, Pompea Montroni andò a cantare a Parma nella Gioconda. | S'era incamminato per tutte le vie, ed era andato sempre avanti. | |||||
Sapete fino a qual punto è arrivato Michelangelo? | Per lui, il marchese Colli, non è che un vecchio amico di casa Montroni, presso a poco come siamo noi. | |||||
Non ne seppi mai tanto intorno a' naselli. | E così non potettero distaccarsela più. | |||||
Oh via, che cura, povero Pignocco! | Il povero marchese Colli, ponendo i patti, tutto poteva aspettarsi tranne quest'ira di Dio. | |||||
Finì di spogliarsi; si cacciò sotto le coperte. | Non preme affatto che i poderi rendano qualche cosa di più di quello che potrebbero rendere. |
Prompt Transcription | Target Transcription | Prompt | VoiceCraft-X | XTTS-v1 | XTTS-v2 | Ground Truth |
---|---|---|---|---|---|---|
Może być spokojną, że nie zabraknie jej pożywienia. | Że nie jest on tak rażącym, jak się na razie wydaje. | |||||
Dachy stały pod tymi niebami czarne i krzywe, pełne niecierpliwoœci i oczekiwania. | Gniew jego układał się i zastygał w pokładach i warstwach krajobrazu. | |||||
Tak że zmierzch roił się od tych larw porzuconych, sypišcych się za ich ucieczkš. | Firanki na oknie wisiały wzdęte i pełne tchnienia tej burzliwej nocy. | |||||
Wyciągnąwszy ostrożnie więźnia, który jest jeszcze omotany w rodzaj pieluszki. | Tak ucztuje młode pokolenie mrówek. | |||||
Nie było innej rady, jak udać się brzegiem w górę i szukać przeprawy. | Nie było już wątpliwości, że lord żyje. | |||||
Nie wiedziałem gdzie jestem, otaczały mnie nieprzebite ciemności. | Ostatnie plany skryły się niebawem pod czarnym, przejrzystym całunem. | |||||
On łączy w sobie najszczytniejsze instynkta z najczarniejszemi zbrodniami. | Więc to jest człowiek tak zimny i okrutny, że nie zawahał się zostać podpalaczem puszczy? | |||||
Cóżeś winien, że cię inny ubiegł, a złudne pozory omyliły. | Gdyby je wydawał owad, albo glista świecąca, poruszałoby się i świeciło błękitnym odcieniem. |
Speech Editing Samples (🤪Spot the Synthesis)
Original Transcript | Edited Transcript | Original Audio | Edited Audio (VoiceCraft-X) |
---|---|---|---|
Original Transcript | Edited Transcript | Original Audio | Edited Audio (VoiceCraft-X) |
---|---|---|---|
Original Transcript | Edited Transcript | Original Audio | Edited Audio (VoiceCraft-X) |
---|---|---|---|
Korean speech editing samples coming soon... (When adding, use the interactive row structure as shown for English). |
Original Transcript | Edited Transcript | Original Audio | Edited Audio (VoiceCraft-X) |
---|---|---|---|
Original Transcript | Edited Transcript | Original Audio | Edited Audio (VoiceCraft-X) |
---|---|---|---|
Code-Switching Samples
Prompt Transcription | Target Transcription | Prompt | VoiceCraft-X | VoiceCraft-X (10h fine-tuning) |
---|---|---|---|---|
Hundreds must have seen it, and taken it for a falling star. | Block chain是一个非常复杂的技术因为我当时在网上搜了很久。 | |||
He was dressed in a tunic of flowers, which set off his graceful and well formed figure to advantage. | 我的undergraduate的时候学的major也是。 | |||
She looked at his heavy shoulders and big, determined head, thrust forward like a catapult in leash. | 我也是差不多大二就有这种想法但是当时一直没想清楚自己为什么要出国。 | |||
如果儿子说是我的,他就立刻还给儿子。 | 我同意就是self driving car它是一个非常high standard的那个technique. | |||
这两句魔语可以让故事里的小熊走出来。 | 是特别不好掌控那个就是你bracket的balance. | |||
小黄豆,你不认识我们啦,我们都是爷爷的子孙呀。 | But it's not that technical actually with more related to business and economics. |
Prompt Transcription | Target Transcription | Prompt | VoiceCraft-X |
---|---|---|---|
Spanish-English code-switching samples coming soon... |
Prompt Transcription | Target Transcription | Prompt | VoiceCraft-X |
---|---|---|---|
French-English code-switching samples coming soon... |
System Overview
Figure 1. The training process for the VoiceCraft-X model, which takes text and a speaker embedding as input and is trained to predict sequences of speech tokens. The labels CB1-CB4 represent codec tokens from different codebooks.