multi-stream TTS: v0c vs v0e 聴き比べ(商用クリーン化のトレードオフ)

同一の対話台本5件・同一 seed で合成。v0c = 現行(LaboroTV 由来で CC-BY-NC、自己整合 CER 36.1%)/ v0e = 新・商用クリーン(LaboroTV を除き Reazon+J-CHAT のみ、ccaudio 不使用、CER 54.7%)。
CER は明瞭度の代理指標で v0e の方が高い(=不利)が、知りたいのは音質・韻律の「綺麗さ」が耳でどれだけ違うか。 stereo: L=話者A / R=話者B(24kHz Mimi)。左=v0c, 右=v0e。
対話台本(prompt)v0c(NC, CER 36.1%)v0e(商用クリーン, CER 54.7%)
prompt 1
[A] おはようございます。今日は天気が良さそうですね。
[B] ええ、雲一つないいい天気だよ。
[A] これじゃ、昼くらいから暑くなりそうですね。
[B] ああ、そうなるよね。ランチはさっぱりしたの食べたくなりそう。
[A] 冷やし中華なんてどう?
[B] いいね。よかったら一緒に食べに行かない?
[A] ぜひ行きましょう。
prompt 2
[A] お昼休憩だね。今日何食べようかな
[B] うーん、ステーキが食べたい気分
[A] そうなんですか
[B] そうです、加藤さんは何が食べたいの
[A] 私はハンバーグがいいな
[B] そうなのか。じゃ、ステーキとハンバーグ両方ある店探す?
[A] いいね。この先にガストがあるから、ガスト行こうか
[B] あ、そういえばガストの割引クーポン持ってる
[A] へえ、どんなの
[B] ドリンクバーが安くなるんだ
[A] じゃ、ドリンクバーもつけちゃおう
[B] そうだね、ガスト行こ
prompt 3
[A] 休憩の時間になったけど、何か飲む?
[B] あ、ありがとう。考えとくね
[A] あ、コーヒーはどう?
[B] コーヒーはちょっと苦手なんだ
[A] そうなんだ。じゃ、紅茶は?
[B] 紅茶は大好きだから、それにして
[A] 了解。紅茶入れて来るよ
[B] ありがとう、助かるよ
prompt 4
[A] 最近、体引き締まってるけど
[B] え、ほんと?
[A] うん、運動もしているだろうけど
[B] あ、運動もしてるけど
[A] 食事にも気を使ってるの?
[B] うん、低カロリーで栄養バランスのいいもの食べるようにしてる
[A] なるほどね
[B] 最近は完全栄養食のパンよく食べて
[A] へぇ、そんなのもあるんだ
[B] うん、けっこういいよ
[A] そのパン、おいしいの?
[B] そうそう、おいしいよ
[A] ほんと?
[B] 個人的な好みによるけどね
[A] どんな味?
[B] アボカドやトマト、キュウリ、パプリカ入りだから
[A] そう
[B] さっぱりしてて、けっこういい感じ
[A] それはおいしそうだな
[B] うん、試してみてよ
prompt 5
[A] 高橋さん、どんなテレビ番組見られてるんですか?
[B] えっと、ニュースやドラマ見てますね。
[A] あ、ドラマ好きなんですか?
[B] うん、わりと好きですね。
[A] へえー、どんなドラマ見られてるんですか?
[B] 推理ものや恋愛系が好きですね。
[A] おお、いいですね。
[B] どうしてですか?
[A] 俺はアクションもの見てることが多いんで
[B] アクションものも面白いですよね。
[A] そうそう、結構ハラハラドキドキして面白いですよ。