AI音声問題をエンジニア視点で考える：学習データより難しい本人性の話

最近、声優の津田健次郎さんの声を生成AIで無断模倣したとされる動画をめぐる報道が話題になりました。

報道によると、津田さん側は、TikTok上に投稿されたAI生成音声付き動画について、パブリシティ権侵害などを理由に削除を求めています。一方で、TikTok側は「普遍的な男性の声」であり、津田さん本人の声そのものではないと反論していると報じられています。

この記事は、その個別事件の法的な是非を断定するものではありません。

ただ、この件を見て、以前から気になっていたAI音声の問題を改めて考えることになりました。

AI音声の問題では、エンジニアとしてはまず「本当にその人の声を学習したのか」を確認したくなります。しかし、実際の争点はそこだけではありません。

生成過程を完全に証明できなくても、本人と誤認されることや、本人の職業的価値を利用していると受け取られることが問題になる場合があります。

AI音声の問題は、「無断学習」だけでなく、「本人性」や「利用文脈」の問題でもあります。

エンジニアが気になる「証明の難しさ」

エンジニア視点だと、まず気になるのは技術的な因果関係です。

本当にその人の声を学習したのか
どのモデルを使ったのか
学習データは何だったのか
音声変換なのか、ゼロから生成したのか
SaaS型サービスなのか、自前モデルなのか

このあたりを確認したくなります。

実際、最近の生成AIはブラックボックス化が進んでいます。

特に音声系は、

voice conversion
TTS
diffusion
embedding
fine-tuning
LoRA

など複数の技術が混ざるため、外部から生成過程を追跡するのは簡単ではありません。

しかも、出力結果だけを見て「この人の声データを使った」と断定するのは難しいです。

声には、

音色
抑揚
呼吸
話し方
間の取り方

のような連続的な特徴が多くあります。

そのため、「似ている」だけでは技術的証明として弱いのではないか、という疑問が出てきます。

この感覚自体は自然だと思います。

それでも問題になる「本人性」

一方で、社会的・法的には別の見方もあります。

重要視されるのは、

本人と誤認されるか
本人らしさを利用しているか
本人の職業的価値を利用しているか

といった点です。

特に声優・ナレーター・俳優にとって、声は単なる音ではなく、仕事そのものに近いものです。

この点について、日本俳優連合（日俳連）は、音声データの無断利用に関する注意喚起の中で、声優・ナレーター等の音声データを人格的・経済的資産として扱う必要性を示しています。

日俳連の注意喚起では、契約時に以下のような点を確認することが挙げられています。

AI学習への使用有無
二次利用の範囲
利用期間
報酬
データの保存方法
削除や利用停止の条件

これは、音声が単なる素材ではなく、本人の仕事・信用・将来の利用可能性と結びついているからだと考えています。

ここで重要なのは、「学習した証拠があるか」だけではなく、「誰の声として受け取られるか」も問題になることです。

モノマネ・耳コピとAI音声の違い

ここで難しいのが、モノマネとの境界です。

人力モノマネは昔から存在しています。声真似文化そのものを否定すべきだと考える人は少ないはずです。

では、AI音声と何が違うのでしょうか。

違いは、「似せること」そのものよりも、利用のされ方にあります。

AI音声は、

大量生成できる
誰でも使える
永続利用できる
商用化しやすい
本人の代替物として扱われやすい

という特徴を持ちます。

人間のモノマネ芸人は、本人そのものではありません。一方でAI音声は、使い方によっては「本人が喋っているように見せる」方向へ近づきやすいです。

しかも、低コストで大量複製できます。

この違いは大きいです。

ただし、だからといって「似ているだけで全部アウト」にすると、問題は別方向へ広がります。

声質
演技
モノマネ
パロディ
表現の自由

との衝突が起きるからです。

そのため、本人名を使っているか、本人と誤認されるような演出か、商業利用されているか、継続的に投稿されているか、といった利用文脈を分けて見る必要があります。

事例から見る判断材料

YouTubeのAI本人性申立て制度

YouTubeは、AI生成・合成コンテンツについて、本人の顔や声を模倣している場合に削除申立てできる制度を導入しています。

この制度で興味深いのは、技術的に「どの学習データを使ったか」を証明することよりも、本人らしさや誤認可能性をプラットフォーム運用で扱おうとしている点です。

もちろん、申立てれば自動で削除されるわけではありません。本人性、公共性、パロディ、批評などの要素も考慮されます。

それでも、プラットフォーム側が「AIで作られた本人らしさ」を削除申立ての対象にしている点は重要です。

Lehrman & Sage v. Lovo

アメリカでは、声優がAI音声企業Lovoを相手に訴えた事例もあります。

この件では、一部の主張は進行し、一部は退けられました。

特に興味深いのは、「声そのものを著作権や商標だけで守る」方向には難しさがある一方で、契約や利用範囲、パブリシティ権、不当利用といった観点では争点になっていることです。

つまり、声の問題は「音声データがコピーされたか」だけではなく、

どの条件で提供された声なのか
何に使われる説明だったのか
その後どのように商用利用されたのか
本人の名前や職業的価値と結びつけられているのか

といった文脈とセットで見られます。

この事例では、声そのものを著作権や商標のように扱う主張には限界が見える一方で、同意した範囲を超えた利用や、本人の声として商用的に使われたかどうかは争点になり得ます。

AI音声を扱うサービス側にとっても、単に「技術的に生成できる」だけでは不十分で、取得した音声データの利用目的、説明内容、契約範囲を明確にする必要があります。

OpenAI「Sky」音声問題

OpenAIの音声「Sky」が、Scarlett Johansson氏に似ているとして話題になった件も参考になります。

この件では、違法判決が出たわけではありません。しかし、OpenAIは最終的にその音声の利用を停止しました。

ここで問題になったのは、単に「似ている」という一点だけではありません。

本人が過去にオファーを断っていたこと
世間で類似性が強く認識されたこと
製品音声として大規模に利用されていたこと
企業の広報上のリスクが大きかったこと

これらが重なっていました。

この事例から見ると、AI音声の問題は「違法かどうか」だけで動くわけではありません。本人性、世論、企業リスク、サービスの信頼性も判断材料になります。

AI Drake / The Weeknd「Heart on My Sleeve」

音楽分野では、AIでDrakeとThe Weeknd風の歌声を使った楽曲が話題になり、複数のプラットフォームから削除された事例があります。

この件は音楽著作権やレーベル契約の話も絡むため、声優のAI音声問題と単純には同一視できません。

ただし、共通している点はあります。

裁判で細かい法的判断が確定する前でも、権利者の申立て、プラットフォーム規約、商業上のリスクによって、コンテンツが削除・停止されることがあるという点です。

AI音声の問題は、裁判だけでなく、プラットフォーム運用や権利者対応の中でも扱われていきます。

エンジニアとしてどう見るか

AI音声の問題は、技術だけでは整理しきれません。

エンジニアとしては、

どのモデルか
どう生成したか
本当に学習したのか

を確認したくなります。

しかし実際には、

誰の声として受け取られるのか
本人と誤認されるのか
本人の職業的価値を利用しているのか
どの文脈で使われているのか

も重要になります。

ここに、エンジニア感覚とのズレがあります。

技術的には因果関係の証明が難しくても、社会的には問題になり得ます。逆に、似ているだけで何でも問題視すると、表現やモノマネまで萎縮させてしまいます。

だからこそ、雑に「AI音声は危険」とまとめるのではなく、具体的に分けて考える必要があります。

見るべきなのは、たとえば次のような点です。

本人名や画像を使っているか
本人と誤認される説明や演出があるか
商業利用や収益化があるか
継続的に投稿・配布されているか
AI生成であることを明示しているか
本人や権利者が削除を求めているか
音声データの利用範囲に合意があるか

こうして分解すると、単に「似ているか」だけではなく、どの要素が重なって問題になりやすいのかが見えやすくなります。

まとめ

AI音声の問題は、「無断学習の証明」だけでは整理できません。

生成過程の証明は難しいです。
それでも、本人と誤認されることや、本人らしさを利用すること、職業的価値を利用することは問題視される場合があります。

一方で、「似ているだけでアウト」にすると、モノマネや表現まで萎縮しかねません。

そのため、AI音声を考えるときは、

生成過程
本人性
利用文脈
商業利用
プラットフォーム運用
契約や同意

を分けて見る必要があります。

AI音声そのものを否定するのではなく、

誰の声として受け取られるのか
どの文脈で使われるのか
誰の価値を借りているように見えるのか

を見落とさないことが重要なのではないでしょうか。

エンジニアとしても、「技術的には作れる」で終わらせず、その出力が社会の中でどう受け取られるのかまで考える必要があります。

AI音声問題をエンジニア視点で考える：学習データより難しい本人性の話

エンジニアが気になる「証明の難しさ」

それでも問題になる「本人性」

モノマネ・耳コピとAI音声の違い