先日、初めての決勝進出で1番手ながらもグランプリに輝いた令和ロマンの活躍で幕を閉じた2023年のM-1グランプリ。
実力拮抗で大盛り上がりとなりましたが、もう一つSNSで盛り上がっているのが
字幕がついた
ことです。
発端は2022年、M-1グランプリに字幕をつけてほしい旨のSNS投稿が大きく取り上げられました。
・生放送でできるわけがない
・M-1の雰囲気を壊す
などネガティブな反応も多かったのですが、わずか1年で字幕付きの生放送を実現しました。
完全なるリアルタイムで遅延なく、は実現難しかったのですが、それでもわずかな遅れで表示されていました。
これまでも生放送の字幕つき放送は、求められてきつつも実現にハードルがありました。
今回のM-1グランプリ、どうやって実現したのでしょうか。
M-1グランプリ広報は実装方法の名言は避ける
2023/12/25時点では、具体的な実装方法についての言及はありません。
Yahoo ニュースに掲載された雑誌”女性自身”の記事によると、以下のコメントが返ってきたとのこと。
「『M-1グランプリ』をより多くの方々に楽しんでいただくために、技術面、システム面での検討を行った結果、今回生字幕付与の対応をすることとしました。引き続き正確な字幕付与に尽力してまいります」
一方、1年前の2022年に同じように”女性自身” が担当者に問い合わせた回答は以下です。
(引用元)女性自身:https://jisin.jp/entertainment/entertainment-news/2164117/ より
「M-1グランプリは、スポーツ中継などほかの生字幕番組に比べて、音声(掛け合い)のスピードが速いため、生字幕の付与に際して、文字起し担当者に求められる速度や難易度が非常に高くなります。
このため、字幕表示の大幅な遅延、また、言葉数が多く被せることもあるために字幕が時間内に収まりきれず、端折らざるをえないケース、あるいは誤表記となってしまうケースが多発することが予想されます」
1年前は字幕つきにネガティブでした。1年で何が変わったのでしょう。
ここからは、推測で検証してみたいと思います。
生放送の字幕つきの一般的な方法
これまでも生放送に字幕をつけようとする動きはあり、研究もなされています。
NHK放送技術研究所の2020年の記事(https://www.nhk.or.jp/strl/publica/rd/182/3.html)によると、「生放送番組に字幕を付与する方式」として、次の6つが挙げられています。
- パソコンなどに用いられている一般的なキーボードを利用する「リレー方式」。複数の入力者が交替しながら、短い発話単位の文字をリレーのバトンを渡すのと同様に次々と入力する。
- 複数のキーを同時に押下する特殊なキーボードを利用する「高速キーボード方式」。入力者と校正者のペアが数組で、短い発話単位をリレー方式で入力する。
- 音声認識しやすいように、字幕制作専用の話者(字幕キャスター)が番組音声を復唱しその音声を認識する「リスピーク方式」。音声認識の誤りはオペレーターが修正する。
- アナウンサーの発話など、高い認識精度が見込まれる部分では番組音声を直接認識し、それ以外の部分ではリスピーク方式を用いる方式(直接認識とリスピークの併用方式)。音声認識の誤りはオペレーターが修正する。
- 番組音声を認識した結果と、番組を制作するために用意された原稿を比較。原稿の読まれている部分を推定して原稿を字幕とする方式(字幕原稿推定方式)。
- 番組音声を音声認識した結果をそのまま字幕とする方式。
恐らくですが、上記いずれも採用してはいないのではないでしょうか。
漫才はニュースと違い、発話が必ず聞き取りやすいとは限りません。上記3.のように別の人が話すと、面白さがその時点でなくなります。
推測:生成AIが使われている
上記の記事は2020年の記事です。その後生まれた技術で最も活用できそうなのが、生成AIによる文字起こしです。
2023年の”女性自身”の質問の回答として、
「技術面、システム面での検討を行った」
「引き続き正確な字幕付与に尽力」
のフレーズが含まれていることから、推測できることは以下です。
①デジタル技術を使って、文字起こしをした。
②精度上げるために生成AIを使った。
③もしかしたら、誤変換なくすために過去のM-1のコント使って学習させ、M-1仕様の生成AIをつくったかも
③はすごく時間とお金と人でによる修正などの手間がかかります。
が、「あの」M-1なので、このレベルまでやっている可能性は高いです。
だとすると、昨年のSNSでの盛り上がりを受けて速やかに着手したのではないでしょうか。
半年ほどで作り、予選から実際にテストしてみた。
とするならば、敗者復活戦でも使っていたのは最終テストでしょう。
ほんとうにその実力が生成AIにあるか?
上記の推測、絵空事であればだれでもいえます。本当に解決できるような技術はあるのでしょうか。
参考になる身近なツールがあります。それは「ポケトーク」です。
ポケトークは、海外との翻訳を手軽にできるツール(ガジェット)です。スマホアプリに対応し、翻訳精度も一気に増しました。
なぜ増したか。それはサーバで学習したAIをすぐにアプリ経由で使えるからです。
個別のツールであれば、AIで学習できた実績を配る必要があります。
ところがスマホアプリであれば、インターネットに接続できればAIで学習できた実績をすぐに使うことができます。
常に最新の情報を使える。この点は、インターネット接続ありきで設計されているスマホアプリの大きな特徴です。
また、漫才で使われるリズムやワードを海外の言葉のように解釈するのであれば、それを翻訳するプログラムは、ポケトークのプログラムをほぼ流用できるでしょう。
ポケトークは現在は同時通訳ツールとしての地位を確立しつつあります。
その技術転用による字幕作成や文字起こしの精度は、非常に高いことが推察できます。
今後の生放送での字幕のトレンドは、AI活用(推測)
2023年のM-1が、今後の生放送での字幕付与の歴史を変えた。と言われるかもしれません。
それほどにインパクトが大きな実績です。
今後より詳細に実現方法を分析・解析した記事がリリースされると思います。。
このノウハウは、テレビ業界に一気に広がることでしょう。
テレビを見なかった層に情報をお届けできる可能性があるからです。
AIという技術が、これまで以上の方に情報をお届けするツールとして活用される。
人間の能力の拡張としてAIが使われる、SFの世界がもはや目の前にあります。
今回のM-1から、将来のワクワク感を感じることができました。
以上です。
コメント