ヴェルク - IT起業の記録

受託開発と自社サービスの両立への取り組み

合成音声を使ってboard(SaaS)のチュートリアル動画を制作した話(VOICEPEAKとGoogle Cloud Text-to-Speech)

boardというSaaSのチュートリアル動画を合成音声を使って制作しているので、その話を書いていきます。

個別相談会のデモとチュートリアル動画

以前書いた board(SaaS)個別相談会の変遷 の中で少し触れたのですが、2021年に、個別相談会の中でやっていたデモをベースに、チュートリアル動画を制作しました。

個別相談会では、業務の流れに沿って基本的な操作を一通り説明していくデモを行っていたのですが、途中に質問が挟まることも多く、そうすると、全体で30〜40分ほどかかってしまうことも多くありました。

個別相談会は1時間枠なので、そのうち40分をデモで使うのは、時間の使い方としてもったいないなという課題感がありました。また、弊社は営業など外向けに活動するメンバーがいないため個別相談会はすべて僕がやっており、個別相談会を開催できる回数にも限りがありました。

一方で「お試しする前にとりあえずデモを見たい」というニーズは多くあります。

そういった課題を解決する手段として、チュートリアル動画を制作しました。なお、チュートリアル動画は1本3分前後の長さで、現時点で13本あります。

合成音声を選んだ理由

チュートリアル動画の構想自体は随分前からあったのですが、なかなか手を出せなかった理由の1つは、ナレーションのメンテナンス性でした。

boardでは、ほぼ週1ペースでデプロイしているため、動画も作って終わりではなく、必要に応じて適宜差し替えていく必要があります。

聞きやすさという観点では、ナレーションをプロに頼むのがベストだと思うのですが、随時アップデートしていくという運用の中で、毎回プロに頼むのは、コスト面だけでなく手間という点でもハードルが高いです。

とはいえ、自分で音声を入れる場合、聞きやすさという点で課題がありすぎです・・・。

合成音声の場合、自分でテキストを書き、それを読ませるだけですのでメンテナンス性はずっと良くなります。また、合成音声を検証した結果、クオリティも実用レベルだったため、合成音声によるチュートリアル動画の制作に踏み切りました。

初代チュートリアル動画で使用したのはGoogle CloudのText-to-Speech

現在はVOICEPEAKという合成音声ソフトを使っていますが、2021年に最初に制作したチュートリアル動画は、Google CloudのText-to-Speechを使っていました。

Text-to-Speechは、テキストをそのまま読み上げてくれるのですが、必要に応じて、SSML(音声合成マークアップ言語)というタグを使って読み方や息継ぎなどを細かく指定できます。この柔軟性があったので、そのままではいい感じに読み上げてくれなくても、最終的にSSMLでどうにかなるだろう、という判断をして、Text-to-Speechを採用しました。

また、Google CloudのAPI経由で音声データを生成できるので、APIで一気に生成処理を自動化できるのも良かったです。

Text-to-Speechを使っていた頃の動画です。

 

Text-to-Speechは、それなりには読み上げてくれますが、そのままでは使えない箇所が多く、SSMLでの調整はかなり入れていました。
もっとも多くの調整を入れていたのが、息継ぎなどの一呼吸入れるタイミングや長さの調整です。Text-to-Speechの息継ぎはあまり自然ではなく、その結果、機械的な読み上げ感が強くなってしまっていました。
*2021年ごろの話なので、現時点ではもっと良くなっているかもしれません。

そこで、ほぼすべての文において、細かく<break time=‘300ms’/>のような指定を入れました。これにより、人間的な息継ぎになり、かなり聴きやすくなりました。

Text-to-Speechを使っていたころはこの工程が一番大変で、かなり慣れてきた後でも、3分ほどの音声データの制作だけで数時間ほどかかっていました。また、なかなか骨の折れる作業で、動画のアップデートの心理的なハードルになってしまっていました。

入力文字読み上げソフト「VOICEPEAK」を使って刷新

board(SaaS)のアクセシビリティー改善の取り組みの現在地(2022年10月) に書いたように、2022年から本格的にアクセシビリティーの改善に取り組んでおり、画面の見た目が変わった部分が一定数ありました。

そのため、チュートリアル動画もすべて再制作する必要が出てきたので、このタイミングで、合成音声の制作をText-to-SpeechからVOICEPEAKに変更しました。

VOICEPEAKは「ほんと神」という感じで、とにかく精度が高いし自然です。デフォルトのままでもかなり完成度が高く、Text-to-Speechのように細かい調整はほとんど必要ありません。

3分前後の音声で、調整が必要な箇所は手で片手で数えられる程度しかないことが多く、それも固有名詞の読み方などのことが多いです。なお、読み方は辞書登録できるので、一度登録しておけばそれ以降は問題なくなります。たまにイントネーションがおかしいことはありますが、それも画面から簡単に調整できます。

VOICEPEAKを使った動画です。

 

これにより、3分ほどの動画の音声を完成させるのに数十分程度で済むようになり、所要時間だけでなく、心理的ハードルが劇的に下がりました。

実際に視聴した方々の感想はどうなのか

個別相談会の際に直接感想を言って頂くことがあるのですが、いずれもとても好評でした。

デモの内容は、個別相談会を700回以上実施した中で洗練させていったシナリオなので、個別ニーズには応えられないものの、多くのケースにおいて、使い始めるにあたって必要な情報が盛り込まれていると思います。

その上で、合成音声もとても聴きやすいため、「わかりやすかった」「合成音声とは思えない」などの感想を頂いています。

また、たまにサポート窓口の方に「どうやって制作しているのか教えて欲しい」という質問を頂くこともあります。

まとめ

チュートリアル動画は、制作して終わりではなく、継続的にメンテナンスしていく必要があります。

チュートリアル動画の制作には、大まかに以下の工程があります。

  • ナレーションの音声データ制作
  • 音声に合わせて画面操作の録画
  • 動画編集ソフトで動画と音声を合わせる
  • 字幕データ(WebVTT)の作成
  • 画面上にセリフを表示し、それをクリックすると動画の該当箇所にジャンプする仕組みがあるので、その定義データの作成

全体として、どうしても人手による微調整が必要な箇所が多い中で、ナレーション部分を大幅に簡単にできたので、動画のメンテナンスという点で、すごくハードルが下がりました。

小さい会社で専任のメンバーを置けない中で継続的にアップデートしていくためにも、このハードルの低さは本当に重要だなと思います。