ホチキス先生の「プログラマーと呼ばれたい」

InfoPath & SQL Server !

Archive for the ‘詠太’ Category

音声読み上げソフト「詠太(えいた)」の読み上げ音声をMicrosoft Expression Encoder 4 Screen Captureでキャプチャーする

with one comment

一太郎2011創プレミアムにバンドルされている音声読み上げソフト「詠太(えいた)」の読み上げ音声をキャプチャーするためにMicrosoft Expression Encoder 4を使ってみた。

Microsoft Expression Encoderはマルチメディアコンテンツを編集するツールだ。撮影された素材を編集するだけでなく、コンピュータのWebカメラから動画をキャプチャし音声を取り込む、操作画面を動画にするなどのことができる。操作画面をキャプチャして動画にすると、コンピュータの操作を説明する動画を作ることができるのだが、この手のツールは過去にもいくつかあり、有名な製品としてはマクロメディアのCaptivateがあった。このツールも単に画面キャプチャするだけでなく、インタラクティブなコンテンツを作ることができるなど面白い機能があったが、現在はマクロメディア社はアドビ社に吸収され、キャプティベイトはアドビ社から発売されているようだ。

Microsoft Expression Encoderで画面キャプチャを行うにはMicrosoft Expression Encoder 4 Screen Captureを使う。まず「詠太」を実行し、読み上げたいテキストを入力し音声合成の準備をする。その状態でMicrosoft Expression Encoder 4 Screen Captureを起動する。

詠太_Expression_Encorder_blog_001_640

<Fig.1 – 詠太で文章読み上げの準備をしてExpression Encoder 4 Screen Captureを起動した>

Microsoft Expression Encoder 4 Screen Captureを起動したら、5つ並んだアイコンの真ん中、歯車イメージの「オプションの編集」をクリックする。すると「設定」ウィンドウが開く。

詠太_Expression_Encorder_blog_002

<Fig.2 – Microsoft Expression Encoder 4 Screen Captureの設定画面>

「設定」ウィンドウで「オーディオ」タブを開くと、画面キャプチャする場合の音声取り込みチャンネルを設定できる。ここでは「マイク」と「スピーカー」が選べるようになっているが、「マイク」はコンピュータのマイク入力で、ここにチェックをしておくとマイクで説明を録音しながら画面キャプチャをすることができる。「スピーカー」はパソコンの内部音源をキャプチャーすることを意味している。「詠太」の読み上げ音を録音したいので「スピーカー」にだけチェックを入れておく。

設定が終われば「OK」ボタンで「設定」ウィンドウを終了し、次にMicrosoft Expression Encoder 4 Screen Captureの「記録」ボタンを押して記録を開始する。

詠太_Expression_Encorder_blog_003_640

<Fig.3 – Microsoft Expression Encoder 4 Screen Captureで記録を開始する>

記録状態に入ると、画面のどこをキャプチャするかを示す赤い枠が表示される。ここでは音声を録音することが目的なので、画面は適当に決めておこう。実際に記録を始めるには「記録」ボタンをクリックする。

詠太_Expression_Encorder_blog_004_640

<Fig.4 – Microsoft Expression Encoder 4 Screen Captureで記録を開始したカウントダウン画面>

キャプチャを開始すると、画面の中央に大きく「3」、「2」、「1」とカウントダウンが表示される。カウントダウンが終わるとキャプチャが開始されるので、「詠太」の「読み上げ」メニューから「開始」をクリックする。

詠太_Expression_Encorder_blog_007_640

<Fig.5 – Microsoft Expression Encoder 4 Screen Captureで記録中に詠太の読み上げを開始する>

文章の読み上げが終わったら、Microsoft Expression Encoder 4 Screen Captureのコントロールツールで停止ボタンをクリックしキャプチャを停止する。するとキャプチャしたものがファイルに記録される。ファイル名には日付と時間が入り、拡張子は.xescとなっている。

詠太_Expression_Encorder_blog_008

<Fig.6 – Microsoft Expression Encoder 4 Screen Captureで操作を記録した>

このキャプチャデータはローカルに保存されており、削除しない限り後で使うことができる。ここで「Encoderに送信」ボタンを押すと、Microsoft Expression Encoder 4が起動し、編集することができる。

詠太_Expression_Encorder_blog_010_640

<Fig.7 – Microsoft Expression Encoder 4を起動し編集する>

Microsoft Expression Encoder 4が起動し、画面キャプチャが表示される。タイムラインは画面の下にブルーのラインで表示されている。「再生」ボタンを押すとキャプチャシーンが再生されるので一度とおして聞いてみる。「詠太」の読み上げが録音されているはずだ。

詠太_Expression_Encorder_blog_011

<Fig.8 – Microsoft Expression Encoder 4のエンコード設定をする>

Microsoft Expression Encoder 4の右側ペインに「エンコード」メニューがある。ここでは「詠太」の読み上げを音声ファイルにしたいので画面キャプチャは必要ない。そこで「ビデオ」のチェックを外し「オーディオ」だけにする。すると編集画面から画面キャプチャが消える。

続いて必要な部分の音声だけを切り取る「クリップの編集」をしよう。

詠太_Expression_Encorder_blog_013_640

<Fig.9 – Microsoft Expression Encoder 4でクリップの編集をする>

再生ボタンをクリックし音声を聞きながら青いタイムラインでクリップの必要な位置をみつける。文章読み上げの前後で必要な部分を分割し、不要なクリップを削除する。

必要な部分だけを切り取ることができたら「ファイル」メニューから「エンコード」をクリックしてファイルに書き出す。

詠太_Expression_Encorder_blog_014_640_480

<Fig.10 – Microsoft Expression Encoder 4でエンコードを実行する>

エンコードはしばらく時間がかかる。

詠太_Expression_Encorder_blog_015_640

<Fig.11 – Microsoft Expression Encoder 4でエンコードを実行中の画面>

エンコードが終了すると、デフォルトで「ドキュメント」-「Expression」-「Expression Encoder」-「Output」の下に日付と時間が入ったフォルダが生成し、そのフォルダの中にエンコードによって生成したメディアファイルが保存されている。あとはこれを自由に使えばよい。

Written by Yoshio Matsumoto

2011年7月4日 at 11:05 PM

一太郎2011創プレミアムにバンドルされている音声読み上げソフト「詠太」は自然な読み上げを実現している

leave a comment »

コンピュータの音声合成にはとても興味がある。コンピュータがドキュメントを読み上げるようになると、活用のシーンが広がる。たとえば通勤電車の中でもイヤホンを使って文章を「耳で読む」ことができるし、風呂に入って湯船に漬かりながらお気に入りのblogやTwitter、Facebookを耳でチェックしたり、ベッドに入って目を閉じて眠りにつく間にもドキュメントを聞くことができるようになるはずだ。

音声読み上げは英語の世界では完全に実用レベルに達しているようだ。たとえばAmazonのKindleは単なる電子ブックというだけでなく、英語のドキュメントを読み上げる音声合成機能が備わっている。Kindleを持っていれば英語のドキュメントは耳で聞くことができるのだ。ネイティブの欧米人にKindleの音声合成機能のクオリティについてコメントをもらったことはないが、かなりいいかんじになっているように思う。英語の音声合成が実用化されているという点で、欧米人はうらやましい。

さて日本語の音声合成だが、俺の親父は全盲で、ずいぶん以前から盲人用の音声合成システムを使ってパソコンをやっている。文章を書いたり電子メールをやりとりしたりしているのだ。この盲人用の音声合成システムは、最初ハードウエアをコンピュータ本体に取り付ける方式だったが、最近のものはソフトウエア的に合成処理をしている。これらのシステムを身近に見ていた俺は、音声合成システムは盲人だけでなく、広く一般の人にとっても有意義なシステムだという思いが以前からあった。

いろいろな音声合成プログラムがあるようだが、今回は「一太郎2011創」プレミアムにバンドルされている「詠太」という読み上げソフトを試してみた。読み方は「えいた」だ。この「詠太」だが、なかなかいいかんじに読み上げてくれることがわかった。

Eita_001_640

<Fig.1 音声読み上げソフト「詠太」の起動画面>

「詠太」の起動画面はシンプルだ。テキストエリアに文章を入力し、「読み上げ」メニューから「開始」を選ぶだけだ。オプションとして「話者の選択」と「再生スピード」があり、「URLは読まない」チェックボックスがある。

「話者の選択」では「MISAKI」、「SAYAKA」、「SHOW」の3人が選べる。「MISAKI」と「SAYAKA」が女性、「SHOW」が男性だ。デフォルトで設定されている「MISAKI」は女性アナウンサーの感じがする軽快な話しぶり、「SAYAKA」は読み上げ速度が少し遅めで落ち着いた印象を受ける女性の声、「SHOW」は30歳くらいの男性を連想させられる声だ。

Eita_001_2_640

<Fig.2 「詠太」でサンプル文を入力する>

ちなみにジャストシステムのWebページによると、この「詠太」は、音声合成エンジンとしてHOYAサービス株式会社の「VoiceText」を使用しているとのことだ。「詠太」の読み上げ品質は、ジャストシステムのWebサイトで試すことができる。以下のリンクだ

http://www.justsystems.com/jp/products/ichitaro/feature6.html