*もくじ*
グーグル翻訳だと物足りない…!
数行程度のちょっとした文章の読み上げにはGoogle翻訳がとっても便利なのですが、これが数ページ単位になるとちょっと実用的ではありません。だいたい読み上げてる途中で一旦停止と再開もできないし。
あと、略語なんかを特別な読み方させたい、っていうのも無理なんですよね。
ちょっと
700頁ぐらいの英語のPDFテキストを音読
させたくて、ついでに
特別な読み方をさせたい略語
なんかもあったりしたので、PDFの読み上げができるフリーソフトがないかを探してみました。
そこで評判が良さそうだったのが、Balabolkaというフリーソフト。
Balabolka – Cross+A
www.cross-plus-a.com/jp/balabolka.htm
Balabolkaはテキストファイルの音読をするプログラムです。人の音声を再生するために 、コンピューターに設定されているどのスピーチシンセサイザーでも使うことができます。 Balabolkaは、クリップボードのコンテンツを音読し …
Balabolkaとはロシア語でおしゃべりな人という意味だそうです。
BalabolkaにPDFを読み込ませると自動的に読上げ用テキストが作成されます
メニューの「ファイル」から「開く」を選択して、読み込ませたいPDFを開くと自動的にテキストになります。
早いです。700頁のテキストで1分ぐらい。
これで再生ボタンを押すと読み上げが始まります。
が!
数ページ以上のPDFなら高確率でページ番号とかフッターやヘッダーに入った書類のタイトルも一緒にテキスト化されていることでしょう。
もちろんこのまま再生ボタンを押せば1ページごとにヘッダーとフッターとページ番号も読み上げられます。
気にならないならそのままでいいと思うのですが、わたしは非常に気になるのでまずはテキストを整形しました。
読上げ用のテキストからページ番号を消す方法
Balabolka上でも文字の検索/置換ができるので共通で入っているヘッダーやフッターの文言はサクッと削除できたのですが、問題はページ番号です。
こんな風に入っている…
1から700までの番号をどうやって消すか。
これはうろ覚えの正規表現の出番…!
サルにもわかる正規表現入門
www.mnet.ne.jp/~nakama/
正規表現とはなにか? 端的に言えば、「いくつかの文字列を一つの形式で表現するため の表現方法」です。 では、なぜこの表現方法が有名なのかといえば、この表現方法を 利用すれば、たくさんの文章の中から容易に見つけたい文字列を検索することができる …
と思ったのですが、Balabolkaでは正規表現が使えないぽかったので、別の正規表現が使えるエディタが必要になります。
エディタはフリーソフトでいろいろありますが、わたしはサクラエディタを使いました。
^\d\d$
3桁の数字は
^\d\d\d$
でまとめてヒットさせることができました。
^:文頭
\d:数字
$:改行
です。
正規表現、エディタ毎に使えるものと使えないものがあったりするのでいつも混乱しゅる…
Balabolkaに特殊な読み方を登録する方法
さて、本題です。
たとえばPOCという文字列、このままだとピーオーシーと発音されてしまうのですがこれをポックと読ませたい場合。
POKと表記するとポックと読んでくれるので、テキスト上でPOCをPOKに置換してしまうというのも一つの方法ではありますが、やっぱり元の文章は元のままで残しておきたい。
そんな時はこの方法で!
1.辞書を選択する
メニューの「表示」から「辞書パネル」を表示させて、_default.dicにチェックを入れます。
2.発音修正パネルを表示させる
表示されているテキスト上で読みを登録したい単語を選択し、右クリックし「発音」を選択します。
3.読み方を登録する
発音パネルの右側の「このように:」の部分に読ませたい読み方を入力して、「追加」を押します。
左側に追加されたらパネルを閉じてOKです。
これで文章中のPOCは全部ポッドと読んでくれます!
英語の場合、どうやったら読ませたい読みの表記になるのかを探すのに苦労するけどナー。
,(カンマ)などテキスト中の記号を読ませたくない場合の設定方法
例えば1,2,3,4はそのままだとワンカンマツーカンマスリーカンマ…と読まれてしまうので、これをワン ツー スリー フォーと読ませるには、メニューの設定<設定から記号を読ませないように設定します。