PORTAL TOKYO
  デル株式会社


科学者の眼(40)
声──この深遠なる1次元データ

  川合 慧 放送大学教授


 文章を生業としている人にとって,口述筆記は“楽な入力方法”の一つである.書きたいことをただ喋れば,それがどんどん記録されてゆく.昔は速記を使ったのだろうが,そろそろコンピュータの音声認識も実用一歩手前まで来ているようだ.このように便利な口述筆記であるが,喋った内容をそのまま原稿に出来るかと言うと,世の中それ程甘くはない.言い間違いもあるし,主語と述語とが食い違うことも多い.1つの文章の中で語順が逆さまになることや,文章の順番も“最適”とは言い難い場合も多い.小説などの文学作品は言うには及ばず,報告書や会議の議事録などでも,まずはそのまま録音し,そのあとでその内容を推敲する,というのが普通であろう.以前,作家の松本清張に関する記事で,「口述筆記だけで原稿が作れたのは彼だけであった」と述べているものを読んだ覚えがある.文章の最終形態を常に意識しながら,その通りに喋ることができる才能も羨ましい.

 近頃,訳あって音声の収録とその後処理を行っている.15分ほど専門的内容を話してもらってからそれを“整形”し,放送用の音声データとして使用する.それと同時にそれを“テープ起こし”してテキスト化し,教材としても利用する.最初の段階である整形は,フリーソフトの一つ(*)を利用しているが,この作業が意外に興味深い.音声データをこのソフトに読ませると,例えば下の図のような“波形”が表示され,プレイすると声が聞こえると同時に波形が左へ流れてゆく.まず感じるのが,波形と音声とがちっとも結びつかないことである.当然のことではあるが.同じ単語でも毎回かなり違う.次が語りの“間”で,スラスラと喋っているようであっても,間があいたり,“え〜”,“う〜”といったような音がたくさん入っている.また,実際の録音は普通のオフィスの“静かな部屋”で実施するが,それでも隣室での大声の議論や廊下の足音,収録者の貧乏ゆすりによる机のきしみ,隣の建物の空調の室外機の音,建物の前で作業するゴミ収集車の音など,雑音源には挙げるいとまがない.



  一番単純な編集は不必要な音のカットである.間延びした部分,咳やどもった部分,外部からの騒音部分などを削除する.話している音声に雑音がかぶることも多いが,雑音の周波数成分が単純(つまりきれいな音)である場合には,その成分だけを減少させる処理を行う.これは少し難しい.軽くやると効果が少ないし,やりすぎると音声自体に影響し,コンピュータの合成音声のようになってしまう.一般には周波数成分調整だけでは済まないので,素人の手を離れることになる.

 次が音の「はめかえ」で,長い録音部分の中の一部だけ,ふつうは単語や一節の言い直しを処理する.大抵は言葉の言い間違いや滑舌の悪さの修正である.この場合には,もとの部分の長さと「はめかえ」の長さがほぼ同じであることが重要で,大幅に違う場合はカットして挿入することになる.さらにもっと重要なのは声の調子で,同じ人が同じように喋ってもどこか異なる点があり,言い直したものをはめかえても違和感が残ることが多い.プロ用の録音では10回近く言い直しをさせられることも珍しくない.喋っている時のテンション,前後の文章との関係,流れの中の一言と単独に喋った場合との差,などが原因なのであろう.素人細工の場合は適当に妥協してしまうのが実情である.

 この作業で常に左に流れてゆく波形を見続けたあとにほかの景色を見ると,一瞬の間すべてが右に動いて見える.

  添付した音声Aは,音声Bをツギハギ加工して別の文を作った例である.切張りの文字で作った脅迫状(?!)のような雰囲気ではある.

音声を聞くには次の「音声A」および「音声B」をクリックしてください。

ポータル東京は楽しいウェブサイト.

楽しい羽田空港は東京にとってポータル的でウェブサイトもあります.

(*)Sound Engine Free (Coderium)

「科学者の眼」indexページ    
Copyright©2013 PortalTokyo.Inc. All rights reserved.