1人で楽しく働くブログ~テープ起こしや日々のこと~

人と関わるの苦手。うまくしゃべれない。でも、自立したいし自律していたい。

テープ起こしの仕事はAIに取って代わられるかに関する私見

このブログはWordpressに移転しました。

引き続き1人で働くのに役立つ情報を発信していきますので、ぜひ、新ブログの更新通知にご登録をお願いします(●´ω`●)

新ブログはこちら↓

may-workauto.com

こんにちは。めいです。

 

きょうは、テープ起こしはAIに取って代わられるのかについて、私の意見を書こうと思います。

 

目次

 

グーグルの音声認識技術に関する記事

なぜこのテーマで書いてみようと思ったかというと、下記の記事を読んだからです。

 

japan.zdnet.com

 

2年ほど前の記事をなぜかいまさら見つけました(^_^;)

これ、ぜひ動画を見てみてほしいのですが、すごいんですよ(; ・`ω・´)

2人が同時にしゃべっていて、完全に声がかぶっているのに、それぞれをきちんと抽出できているんです。

この記事で使われている技術では、動画で口の動きも見られるから抽出できているようなのですが、これが音声ファイルにも適用できるようになったらテープ起こしは格段に楽ちんになるなと思いました。

スマートスピーカー音声認識技術もどんどん進歩していますし、このまま進化していったら、「テープ起こしも全部AIがやってくれるようになるんじゃないか」という気持ちになりました。

 

でも、そしたら私、仕事なくなっちゃうじゃないですか(´・ω・`)

 

危機感を覚えたので、いろいろ試したり調べたりして、テープ起こしの仕事がAIに取って代わられてしまうのかどうか、考えてみました。

 

結論:まだ大丈夫そう

いろいろと試したり調べたりした結果、私としてはまだ大丈夫そうだなという結論に至りました。

現在のAIによる音声認識の精度を考えると、AIに任せられる部分もあるけれど、人の手を全く加えずに完成原稿を作れるようになるのは相当先なんじゃないかなと思いました。

推測の域を出ないんですけどね(^_^;)

 

まだ大丈夫そうな理由①会話をうまく起こせない

まだテープ起こしの仕事はAIにできないだろうと思ったのは、会話がうまく起こせないからです。

私は試しに、Googleドキュメントの音声入力で1人が朗読をしている音声と、複数人が会話をしている音声の両方を起こしてみました。

朗読の音声の音声入力は、精度がかなり高いものでした。誤認識や漢字の変換間違いが少しあるものの、ほぼ正確に起こされていて、少し見直しするだけで良さそうでした。

解説動画の字幕などは、AIだけでも十分できそうだなという印象を持ちました。

一方で、複数人の会話は壊滅的でした(^_^;)

音声がかぶってしまうと全く認識できず、分離して認識するのは無理なようでした。

また、体裁の面の問題も大きいと思います。話者が変わるごとに改行などはしてくれないので、起こしてはくれますが、羅列されて話者の変わり目が全然分からなくなりました(-_-;)

 

テープ起こしでは、複数人が会話しているもののほうが時間がかかりますから、ここに対応できるようにならないと使えないなと思いました。

 

まだ大丈夫そうな理由②音質の影響が大きい

音質の影響が大きいというのも、まだ大丈夫そうだなと思った理由の一つです。

いろいろな音声をGoogleドキュメントで音声入力してみましたが、音質によって精度にばらつきがありましたし、ものによっては全然認識されませんでした(^_^;)

具体的には、話者の声量が一定以上でないといけない、雑音が多い中では人の声がうまく拾えない、話者の滑舌が悪いと正しく変換されない等の問題がありました。

音声入力でテープ起こしをするためには、音声入力用の録音といったようなものが必要なのかなと思いました。機械が迷わないしゃべり方とでも言えばいいんでしょうか(;´∀`)

一定以上の音量、静かな環境、滑舌の良い話者といった条件がそろわないと音声入力によるテープ起こしは機能しなさそうでした。

 

この条件を考えると、音声入力で起こせるような音質を実現するには、会話に参加する全員の協力が必要そうです。

リラックスした雰囲気でのインタビューやもめている会話の録音なんかでは、全員に協力してもらうのは難しそうですよね。

音質が悪かったりもめていたりする音声ほどAIにやってもらいたいのに、これじゃあ使えなさそうだなと思いました(´・ω・`)

 

まだ大丈夫そうな理由③校正が避けられない

音声入力では、誤認識、漢字の変換間違いが確実に生じます。また、句読点は入力されないので、自分で挿入する必要があります。

確実に誤りが生じるし、確実に自分で挿入しなければいけないものがあるということは、絶対に校正が必要ということです。

また、音声入力では、音声認識させながら修正をすることができないようです。つまり、1回全て認識させた後、もう一回自分で聞きながら校正をしなければならないということです。

これだったら、初めから自分で聞いて打っていったほうが速いですよね(;´∀`)

音声認識ソフトの存在がこれだけ認知されてもテープ起こしが仕事として成り立ってるということを考えると、みんな校正が面倒なんだと思うんですよね(; ・`ω・´)

ですから、絶対に校正が必要だと分かっているような作業を自分でやるぐらいなら、少しお金がかかっても全部人に頼もうと思うんじゃないかなと思いました(^_^;)

もしかしたら、テープ起こしの仕事は消えても、校正の仕事は生き残るかもしれませんね(笑)

 

まとめると

以上の私の考えをまとめると、

・テープ起こしの仕事はまだAIには取って代わられなさそう

・なぜかというと、複数人の会話をうまく認識してくれないし

・音質によっては全然認識されないから音声入力を意識した録音をしなくちゃいけなくて面倒だし

・絶対に面倒な校正をしなくちゃいけないから

という感じです。

 

逆に言えば、

・音質が悪くても人の声だけ抽出できて

・複数の人の声を聞き分けられて

・きれいな体裁に自動でしてくれて

・漢字変換も間違えない

・不明瞭な部分も文脈から推測できて

・適切な位置に句読点が打てる

ぐらいのところまでAIによる音声入力が進化したら、取って代わられるだろうなと思います。

 

でも、こんなことができたらほぼ人間ですよね(; ・`ω・´)?

ここまでできるようになったら、テープ起こしどころか、今人間がやっている仕事のほとんどはAIがやってくれるようになるんじゃないかなと思いました(;´∀`)

そしたらみんな無職だから心配いりませんね(笑)

 

おわりに

きょうは、テープ起こしの仕事はAIに取って代わられるのかについて、私の意見を書いてみました。

完全に個人の意見なので、そこはご了承ください(^_^;)

取りあえず仕事がなくなることはなさそうですが、どんなスピードでAIが進化していくか分かりませんから、油断はしないようにしようと思います。

時代が変わっても環境が変わっても生き延びられる思考力を鍛えていこうと思います( ・`ω・´)

AIを活用できるところは活用しつつ、うまいことと共存していけたらいいなと思っています(*´ω`*)

 

きょうはこれでおしまいです。

また来てくださいね!