音声から文字起こしできる!日本語対応のAmazon Transcribeとは?
目次
長時間の会議や打ち合わせの議事録、なんとか音声録音から文字起こしできないものかと考えたことはないでしょうか。
- 長時間、複数人が話す会議の確認が大変でどうにかしたい
- 取材した文字起こしを効率的に行いたい
- できれば誰かに文字起こしを頼みたい
- 英語の文字起こしをしたい
今回ご紹介する「Amazon Transcribe」に解決の可能性を見たので、ご紹介いたします。
Amazon Transcribeとは?
Amazon Transcribeは、Amazon web service(AWS)で音声をテキストに変換するサービスです。
日本語に対応
2019年11月21日に日本語を対応言語に追加されたことで文字起こしに活用できるようになりました。ちなみに日本語以外に20以上の言語に対応しています。
Amazon Transcribeは自動音声認識(ASR)サービス
Amzon Transcribeは、自動音声認識(ASR、automatic speech recognition)というプロセスを使っているため、高精度に音声をテキストに変換しています。
聴覚障害者に伝えるための文字情報として表示するクローズドキャプションや長期的な電話・会議などの字幕自動生成など音声データのテキスト変換に使用可能です。
主な機能は?
句読点などを用いた読みやすい文字起こし
音声を文字にした場合、句読点を入れて文章として読みやすくしたり、正しく伝える必要があります。書式も合わせて使用すると読みやすい文章になりますよね。しかし、句読点や書式を意識した文字起こしは、細かい作業のため時間がかかり、修正作業が多くなります。
Amazon Transcribeは設定を行えば、句読点や書式が自動で追加され、短時間でコストをあまりかけることなく、高精度な文字起こしを行ってくれます。
短時間で細かい句読点や書式まで入力して作成してくれるのは便利。
動画や音声ファイルにも字幕を生成!幅広い音質に対応
AAmazon Simple Service(S3)に保存された動画や音声ファイルを分析し、字幕テキストファイルを作成可能です。
新しい言葉を基本語彙に加えて認識する音声認識語彙の拡張
カスタム語彙に対応しており、基本語彙に新しい言葉を加えることで、個人名や商品名、専門用語などに固有の用語・決まり文句を使用する高精度な文字起こしを生成することができます。
何度も使う専門用語・個人名を新しい言葉として加えることで、後から修正する必要がなくなり、更に文字起こしにかける時間を短縮できます。
タイムスタンプの生成
全ての単語にタイムスタンプを表示してくれるため、単語やフレーズが簡単に検索可能。動画に字幕の追加などもできます。
電話や会議、取材で活躍!複数話者の認識
複数話者の状況では、文字起こししても後で誰が何を話していたか整理がしにくく、テキストをまとめるのが大変な作業になる場合が多いです。
特に長時間の会議では、話す言葉の量が多すぎて、慣れてない方が文字起こしを行えば、会議を聞き直す時間と文字入力する時間がかかります。また、確認のために音声を何回も聞き直してしまうため、作業効率が悪くなることも。
Amazon Transcribeでは、話者の交代を自動で認識してテキストに反映させるため、数人で長期間の電話・会議などの会話の流れを読み取り、理解しやすく文字起こししてくれます。
Amazon Transcribeの料金は
一ヶ月に文字起こしした音声の秒数に基づき、使用した量に応じて課金されます。定額のサービスではないため、使えば使うほど料金が上がるため注意しましょう。
簡単な料金の例
料金の例としては、以下の通りです。
ソーシャルメディアビデオでは、〜10秒で0.66円ほどで1秒ごとに課金され、15秒未満のリクエストで15秒分の料金が発生します。1時間では、145円程でしょう。
初回は無料利用枠が使えます
Amazon Transcribeは、最初の文字起こしのリクエストを作成した日から12ヶ月無料利用が可能です。
無料利用時は、1ヶ月60分まで使用できます。無料期間を過ぎて使用した場合やアプリケーションの使用量が無料利用枠を超えた場合は、従量課金制で標準料金がかかります。
Amazon Transcribeの使い方
では、AWSの作成から実際の文字起こしまで詳しく紹介します。
AWSのアカウント作成
Amazon Transcribeは、AWSのアカウントを作成して利用可能です。AWSは、1年間AWS製品を無料を利用できるため、アカウント作成時に料金が発生することはありません。
こちらからAWSアカウントを作成しましょう。
真ん中に表示されている「AWSアカウントを今すぐ作成」をクリックしてアカウント作成に入ります。メールアドレス・パスワードなど必要な情報を入力していきましょう。
アカウント作成時にサポートプランの選択ができます。ここでは、ベーシックプランを選びました。AWSを無料枠で作成したらAWSのトップページに。
登録が完了すれば、AWSの作成はこのページで終了です。次は、バケットの作成を始めましょう。
参考:AWSの新規登録
バケットの作成
Amazon Transcribeは、S3バケットを作成して音声ファイルをアップロードする必要があります。S3バケットを作成しましょう。
S3バケット作成画面に移動するためには、AWSマネジメントコンソールの検索画面からいきます。
「サービスを検索する」部分にある検索窓で「S3」と入力します。入力するとS3バケットを選択が表示されるので、そこをクリックするとS3バケット作成画面を表示します。
続いて、AmazonS3でバケットの作成です。「今すぐAmazon S3を始める」をクリック。
参考:Amazon S3
S3バケット作成画面では、「+ バケットを作成する」を選択しましょう。
参考:S3バケット
今回は、「名前とリージョン」部分では、バケット名を自分が考えた名前にして、リージョン部分は、「米国東部 (オハイオ)」(自動設定)にして「次へ」を選択します。
参考:S3バケット
こちらは、何も選択・入力せずに「次へ」を選択。
参考:S3バケット
こちらでも何も選択・入力せずに「次へ」を選択しましょう。
参考:S3バケット
最終画面でパケット作成についての確認を行えば、「パケットの作成」をクリック。
参考:S3バケット
S3パケットを作成するとパケット名の欄に自分が作成したパケット名が表示されます。
参考:S3バケット
S3の無料利用枠
参考:AWS無料利用枠
S3の無料利用枠では、標準ストレージクラスで12ヶ月間、5GBのAmazon S3ストレージを利用可能です。
ファイルのアップロード
先ほどのS3パケットのページで自分が作成したパケット名をクリックしましょう。
参考:S3バケット
そうすると、このように表示されます。このページで「アップロード」というボタンをクリックして音声データのアップロードをします。
参考:S3バケット
音声データは、「ファイルを追加」をクリックするとファイルを追加できます。追加できたら一旦こちらでも作業は終わりです。Amazon TranscribeでJOBを作成する作業に移りましょう。
参考:S3バケット
ファイルの追加ができたら、「次へ」をクリック。
参考:S3バケット
こちらの画面では、特に何もせずに「次へ」をクリック。
参考:S3バケット
こちらでは、ストレージのクラスを選ぶことができます。音声ファイルのサイズによって料金が違うため、適切なストレージクラスを選びましょう。今回は、「スタンダード」を選択します。
参考:S3バケット
JOBの作成
アップロードの確認が終わったら「アップロード」をクリックしましょう。アップロードの進捗率は、画面に表示されます。16秒~1分程度のものであれば、数十秒でアップロードされるでしょう。
参考:S3バケット
文字起こし結果をダウンロード
では、実際に文字起こしをしてみましょう。Amazon TranscribeをAWS マネジメントコンソールで「Amazon Transcribe」を検索します。
オレンジ色で表示されている「Launch Amazon Transcribe」をクリックしてみましょう。Amazon Transcribeが起動します。
Amazon Transcribeでは、最初のページで「Real-time transcription」を表示しています。リアルタイムの文字起こしストリーミングは、日本語対応していないため、「Transcription jobs」をクリック。
Transcription(文字起こしジョブ) のページで、右上の表示されている「Create job」をクリックしましょう。ジョブの作成ができます。
[Name]では、英数字で名前を入れましょう。[Language]では、日本語を入れるため、Japanese(Japan)を選択します。
[Input file location on S3]では、S3バケット内に保存されているファイルのリンクを貼り付けます。S3バケットリンクは、以下の通りに入力しましょう。
例「s3://S3バケット名/ファイル名.拡張子」
こちらは、何も設定せずに「Create」をクリックします。
文字起こしジョブが終わっていない終了していない場合は、[Status]部分が「In progress」と表示されます。「Complete」と表示されるまで待ちましょう。
[Status]が「Complete」と表示されたら[name]の部分をクリックします。[name]の部分をクリックすると文字起こしの結果がみられるようになっています。
文字起こしの結果と感想
文字起こしの結果は、このように表示されました。[name]の個別ページの結果は、「Transcribe preview」の欄の[Text]で表示されます。
文字起こしの結果としては、丁寧なアナウンスなどであれば、9割程の言葉を認識していました。後から内容を読んでも理解できまます。
漢字と平仮名も区別されていて、単語を一つずつ認識しています。全ての単語と単語の間に間隔があり、読みやすく、精度の高い音声認識がされていることがわかるでしょう。
また一個一個の用語に秒数とConfidence(信頼性)が表示されていて、8〜9割の単語を読み取ることができます。文中には、間違えた単語もありましたが、多くのConfidenceが100.00%で読み取ることができていたため、翻訳の精度は、高いものがありました。
ある程度スピードのある会話などを文字起こししてみても、読み取ることが可能です。また読み取り機能の精度が高く、不明な点が少ないため、わからない部分を自分で修正すれば、文章的に問題なく読めるでしょう。
Amazon Transcribeの文字起こしを活用しよう
リアルタイムで文字起こしは、まだ日本語対応で行えませんが、文字起こしジョブを使えば、録音した音声や動画などを高い精度で文字起こしするため、便利です。文字起こし機能は、短時間で読み取った文字を生成し、長時間の音声ほど、より効果を発揮してくれます。
使い方としては、まずAmazon Transcribeで文字起こししてみて、そこから修正を加えていくといった流れが良さそうです。一度試してみる価値はありますので、気になる方は使ってみてください。