多くの Google サービスで音声認識が使用されています。たとえば、Google アシスタントではユーザーが音声でリクエストでき、Gboard では友だちへのメッセージを音声入力できます。また、Google Meet では会議で自動字幕機能を使用できます。
音声認識技術は、ディープ ニューラル ネットワークへの依存度をますます高めています。機械学習の一種であるディープ ニューラル ネットワークを活用することで、より高精度、高速の音声認識モデルを構築できます。一般に、ディープ ニューラル ネットワークをうまく活用するには大量のデータが必要で、精度の向上には時間を要します。このプロセスをモデル トレーニングと呼びます。
音声モデルのトレーニングに使用する技術
Google の音声チームは音声モデルのトレーニングに、従来型の学習、フェデレーション ラーニング、エフェメラル ラーニングという、大きくわけて 3 つの技術を使用してします。タスクと状況によっては、ある技術が他の技術よりも効果的な場合や、複数の技術を組み合わせて使用する場合があります。それにより、できる限りの高品質を実現する一方で、プライバシー バイ デザインを確保できます。
従来型の学習従来型の学習は、Google の音声モデル トレーニングのほとんどに使用される方法です。
従来型の学習で音声モデルをトレーニングする仕組み
- お客様の明確な同意がある場合、音声サンプルが収集され、Google のサーバーに保存されます。
- 音声サンプルの一部には、アノテーション専任者がアノテーションを付けます。
- トレーニング アルゴリズムは、アノテーション付き音声データサンプルから学習します。
- 教師ありトレーニングの場合: モデルは、同じ音声について、人が付けたアノテーションをまねるようにトレーニングされます。
- 教師なしトレーニングの場合: 人間によるアノテーションの代わりに機械によるアノテーションが使用されます。
同等量のデータでトレーニングする場合、教師ありトレーニングのほうが教師なしよりもアノテーションの品質が優れているため、良い音声認識モデルが構築されるのが一般的です。一方、教師なしトレーニングでは、作業が簡便化された機械によるアノテーションから学習するため、より多くの音声サンプルから学習できます。
データのプライバシーを保つ仕組み
フェデレーション ラーニングは、Google が開発したプライバシー保護技術であり、スマートフォンなどのデバイス上で直接 AI モデルをトレーニングします。音声モデルのトレーニングにフェデレーション ラーニングが使われるのは、デバイス上でモデルを実行中に学習用データが利用可能になった場合です。
フェデレーション ラーニングで音声モデルをトレーニングする仕組み
フェデレーション ラーニングでは、ユーザーの音声データを Google のサーバーに送信せずに音声モデルをトレーニングします。
- フェデレーション ラーニングを可能にするために、音声データはデバイスに保存されます。
- トレーニング アルゴリズムは、デバイス上のこうしたデータから学習します。
- このデバイスから集約された学習と、他の参加デバイスからの学習を組み合わせて、新しい音声モデルが構築されます。
データのプライバシーを保つ仕組み
ウェブとアプリのアクティビティの音声録音を管理するエフェメラル ラーニングで音声モデルをトレーニングする仕組み
- Google のシステムが受信した音声サンプルがテキストに変換され、短期メモリ(RAM)に送られます。
- データが RAM 内にある間に、トレーニング アルゴリズムがこれらの音声データサンプルからリアルタイムで学習します。
- これらの音声データサンプルは数分以内に短期メモリから削除されます。
データのプライバシーを保つ仕組み
エフェメラル ラーニングでは、音声データサンプルは次のように使用されます。
- 短期メモリ(RAM)にのみ、数分間だけ保持されます。
- 人間がアクセスすることはできません。
- サーバーに保存されることはありません。
- 個人を特定できる追加データなしで、モデルをトレーニングするために使用されます。
これらの技術への投資と活用に関する Google の方針
Google は今後も、これら 3 つの技術をときには組み合わせて使用して品質の改善に努めます。また、音声認識技術のフェデレーション ラーニングとエフェメラル ラーニングの両方の改善にも積極的に取り組みます。Google の目標は、こうした技術を、より効果的で便利に、かつプライバシー保護をデフォルト化する方法で提供することです。