楽しさと利益のためのクラッキング音声認証

ラスベガス—バカのいとこではなく、あなたに反応するようにスマートスピーカーを訓練しましたか?銀行のウェブサイトにログオンするとき、パスフレーズを話すことで認証しますか?



音声認証はクールなテクノロジーのように見えますが、SalesforceのシニアデータサイエンティストであるJohnSeymourとSalesforceのソフトウェアエンジニアであるAzeemAqilによると、機械学習とオープンソースツールを使用して音声認証を解読できます。黒い帽子。

音声認識または音声認証?

「機械学習により、音声認証はどこにでもあるようになっています」とAzil氏は述べています。 'あなたは特別な文を言うことによってあなたの電話を開くことができます。ただし、GoogleもAppleもこの認証を呼び出していません。また、音声を使用して機能のサブセットのみを開くことができます。認証と呼ぶのは戦いになることを彼らは知っていたのではないかと思います。」





ブラックハットバグアートデュオの目標は、「最小限の労力で音声認証を破ることでした」とAqil氏は述べています。 「壊すことは、なりすましによってアクセスを取得することを意味します。最小限の労力で、大量のコンピューティングを必要としないことを意味します。サーバーファームではなくデスクトップを考えてください。妥当な時間で終了するはずです。そして、それはデータサイエンスの専門知識をほとんどまたはまったく必要としないはずです。

エイリアンウェアエリア51ゲーミングデスクトップ

シーモアは映画のクリップを見せた スニーカー (私の個人的なお気に入り)。ハッカーは、ターゲットをソーシャルエンジニアリングしてテープ上の個々の単語を話すことにより、音声認識を通り越して偽装します。



「実際には、これを行うのは難しい」とシーモアは述べた。 「あなたが望む人々は忙しいCEO、政治家、そしてあなたと一緒に座らないかもしれない他の人々です。幸いなことに、音声合成があります。オーディオの音質は気にしません。認識ソフトウェアがそれを受け入れる限り、それはゴミのように聞こえるかもしれません。

あなたの声はすべて私たちのものです

一般的な知恵では、人の声の非常に優れたテキスト読み上げを作成するには、話されていることを正確に示すためにラベルが付けられた24時間のスピーチが必要であると考えられています。それは、妥当な時間で終了するハックの目標を達成していません。

最高の無料Rokuチャンネル2015

「私たちはこのアイデアの概念実証を行いたかったのです」とSeymour氏は述べています。 「私たちは、テキスト読み上げと機械学習のパイオニアによって設立されたWebサイトLyreBirdを使用しました。アカウントを作成し、たとえば30の事前定義された文を作成し、それに返信するテキストを与えます。ほんの数分しかかかりません。」

彼らがウェブサイトに必要なフレーズを話させたとき、マイクロソフトのスピーチソフトウェアはそれを受け入れました。

アマゾンもう一度購入ボタン

もちろん、あなたはそれらの30文を話すためにあなたの音声ハックのターゲットを得ることができませんでした。 AqilとSeymourは、代わりに名前のないターゲットのYouTubeビデオからオーディオをスクレイプしました。彼らは苦労してオーディオをクリーンアップし、ノイズや「ええと」のような言葉を取り除きました。そして、彼らはそれを手動で書き起こしました。次に、結果をオープンソースのTacotronツールにフィードしました。 「タコトロンを使用するために理解する必要はありません」とAqil氏は述べています。

編集者からの推薦

コトドリLyrebirdは、1分で任意の音声を聞いてコピーできます 音声アシスタントが女性である本当の理由(そしてそれが重要な理由)

結果は信頼できる偽の声を作成するのに十分ではなかったので、彼らはピッチを上げ下げすることによってデータを増強し、効果的に30倍の入力を作成しました。健全性チェックのために、彼らはSiriでピッチ修正された録音を試し、それがおよそ10パーセント遅いから20パーセント速い範囲を受け入れることを発見しました。この増強でさえ、彼らはゴミを手に入れました。十分なデータがありませんでした。

テキスト読み上げで使用する2つの巨大なオープンソースデータセット、BlizzardとLJSpeechがあることがわかりました。ペアが最初にこれらのモデルの1つでトレーニングを試み、次に独自のデータに切り替えたとき、彼らは大当たりしました。 「ブリザードでモデルを訓練することは、モデルに話すことを教えるようなものです」とシーモアは言いました。モデルのトレーニングには1、2日かかりましたが、結果は一貫してテストに合格し、テキスト読み上げを使用してテストアカウントに侵入しました。

音声認証に依存しないでください

「未知の単語による話者認識は難しい」とAqil氏は述べたが、「パスフレーズは秘密ではないかもしれない。事前定義されていなくても、大声で話します。それはあなたのパスワードを与えるようなものです。音声認証は、その上にある弱い信号としてのみ扱う必要があります 多要素認証。話者認識は話者認証と同じではありません。

「攻撃者が音声データを取得でき、正しいプロンプトを知っている場合、話者認証が破られる可能性があります」とSeymour氏は述べています。 'データ拡張と転送学習により、合理的な時間でプロセスにアクセスできるようになります。他人の声のなりすましが簡単になります。この論文を提出した後、Googleが転移学習に関する論文を提出したことを知りました。それは私たちだけではありません!」

推奨されます