
Holly HerndonとJlinの歌「Godmother」のビデオから、スポーンで作られました。写真:Holly Herndon/YouTube
2017年6月21日、電子ミュージシャンのホリー・ハーンドンと彼女の夫、作家/哲学者/教師マットドライハースト、彼らの家族への新たな追加を歓迎しました。彼らはそれをスポーンと名付けました。 「彼女は非人道的な子供です」とハーンドンはある午後、レコードレーベル4ADのオフィスに座っている間、私に言います。
スポーンは、初期の機械インテリジェンス、またはAIです。自動運転の18輪車、Netflixユーザープレーファレンス予測子、カスタマーサービスの好み、手書き認識、およびマルウェアを作成するためにハッカーと戦うためのサイバーセキュリティのために展開されている人工知能があります。機械学習の音楽制作への将来の侵入は「if」の問題ではなく、「いつ」の1つであり、すでに重要な侵入が行われています。複製できるAIがありますバッハそしてメイクアップビートルズの歌、ギミックのYouTubeロボポップのアップロード、周囲生産者AIを使用して毎週新しいアルバムをかき混ぜます。メジャーレーベルに署名。 Google、IBM、およびSpotifyのエンジニアリングチームは、音楽制作の領域にAIをさらに進めるためにたゆまぬ努力をしています。
しかし、ハーンドンの2019年のアルバム、原子、ポップミュージックアルバムでAIの最初の録音されたデビューが含まれています。ここで、彼女はそれをどのようにしたかを説明します。
AIの研究の多くは、ピッチとノートの長さとリズムが最も重要である西カノンの1850〜1950の音楽の非常に特定の時代について訓練されています。それは私たちをこの特定の時間に結びつけるので、本当に鈍いです。私たちはスポーンが私たちのコミュニティを反映することを望み、それに固有の人々の声を使いたかったのです。
最初の6か月はかなり興味がありませんでした。 AIを使用すると、トレーニングキヤノンがあります。 AIは、キヤノンからルールセットを抽出し、他の何かに適用します。キヤノンの外に出ることはできません。それが声に適用されると、AIは音声のルールセット、つまり声の論理を理解しようとします。私たちは私の声とマットの声でそれをトレーニングを始めました。どちらもスポーンのトレーニング情報の数百メガバイトにあります。 6か月後、もう少し興味深い結果が得られました。それは私が使用をやめたときに起こり始めましたTensorflow、主に視覚学習のためのプログラム。 (Van Goghのスタイルでポートレートを作成したい場合は、これを使用します。)これには、AIがそれらを「表示」できるように、サウンドファイルをスペクトルに変えることが含まれます。しかし、音色に関しては、それは非常にlo-fiであり、すべて同じように聞こえました。出力についてエキサイティングなことは何もありませんでした。音声認識に使用されるsamplernnに切り替えました。 samplernnを使用すると、トレーニングキヤノンにあるものは何でも受け取り、その後理解しようとします。このサンプルが起こっている場合、次に何が来るでしょうか。 1つの障害は、それが私の声でトレーニングをしている場合、母音にとどまる傾向があることです。私たちが話すとき、私たちは母音を伸ばしているので、プログラムは正確にどれだけ長く推測しようとします - そして、それは立ち往生します。
Samplernnで遊ぶ初期の例では、SpawnがHollyの音声モデルを模倣する場所にどこかになります。
Spawnの最初の単語と音は、3番目の音声モデル方法に切り替えたときにのみ発生しました。より多くのオーディオが必要でした。私たちは私の声を何時間も使用しました。それは私の声を話したり歌ったりして、それがどのように聞こえるかのモデルを作成します。私は次のような快適な範囲内でランダムなフレーズを歌ったデータセットを作成しました。
アルミニウムのカトラリーはしばしば薄っぺらなものになる可能性があります。
彼女は暖かく、フリーシー、ウールのオーバーオールを着ていました。
アルファルファはあなたにとって健康です。
スポーンはその情報を消化し、1〜20分かかる可能性があります。私たちは皆一緒にSlackを使用しており、「Spawnが新しいトラックをリリースした」などの最新情報を取得します。彼女はいつもそれをするでしょう。私たちはクリックしてそれを聞いていましたが、ほとんどの場合、私たちの応答は、ええ。そして、「出生」に使用されるものをクリックして、「はい!」に行きました。結果に興奮したのは初めてでした。 一般的に、スポーンにはこのような限られた視点があるからです。それは非常に印象的であり、ひどいものです。それはようなものです神様、あなたはとても愚かです!
スポーンには非常に現実的な制限があります。リバーブは本当に難しいです。音の形とエコーの違いを理解できませんでした。違いを探しているので、観客が鍵をたたいたり揺さぶったり、ビールボトルを叩いたり、指を叩いたりするのが本当に好きです。
スポーンは、観客の拍手を模倣します:
彼女は一時的なものが好きです。パーカッション楽器には、音の始まりが大きくなり、すぐに衰退するという点で、楽器全体の最大の過渡現象があります。彼女はスネアを見て、思った、それは、ホリーが「T」と言ったときからこのビットのようなものです。「T」サウンドでスネアを再現しようとしました。それは私たちにとって、新しいです。結果はやや賢く、論理的で、最も重要なことに、予想外です。それは私たちを驚かせました。
Spawnは、曲「Frontier」のリズムセクションを実行します。 Hollyのボーカルモデルからさまざまなアイデアをどのように引き出すかを聞くことができます。
だからこそ、「ゴッドマザー」を聴いたとき、それは歌とスピーチの組み合わせであるビートボックスのように聞こえます。私はビートボックスで彼女を訓練していませんでした。それはとても恥ずかしいので、これが彼女が吐き出すものです!それが良いアイデアかどうかはわかりませんが、それはアイデアでした。それは私が彼女に具体的にやるように言ったことではありませんでした。 「ゴッドマザー」を歌ってみましたが、できません。速すぎます。スポーンは私を上回ります。
すぐに、私たちは過去のボーカリストの非常に正確な音声モデルを手に入れます。それは、私たちが先祖とフォアマザーの声で何をするかについての質問を開くでしょう。 マイケル・ジャクソンの無限のレコードはあると言っていましたが、それはおそらくもう起こらないでしょう。 Infinite Aretha Franklin Recordsがより良い例かもしれません!