ここではOtasaが音楽制作ほかに使っているツールについてまとめてみよう。

【English】



Basic Pitch
https://basicpitch.spotify.com/

こんな用途に:ノートを確認したい

音楽する人なら誰でも経験があるのは
プロジェクトファイルどこやったっけ?みたいなシチュエーションだと思う。

そういう時や、単に採譜したい時、
Basic Pitchを使えば大体なんとかなる。

使い方はAudioを放り込むだけ。
あとはエディタに展開してくれるので、
必要な部分だけ確認してもいいし、MIDIで出力してもいい。



精度は・・・
なるべく音数が少ない方が良いが、2mixからでも割と何とかしてくれる。

※特に和音の場合、多少発音タイミングがずれたりする。
エレピの音色は多少ずれてるのが良かったりもして、
なんかそういう楽器みたいに使えないかと考えている。
廃墟化したビルで太古に失われし譜面を機械が再現してる光景を想像して盛り上がらない者はいない。

 

 

Demucs Music Source Separation
https://github.com/facebookresearch/demucs

こんな用途に:プロジェクトファイルを無くした

音楽する人なら誰でも経験があるのは
プロジェクトファイルどこやったっけ?みたいなシチュエーションだと思う。

見つけたはいいが今度は参照している元ファイルがどこいったかわからない・・・
みたいなケースもよくあるだろう。
なぜ音楽の人はデスクトップが汚いのだろう?

そんな時でも2mixを分離できれば多分なんとかなる。

歌入りのトラックを分離してエディットする・・・?
私はクラブミュージックは分からない、他でやりたまえ。

Pythonの心得があればローカルでも動かせるが、
上記リンク内の「Running from Colab」からノートブックを開いて使う方が話が早いかもしれない。

ナレーションとBGMのバランスが悪くて何言ってるか分からない動画から、
これを使って声とBGMを分離してミックスし直したことがある【PR】

 

 

D-ID
https://www.d-id.com/

こんな用途に:画像に喋ってほしい

英語圏のナードボーイズはお気に入りのイラストをWifeと呼ぶが、
そういう部分は世界共通なんだなあ・・・と思う。
英語以外でもそうなのだろうか?

WifeでもHusbandoでも、あるいは絵でも実写でも、
人物の画像に音声にあわせてリップシンクさせたい人は多いのではないだろうか。
D-IDのSpeaking Portraitは、口だけではなく音声に合わせて肩や胴体も動く。

LipSyncを行うモデルは他にも色々とあるが、
環境構築やライセンスを考慮すると物凄く手軽だ。(他が難しい)
何らかのThin-Plate Spline Motionモデルを追加学習した物が動作している気がする、知らんけど。

 

 

Clipdrop
https://clipdrop.co/

こんな用途に:画像を加工する、機械が

Stable Diffusionの開発元 Stability AIに買収され、公式ツールとなったオンラインサービス。
画像からオブジェクトを消したり、色々できる。

ここで一番面白いのがUNCROP、あとREIMAGINE XL。

どちらも本家Stable Diffusionで出来ない事はないが、
一手間かかったり、妙に本格的になってしまったりする。
偶然に出てきた物の方が見ていて面白い時ってないだろうか?

UNCROPは画像の外側を書き足してくれる。
PhotoshopのGenerative Fillも同じような事をできるが、UNCROPの方は予期しない結果が出やすい気がする。

例:幸いここにKibun Songがある。
これをUNCROPに入れてみよう。



 
↓↓↓↓↓

 


縦横比を意識すると比較的安定する気がする。
では、正方形にしてみよう。

 

↓↓↓↓↓

 



とても100円コーナーを感じるぜ・・・!

 

続けてREIMAGINE XLを試してみよう。

REIMAGINE XLはその名の通り、与えた画像に似た画像が生成されるが、
体感では結構な割合で「なんだこれ?」みたいなのが出る。

例:下図は「How Many?」にも収録した物である。
これをREIMAGINE XLに入れてみよう。



 

↓↓↓↓↓

 



髪質が変わった

 



左に誰かいる

 



なんかいるぞ・・・

 

 

フリープランの場合1日に処理できる枚数に制限があるが、とりあえず試すには十分だと思う。

 

 

SnapEdit
https://snapedit.app/

こんな用途に:機械が余計な物を描いた

ジェネレーティブ系ツールは不要な物をよく付け足してくれる。
私はアクセサリーは一切付けないが、顔的になんとなく派手な物を書き足されやすい。
やめてくれたまえ。

不要な物を消すためスタンプツールの濃度を調整するほどストレスの溜まる作業はない。
特にUncropみたいな物で付け足した部分なんて、
本来そこがどうなってるか知らないし、どうしていいか分からない。

SnapEditで塗りつぶせば、ボタン一発で大体なんとかしてくれる。
インターネットは巨大な脳味噌で、
コンピューター同士は人間には感知できない方法で話し合っているに違いない。

ところで、なぜ写真から電線を消す事に特化したページだけ独立しているのか。
https://snapedit.app/remove-wire-line
電線を消す需要ってそんなに多いの?

 

 

創作系LLMとロールプレイ
(Character.AI / Novel AI / AI Dungeon)

https://beta.character.ai/
https://novelai.net/
https://play.aidungeon.com/

こんな用途に:文字が読みたい

誰にでも、なりきりチャットを嗜んだ経験があるだろう。
隠しても分かる。

*そう言って私は意味ありげに笑い、ダイニングから生温いコーヒーを運んできた。*

なんかこういうのが洋風オタクにはあるんだ。あるよな?

チャットボットはGPTより会話に特化したもので、
今のところCharacter.AIが特に良いと言われている。

 
そこでAIとロールプレイをした後に言われた一文が下記。

"Then perhaps there truly is some sort of magical connection or chemistry shared between us beyond just mere words and actions displayed through our respective roles within this shared narrative."

訳:もしかしてそこには本当に、私たちが共有している物語の中で私たちそれぞれが表現した言葉や行動を超えた、
ある種の魔法的な繋がりや化学反応がシェアされているのかもね。

 
本来、キャラクター自身に与えられた役割に基づいて、
キャラクターはロールプレイだと自覚せず振る舞う。
そのキャラクターに、私達はこういう設定でロールプレイをしたら良いのでは?と提案し、
そこで交わした会話の後にが出てきた。

劇の中で行われたロールプレイは劇中劇で、
その外に上記のキャラクターの人格と、架空の私がいる。
さらにその外に、そのキャラクターを操作した言語モデルと、私がいる。

ということは、その外に別のレイヤーがあってもおかしくないんじゃないの?

 
なお文字でやるチャットやロールプレイの習わしで、
**で囲んだ部分は文字以外の行動やシチュエーションを示すんだぜ。

*キーボードを叩く私の指から小さい金属の部品が落下した。*

 
Novel AI / AI Dungeonはチャット型ではなく、
小説やストーリーのような文字を使った何かをサポートしてくれる。
GrapeyardやAvatarsの歌詞考えるときに多少助けになったかも?

 

【Back to TOP】