なるように、なる

徒然なつぶやき、備忘録です。

タブラの音を学習させた

タブラの演奏を視覚化させるために、タブラの音を識別させることにチャレンジしています。タブラは2つの太鼓から20種類ほどの音色をだすことが出来ますので、それをひとつひとつ識別して、演奏をリアルタイムにVJみたいにしたいと思ってます。

今回識別させた音

キールフセイン先生の曲を波形を見てみましょう。このピークになっているのが太鼓の音です。

f:id:Shampagne:20171111170959p:plain

今回はこの曲の中から4種類の音を切り出してみました。

「na」

f:id:Shampagne:20171111171723p:plain

「tun」

f:id:Shampagne:20171111171539p:plain

「te」

f:id:Shampagne:20171111171602p:plain

「ge」

f:id:Shampagne:20171111171615p:plain

波形を見てみると、それぞれ個性がありますね。なんとなくいけそうな気がしません?ちなみに、私はこの作業のために曲を聴きながらそれぞれの波形を30個ずつ切り出したので、波形を見て音を識別できるようになりましたw
同じことをプログラムにもやってもらおうと思います。

どうやって識別させるか?

色々と調べてみて、いちばんやりたいことに近かったのがこちらです。

webdatareport.hatenablog.com

あとは、「実践機械学習システム」の9章(音楽ジャンル分類)を参考にしました。

要点は音のデータをMFCC (メル周波数ケプストラム係数)に変換し、それを特徴量とするということです。はっきり言ってMFCCが何かはさっぱりですが、音声認識などではメジャーな手法ということです。先人の力に頼りまくりたいと思います。

識別させてみた

実は今回、大変だったのはここまでです。どうやるかを調べるのが大変でしたが、あとは凄く簡単(株式会社ルーター様!ありがと!)。

やったことは以下。

1.元の楽曲から学習用に太鼓の音を切り出す(4種類 x 30パターン)。
2.太鼓の音が入ってない部分をノイズデータとして切り出し、1.と混ぜてデータ水増し(soxという神ライブラリを利用)。
3.wavデータをMFCCに変換。
  ※scikits.talkboxなど、MFCCを計算するライブラリは色々ある。
4.3.で得た特徴量をCNNにかける。

結果

89%まで識別できるようになりました。おぉ。

 

 Epoch loss: 0.2590 - acc: 0.8841 - val_loss: 0.2423 - val_acc: 0.8900
Test loss: 0.242288478737
Test accuracy: 0.89

 

f:id:Shampagne:20171111180943p:plain

トライアルとしては十分な成果が得られました。
次回は学習したモデルを使って実際にザキール先生の曲を再生しながら太鼓の音をリアルタイムに識別してみたいと思います。

タブラの音を認識したいのだ

みなさん、タブラという楽器を知っていますか?

知らないですよね、そうですよね。

タブラはインドの古典楽器で、手の指で叩く2つの太鼓です。

名前は聞いたことないかも知れないけど、きっとみんな音は聞いたことあるはず。

シタールとセットで、インドっぽい音楽には必ず入っています。

僕はこのタブラが大好きなんです。

まずはこれ

キールフセイン大先生

世界最高のタブラプレイヤーです。間違いないです。

www.youtube.com

あと、よく知らないんだけど、楽しくタブラを叩いてる人たちw

www.youtube.com

 

タブラとは?

matome.naver.jp

ここで説明されているように、世界一難しい楽器と言われています。

実際、何年か前にどうしても自分で演奏してみたくて、先生に習ってみたんですが、これはちょっと無理かな、、って感じになっちゃいました。

しかし、それでもタブラの魅力は僕を惹きつけ続けています。

なんでタブラの音を認識させたいか?

昨年、渋谷WWWX(というライブハウス)の杮落し公演にザキール先生が来まして、幸運なことにチケットとれたので観にいったのです。

それはそれはどえらい演奏だったのです。

もう何が起きてるか分からないけど、とにかくすごい。

逆に言うと、凄すぎてワケが分からなかったのです。

それで、時間がたつにつれて、こう思うようになったのです。

「タブラの魅力をもっと分かり易くすることはできないか?」

そして、最近vvvvや機械学習を勉強しているなかで、タブラの音を視覚化してみたいと思うようになりました。

 

次回から、タブラの視覚化チャレンジの道のりを書いていきます。

ヨガポーズの認識と表現

ヨガポーズの認識をさせてみた

KinectV2で取得したスケルトンを、CNNで学習させたモデルでポーズ推定して、ヨガポーズと一致していたらパーティクルを出すというものをvvvvで作ってみました。

 

f:id:Shampagne:20171001221633p:plain

KinectでBodyを認識して、背景をセグメンテーションし、ヨガスタジオの背景画像に重ねました。実際は、とっ散らかった自宅で撮影してます。

f:id:Shampagne:20171001221926p:plain

ウッティタ・トリコーナーサナというポーズです。
事前に学習したポーズと一致した場合、パーティクルが出てくるようにしました。

f:id:Shampagne:20171001222200p:plain

上級者用の裏面を用意しました。
ポーズの一致度が90%以上かつ5秒以上キープできた場合に、このステージに遷移します。

f:id:Shampagne:20171001222348p:plain

ヨガのポーズはたくさんあります。8400万とも言われてます。
僕が今回学習させたのはたかだか10種類。とても上級者のヨギーには満足してもらえません。なので、このモードでは、同じ姿勢をキープ出来ていると判定したら、丹田のあたりからパーティクルを出すようにしました。

表現について考える

基本的な機能を実装できたあと、「オシャレにしていこう!」と思っていろいろ付け加いったんですが、正直、力不足でした。
こんな感じにしてみたいと思っても、vvvvでうまく表現できない。他の作品みたいに細かいパーティクルをシュワシュワしたいのに、、、とか。これは練習をするしかないな、と。
それ以上に悩んだのは「何を表現するべきか」ということ。
別に新しいことをしているつもりは無いけど、では逆になぜ自分は今この作品?を作っているんだろう、と。どのようにパーティクルを出すか、どこから出すかっていうだけでも、最初は「適当にオシャレになればいいや」と思っていたけど、ある本を読んでいるときに、ストーリーが大切、という一言を読んで、目が覚めました。

僕はなんでヨガのポーズを認識させたいんだろうか、ヴィジュアライズして何を表現したのだろう。

そういう観点から考え直した後、ヨガをして深く集中したときの世界を表現し、それをいろんな人に知ってもらえたらなぁ、と思って裏面を作りました。

もっと力をつけたら、もう一度ヨガポーズの作品に取り組みたいと思います。

次はタブラにチャレンジします。

ヨガポーズの認識(仮まとめ)

いったん一区切りして、ここまでに作ったものをアップします。

作ったもの

・OpenPoseで画像からスケルトン座標の推定

・Kerasでスケルトン座標によるヨガポーズの推定

・KinectV2のvvvvプラグインカスタマイズ

・vvvvで上記の結合

提出物1

vvvvでKinectからのデータを取り込み、TCPでKerasのバックエンドとデータ通信し、結果をもとに画像にエフェクトかけてます。パーツ作りは大変だったけど、vvvvで繋げるのはすごい簡単。

f:id:Shampagne:20170820212348j:plain

 

提出物2

 Kerasに学習させた3つのポーズとマッチすると、手の位置からパーティクルが出るようにしてみました。パーティクルが出てくる位置がちょっとずれてますが。。。

youtu.be

ここまではパーツ作りを一気にやってきたので、次は完成度を高める作業をやっていこうと思います。

ヨガポーズのクラス分類

ヨガのポーズを機械学習させて、自動で識別させるようにしました。

入力データの準備

ヨガのポーズは実にたくさんあるのですが、まずは識別し易い以下の3ポーズをチョイス。

f:id:Shampagne:20170815145230j:plain

f:id:Shampagne:20170815145244j:plain

f:id:Shampagne:20170815145310j:plain

これらのポーズの画像を10枚ずつ収集して、OpenPoseでスケルトンの座標を取得しました。

ちなみに、OpenPoseとKinectV2で取得できるスケルトンは、以下のようになってます。(OpenPoseはこちらが元ネタです。)

>OpenPose

f:id:Shampagne:20170816095804p:plain

>KinectV2

f:id:Shampagne:20170816095832p:plain

 

KinectV2で取得できない目、耳、背中の位置は使用せず、14点のx,y座標を入力データとしました。また、学習のための前処理として、以下の2つを行いました。

 ・頭の位置を原点とする

 ・頭から喉(0番と1番)の距離をもとにリサイズする

こうして得られた入力データを、ちょっと加工して各ポーズ400個に水増ししました。合計1200個なので、まぁまだ少ないですが、いったん進みます。

 

機械学習

利用したのはKerasで、バックエンドはTensorFlowです。

環境構築は、このサイトにお世話になりました(ありがとうございます)。

Keras、マニュアルも分かりやすかったので、無知でしたが割合すぐに使うことができました。

ただし、無知なのでネットワークをどう組めばいいかは、よく分かりません。

なので、MNISTのサンプルをそのまま使うことにしました。

MNISTは32x32の画像を入力としています。なので、行列サイズを16x16に変更して、各行に14カ所のx,y座標をマッピングしてみました。

半信半疑の感はありましたが、学習させたモデルを使って自分のヨガポーズを分類させてみると、見事に識別できてました。

すーごーいー。
(けもふれ再放送中)

開発合宿@家

今日から盆休みに入りました。

つまり時間はいくらでもある、はずです。

なんとか、これからの1週間でひととおりの実装をしたいと思ってます。

現状のおさらい。

Kinect + VVVV

 こちらのサイトを参考に、KinectのデータをVVVVで取り込めるようになりました。

f:id:Shampagne:20170812153904j:plain

・OpenPose

 サンプルコードを元に、スケルトン座標をファイル出力できるようになりました。

f:id:Shampagne:20170812153632j:plain

 

この1週間で、OpenPoseで取得したスケルトンからヨガのポーズを学習させて、姿勢認識ができるようにしたいと思います。

 

(*´ω`*)ガンバル

 

えっと、、、

Kinectに手を出しました(*´ω`*)

f:id:Shampagne:20170720054811j:plain

雑な感想・・・

  • 大きい。RealSenseが驚異的に小さく感じる。
  • 機能は豊富。
  • ライブラリの使い方がとても似ている。
    (RealSense使っていたら、なんなく使えた)

Kinectに手を出したのは、RealSenseを使っていて、背景のセグメンテーションするのが大変だったのと、vvvvのプラグインがすでに用意されてたから。つまり、今後の開発に必要なものが用意されてたから。

やっぱり世の中的にはまだKinectのほうが色々と充実している感はある。

ただ、RealSenseの小ささと、近距離(0.2m~)測位は、アプリケーションの広がりを期待ができるように思う。そう考えていると、スマホに3Dセンサが載るまでにいろいろと準備しているといいかも。あまり時間なさそうですが。

Tangoが載ったスマホLenovoが出したし、iPhone8にも載りそうと噂されているし、この時流に乗っていけるように、がんばろ。