音声処理ソフトを作りたいんだけどプログラミングに詳しい人助けて #wav

音声処理ソフトを作りたいんだけどプログラミングに詳しい人助けて #wav
1: 以下、?ちゃんねるからVIPがお送りします 2022/04/01(金) 02:03:52.527 ID:TWnRhne10USO.net

wavファイルの音声データってどういう形で収納されてるの?
wavファイルのフォーマットは出てくるんだけど肝心の音声データの部分は波形データが収納されてるくらいの説明しかでてこなくて
波形データがどういうものなのかがよくわからなかった

2: 以下、?ちゃんねるからVIPがお送りします 2022/04/01(金) 02:05:34.321 ID:0wKDTBVs0USO.net

サンプリングとか量子化ビット数とか調べろ


3: 以下、?ちゃんねるからVIPがお送りします 2022/04/01(金) 02:05:50.182 ID:EaOzrXZm0USO.net

最も単純な形式だから時刻と音の強さの配列じゃないの


4: 京都が読めない 2022/04/01(金) 02:05:53.587 ID:+VjAbcFG0USO.net



8: 以下、?ちゃんねるからVIPがお送りします 2022/04/01(金) 02:07:29.042 ID:TWnRhne10USO.net

>>4
>波形情報を格納するチャンクである。

波形情報がどういう形で収納されてるのかが知りたいんだよ


10: 京都が読めない 2022/04/01(金) 02:10:38.552 ID:+VjAbcFG0USO.net

>>8
違ったかごめん、なんかフィーリエ変換とかで調べたら出てこないか?根本的には違うかもだけど。


12: 以下、?ちゃんねるからVIPがお送りします 2022/04/01(金) 02:12:05.673 ID:TWnRhne10USO.net

>>10
なんでここでフーリエ変換が出てくるのかがわからない
別にピッチ検出しようとしてるわけではないんだが


5: 以下、?ちゃんねるからVIPがお送りします 2022/04/01(金) 02:06:02.733 ID:lZOElD5q0USO.net

そこからの知識で音声処理に手を出そうとしてるのか・・・


6: 以下、?ちゃんねるからVIPがお送りします 2022/04/01(金) 02:06:27.360 ID:0wKDTBVs0USO.net

あとステレオだと1サンプルずつ左右交互に配置される


7: 以下、?ちゃんねるからVIPがお送りします 2022/04/01(金) 02:06:55.982 ID:dxp/8KfT0USO.net

そのレベルはさすがに自力で探せたり理解できないと無理だろ
本一冊分のノウハウをスレで説明するとか不可能だろうし


11: 以下、?ちゃんねるからVIPがお送りします 2022/04/01(金) 02:11:18.701 ID:TWnRhne10USO.net

>>7
そこまで難しい話じゃないだろ
どうやって記述してるかってだけの話


15: 以下、?ちゃんねるからVIPがお送りします 2022/04/01(金) 02:16:36.200 ID:dxp/8KfT0USO.net

>>11
フォーマットが分からないだけなら、プログラムに詳しい人に助けを求めることないじゃん
きっとフォーマットが分かったら、次はこれが分からないから教えろって延々続くんじゃないの?


16: 以下、?ちゃんねるからVIPがお送りします 2022/04/01(金) 02:17:30.372 ID:TWnRhne10USO.net

>>15
続かないよ?


22: 以下、?ちゃんねるからVIPがお送りします 2022/04/01(金) 02:26:37.101 ID:dxp/8KfT0USO.net

>>16
普通にググって一番頭くらいに出てきたこのサイトで十分な気がする
この内容のどこが分からないか?ってことすら言えてない時点で
お前ら全部説明しろ、って言ってるんじゃないかと思うんだが?

https://www.youfit.co.jp/archives/1418


35: 以下、?ちゃんねるからVIPがお送りします 2022/04/01(金) 02:33:17.284 ID:pngZWMd7HUSO.net

>>22のとおりだろ
データ*
波形データを格納。リニアPCMの場合は時間順に格納される。ステレオは左→右→左→右…のように格納される。8ビットの場合は符号無し整数 (0 – 255)、16ビットの場合は符号付き整数 (-32768 – 32767) で表わす。


24: 以下、?ちゃんねるからVIPがお送りします 2022/04/01(金) 02:27:52.161 ID:TWnRhne10USO.net

>>22
それはwavファイルのフォーマットだろ
俺が聞いてるのはwavファイルの中の波形データのフォーマットなんだよ


31: 以下、?ちゃんねるからVIPがお送りします 2022/04/01(金) 02:32:12.159 ID:dxp/8KfT0USO.net

>>24 続き
って書いてあるけど?


30: 以下、?ちゃんねるからVIPがお送りします 2022/04/01(金) 02:31:24.241 ID:dxp/8KfT0USO.net

>>24
> データ * 波形データを格納。リニアPCMの場合は時間順に格納される。
> ステレオは左→右→左→右…のように格納される。
> 8ビットの場合は符号無し整数 (0 ? 255)、16ビットの場合は符号付き整数 (-32768 ? 32767) で表わす。


34: 以下、?ちゃんねるからVIPがお送りします 2022/04/01(金) 02:32:48.007 ID:TWnRhne10USO.net

>>30
8ビットの場合は符号無し整数、16ビットの場合は符号付き整数でどういうフォーマットで表されてるのかを聞いてるんだよ


49: 以下、?ちゃんねるからVIPがお送りします 2022/04/01(金) 02:38:43.646 ID:pngZWMd7HUSO.net

>>34
>>20の通り
16bitなら16bit(2byte)読み込んでリトルエンディアンだから最初の1byteと次の1byteを入れ替えてsigned shortに変換すればよろし


51: 以下、?ちゃんねるからVIPがお送りします 2022/04/01(金) 02:39:34.929 ID:TWnRhne10USO.net

>>49
聞いてるのはデータ型じゃなくてフォーマットなんだが


46: 以下、?ちゃんねるからVIPがお送りします 2022/04/01(金) 02:37:36.623 ID:dxp/8KfT0USO.net

>>34
どういうフォーマットってWAVなんだからそのままだろw

そもそも >>22 くらい詳しく書いてあって、自分の知りたいことだけが抜け落ちてるって発想がおかしい
自分の理解がそこの説明に追いついてないだけってのがオチだろ


47: 以下、?ちゃんねるからVIPがお送りします 2022/04/01(金) 02:38:36.338 ID:TWnRhne10USO.net

>>46
バカは黙っててよ
自分が説明できない質問されたからって発狂すんな


53: 以下、?ちゃんねるからVIPがお送りします 2022/04/01(金) 02:41:26.623 ID:dxp/8KfT0USO.net

>>47
馬鹿なのはお前だ
例えば、16bit48KHzで1秒のWAVなら、データ部は16ビットのデータが48000個並んでるだけだ
それを理解できないならそもそも >>22 のサイトの説明が理解できてないだけ


55: 以下、?ちゃんねるからVIPがお送りします 2022/04/01(金) 02:44:20.289 ID:TWnRhne10USO.net

>>53
その16ビットのデータの中身を聞いてるんだよ
何回言えばわかるんだよ


67: 以下、?ちゃんねるからVIPがお送りします 2022/04/01(金) 02:51:47.975 ID:pngZWMd7HUSO.net

>>55
音が波形データってことは知ってる?
10,256,257,258みたいな

で、リニアPCM16bitならそのそれぞれの数値が16bitずつリトルエンディアンでデータ部に入ってるんだよ
10,256, 257, 258は16進数でそれぞれ
0x000a, 0x0100, 0x0101, 0x0102
これらがそれぞれリトルエンディアンで格納されてるから、8bitずつ書くと、
0a 00 00 10 01 01 02 01


58: 以下、?ちゃんねるからVIPがお送りします 2022/04/01(金) 02:46:45.759 ID:dxp/8KfT0USO.net

>>55
中身って何を聞いてるの?ちゃんと正しく質問しろよ

WAVがどういうフォーマットなのか理解してれば、1サンプルの音声データは1つの値があるだけなのくらい分かるだろ?


59: 以下、?ちゃんねるからVIPがお送りします 2022/04/01(金) 02:47:27.304 ID:TWnRhne10USO.net

>>58
その1つの値が何を意味しているのか


57: 以下、?ちゃんねるからVIPがお送りします 2022/04/01(金) 02:44:28.470 ID:S+RgchOc0USO.net

強いて言うなら
何らかのセンサーで測定できる負の圧力の最大値をshort型の負の最大値
正の圧力の最大値をshort型の正の最大値に対応させた仮の単位
ということになる

例えば各最大値を交互に取るような波形を再生すると爆音が鳴って死ぬ

これでわかるか?


61: 以下、?ちゃんねるからVIPがお送りします 2022/04/01(金) 02:48:49.115 ID:S+RgchOc0USO.net

>>59
それなら>>57が全てだからちゃんと読んでくれ


62: 以下、?ちゃんねるからVIPがお送りします 2022/04/01(金) 02:50:00.017 ID:TWnRhne10USO.net

>>61
圧力が時系列順に入ってて
圧力の単位はセンサーによって変わる
ってこと?


64: 以下、?ちゃんねるからVIPがお送りします 2022/04/01(金) 02:50:43.444 ID:S+RgchOc0USO.net

>>62
そうだよ


65: 以下、?ちゃんねるからVIPがお送りします 2022/04/01(金) 02:51:16.674 ID:TWnRhne10USO.net

>>64
ありがとうございました


18: 以下、?ちゃんねるからVIPがお送りします 2022/04/01(金) 02:19:29.176 ID:0wKDTBVs0USO.net

詳しい人助けて(俺の代わりに作って)って意味だと解釈した
やる気ないならクソして寝ろ


19: 以下、?ちゃんねるからVIPがお送りします 2022/04/01(金) 02:20:13.931 ID:TWnRhne10USO.net

>>18
なんでそんなわけのわからん解釈をするのか・・・


20: 以下、?ちゃんねるからVIPがお送りします 2022/04/01(金) 02:23:38.934 ID:qLOx7+100USO.net

煽るわけじゃないけど、これ読んで理解できないならいろいろアレだぞ


PCMであれば、8ビット長または16ビット長
ステレオであれば、L R L R L R … の順で交互に時間順に記録
16ビットの数値は、リトルエンディアン
データ
8ビットPCMは、unsigned char (0 ~ 255、無音は 128)
16ビットPCMは、signed short (-32768 ~ +32767、無音は 0)


21: 以下、?ちゃんねるからVIPがお送りします 2022/04/01(金) 02:25:49.624 ID:TWnRhne10USO.net

>>20
お前が俺の質問の意味を理解できてないってことはわかった


26: 以下、?ちゃんねるからVIPがお送りします 2022/04/01(金) 02:28:55.211 ID:IASVpX4e0USO.net

バカだこいつw
波形データにフォーマットもクソもねえよ
音そのものが波形なんだよバーカ


28: 以下、?ちゃんねるからVIPがお送りします 2022/04/01(金) 02:30:12.667 ID:TWnRhne10USO.net

>>26
PCで処理するのに音がそのまま保存されるわけねえだろ
全部数字に変換されてるんだよ


32: 以下、?ちゃんねるからVIPがお送りします 2022/04/01(金) 02:32:22.148 ID:qLOx7+100USO.net

>>28
音がそのまま保存されてる
と思っていい

例外としてADPCMとかあるが頭の悪い1はそれは考えなくていい


40: 以下、?ちゃんねるからVIPがお送りします 2022/04/01(金) 02:34:33.056 ID:TWnRhne10USO.net

>>32
バカは黙ってろよ
そのまま保存されてねえんだよ


33: 以下、?ちゃんねるからVIPがお送りします 2022/04/01(金) 02:32:32.064 ID:O8pOZ4tj0USO.net

fmtチャンクに書かれている


36: 以下、?ちゃんねるからVIPがお送りします 2022/04/01(金) 02:33:30.180 ID:J6qULIar0USO.net

ある周波数ほにゃららHZのデータを仕込むときには具体的にどういうバイナリをデータチャンクに入れるのかみたいなのが知りたいんだろ?


38: 京都が読めない 2022/04/01(金) 02:33:45.328 ID:+VjAbcFG0USO.net

テキストファイルみたいになってると思ってるってこと?


39: 以下、?ちゃんねるからVIPがお送りします 2022/04/01(金) 02:33:59.186 ID:S+RgchOc0USO.net

瞬間瞬間の圧力の数値を並べただけのものがいわゆる波形データなので画像の1ピクセルに相当するのは一つのFloat値かShort値
フォーマットもクソもないただの配列
数値が並んでるだけ
解釈すべき速度だけがサンプリングレートとして別に記録されてる

これで分からなければ無理


45: 以下、?ちゃんねるからVIPがお送りします 2022/04/01(金) 02:37:16.540 ID:TWnRhne10USO.net

>>38
なってないファイルがあるとしたらそれは量子コンピュータだからノーベル賞貰えるぞ

>>39
その数値の単位は?


42: 以下、?ちゃんねるからVIPがお送りします 2022/04/01(金) 02:35:57.589 ID:S+RgchOc0USO.net

強いて言うならバイナリ状態の配列
cならfreadとかで読め


50: 以下、?ちゃんねるからVIPがお送りします 2022/04/01(金) 02:39:30.696 ID:Rq0t9yWpdUSO.net

そもそもどんな音声処理したいのか


52: 以下、?ちゃんねるからVIPがお送りします 2022/04/01(金) 02:40:18.727 ID:TWnRhne10USO.net

>>50
それを書いたら俺の質問に答えずに勝手に「俺が変わりに作ってやる」とか言い出して俺が作りたいものと違うもの作って押し付けてくるやつが出てきそう


56: 以下、?ちゃんねるからVIPがお送りします 2022/04/01(金) 02:44:27.637 ID:Rq0t9yWpdUSO.net

>>52
作るわけないだろキチガイか?


63: 以下、?ちゃんねるからVIPがお送りします 2022/04/01(金) 02:50:29.938 ID:Rq0t9yWpdUSO.net



69: 以下、?ちゃんねるからVIPがお送りします 2022/04/01(金) 02:52:52.285 ID:rFbwG8kj0USO.net

そういうライブラリ使えよ
ずいぶん昔にDirectSound使って波形編集アプリ作ったわ
もう忘れたがな


84: 以下、?ちゃんねるからVIPがお送りします 2022/04/01(金) 03:24:11.656 ID:dxp/8KfT0USO.net

>>82
多分WAVデータを編集アプリとかで見れば、波形がすぐに表示されるし
その波形の時間軸を伸ばしてサンプルレートで見れば1ドットが1サンプルに対応してるってのは
普通見れば判ると思うんだよね

それを判ってないってことが普通の人間には簡単に理解できない


83: 以下、?ちゃんねるからVIPがお送りします 2022/04/01(金) 03:22:41.574 ID:S+RgchOc0USO.net

しかし画像のピクセルの輝度については自然に最小値から最大値までの線形って解釈してるはずなのに
音波に関して何らかの単位に沿ってるはずって思い込んだのは何でなんだろな


85: 以下、?ちゃんねるからVIPがお送りします 2022/04/01(金) 03:24:16.620 ID:Rq0t9yWpdUSO.net

"16ビットの方"の軸にしか注意を向けてないし理解できてないんだろうな


86: 以下、?ちゃんねるからVIPがお送りします 2022/04/01(金) 03:38:29.715 ID:+RdEqXtH0USO.net

質問の仕方がクソすぎて草


90: 以下、?ちゃんねるからVIPがお送りします 2022/04/01(金) 05:19:49.232 ID:50s/5hvk0USO.net

近年稀に見るVIPらしき良スレだと思いましたw


70: 以下、?ちゃんねるからVIPがお送りします 2022/04/01(金) 02:54:34.442 ID:S+RgchOc0USO.net

疎密波の概念とかサンプリング定理とか
講義で聞くと要らんだろそこの説明とか思ってたけど
要るやつには要るんだな


元スレ: http://viper.2ch.sc/test/read.cgi/news4vip/1648746232/


わんわん
はてなブックマークに追加する この記事をツイートする
Pocketに保存する この記事にコメントする

コメント