五千年(敝帚自珍)

主题:哪位搞音频或者语音的,请教一个基本概念 -- 黑猫夜行

共:💬46 🌺36
分页树展主题 · 全看首页 上页
/ 4
下页 末页
                  • 家园 你把这个“连续曲线”向下平移

                    你把这个“连续曲线”向下平移到平均值等于0,这个连续曲线就和声音曲线一样。

                    同样把声音曲线向上平移就得到第一象限中的连续曲线。

                      声音曲线就是平均值为0的连续曲线,Y轴是振动的幅度和方向,X轴是时间,曲线斜率取决于频率和声强。

                  • 家园 你看来是混淆了时域里采样和频域里曲线的物理意义。

                    找本简单的教科书《一维数字信号处理》看看,就好理解下面大家说的了。

                    直观上讲单纯靠感觉理解而不通过数学描述,有些困难。

                  • 家园 铁老大有教程,赫赫

                    http://www.cchere.com/thread/966890

                  • 家园 找个可以显示波形WAVE的音频工具,比如AUDACITY,

                    看一阵子就能对应起来了:)

                  • 家园 假设采样得到的是计算机数据

                    硬盘把数据读出来,送到声卡那里, 先有电路把这些离散的点连起来变成连续波形的模拟电信号(这当然就是由电子器件实现的,要明白这个, 不明白电路当然就不成了), 然后把这个电信号送到喇叭,喇叭的那个震动模会根据电信号的强度震动发出声音, 电信号越强, 喇叭的震动也就越强, 声音也就越大, 电信号变化的频率越快, 喇叭震动得也就越快, 你就听到越高频的音乐.

                    • 家园 这样说可是有误导啊

                      硬盘把数据读出来,送到声卡那里, 先有电路把这些离散的点连起来变成连续波形的模拟电信号
                      D/A转换可不是"把这些离散的点连起来变成连续波形的模拟电信号"这么简单啊!

                  • 家园 似乎你是不理解麦克风的工作原理啊。

                    自己放狗去搜吧。

    • 家园 你问的是PCM的编码规则吧?找ITU-T G.711即可

      里面告诉你每个取样的那16bit是怎么安排的。。。

      如果你的编码不同,找到相应的标准即可。

    • 家园 有一些播放器是可显示波形和频谱的

      你看起来是个软件专家,所以对电路什么的有点晕。

      所以你在改变数据以后,可以用播放器看看效果,当然那个比较粗糙。

      另外WAV文件的数据结构我估计是有的,你看一些编程的书里面应该提及,或者是与WAV相关的函数什么的。

      我离开技术已经很远了,从常识上说些想法供参考。

      44.1K是取样速率,就是每一秒钟取44.1k个数据,每一个数据是16bit,左右两个声道数据量就加倍。由于动态范围的原因,可能还有一个常数来描述音量的基准值或峰值。另外也可能先把信号标准化,再取样,就是先变成峰值1V的信号。

      你可以先在data chunk里把左右声道先分开,看哪些数据是哪个声道的,然后注意每一个点是16bit,有两个Bytes。

      也不知道帮不帮得上忙,凑合看看吧。

    • 家园 俺没搞过音频,搞过类似的波形处理。

        上过大学物理应该做过示波器实验,音频就相当于示波器屏幕上显示的波形。

        这个波形X轴是时间,Y轴是电压。

        采样频率的高低决定了时间采样的精细度,频率越高能还原出的音频频率就越高;

        每个采样点的数值代表了这个时间点的电压值(相对值),位数越多还原出的电压值就越准确。

        数字音频就等于用直方图来代替曲线图,很明显,直方图每一个长方条越细,高度的分辨率越高,长方条的顶点连成的曲线与原曲线就越接近。

        16bit就是每个采样点量化(用A/D转换器)后的数值是个16位二进制数,分辨率为65536。楼下说的1024是10位二进制数。

        音频电压是交流的,正负电压都有,所以这个16位数要能表示出正负来。为了处理方便,一般使使数值向上平移。

        为表示方便以下以10位为例:

        音频瞬间电压的绝对值并不重要,重要的是相对值,所以以下的具体电压变一下可无妨,只要所有点按同样比例变就行。

        10位二进制数分辨率为1024,如果表示一个0-10V的电压,数值0=0V,512=5V,1024=10V,其他按比例算。

        如果表示一个-5-+5V的电压,可以把512定为0V,1024就是+5V,0就是-5V。其他同样按比例算。

        因为是交流信号,我们要还原的是各点数值在X、Y值上连成的相对曲线,所以这个曲线只要不变形,向上、下平移一段距离对还原没有影响,就象示波器看波形上下移动扫描基线一样。你把某一个wav的data chunk里所有采样点都减少或者增加一个常量后生成新的wav,实际上就是把音频曲线向下(减少)或向上(增加)平移一点。而实际把音频电压量化成数字信号时为了保证不失真都不会用满,所以少量平移不会影响原来的音质。但移的多了造成超出范围(就象示波器把波形一部分移出屏幕外),所有超出范围的点都变成最低电压或最高电压(这有个术语叫削顶,在示波器上看就是最高的部分或最低的部份变成平直线),这就造成失真,如果移的太多就会变成最高电压或最低电压的一条直线,还原出就是直流电压,这就没了声音。

    • 家园 你改变采样频率后

      是很难用耳朵听出区别的, 建议你使用高精度的数字采集卡然后配上Matlab或者NI的Labview来分析. 哈哈, 看起来一时半会也凑不齐这些装备来.

    • 家园 依靠采样后的电平值量化
    • 家园 一段音乐色彩的丰富是由音乐的频率宽度决定的

      信息理论的一个基本定理是nyquist thereom,当数据采样以后,再恢复出来的信号,其频率最高只能是采样频率的一半, 也就是说,如果要保留带宽为 2k, 那么理论上的采样频率至少要是 4k.

      Wiki的简介

      外链出处

      • 家园 嘿嘿,说得不太准

        一段音乐色彩的丰富是由音乐的频率宽度决定的

        貌似不可以这么说.

        事实上任何一段音乐的原始频带宽度都是无穷大的,那么是不是所有的"音乐色彩的丰富"程度都是一样的?

        奈奎思特抽样率你说的是对的.

    • 家园 这是电子通信的一门基础课叫做数字信号处理。

      你拿本教材就看到了。放狗是很难搜出来的。因为这些

      有图的话你就看的更清楚了。可是图很难上网。

分页树展主题 · 全看首页 上页
/ 4
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河