主题：哪位搞音频或者语音的，请教一个基本概念 -- 黑猫夜行

共:💬46 🌺36

信息技术

分页树展主题 · 全看首页上页下页末页

- - - - 复嗯
        家园 你把这个“连续曲线”向下平移
        你把这个“连续曲线”向下平移到平均值等于0，这个连续曲线就和声音曲线一样。
        同样把声音曲线向上平移就得到第一象限中的连续曲线。
        　　声音曲线就是平均值为0的连续曲线，Y轴是振动的幅度和方向，X轴是时间，曲线斜率取决于频率和声强。
        复嗯
        家园 你看来是混淆了时域里采样和频域里曲线的物理意义。
        找本简单的教科书《一维数字信号处理》看看，就好理解下面大家说的了。
        直观上讲单纯靠感觉理解而不通过数学描述，有些困难。
        复嗯
        家园 铁老大有教程,赫赫
        http://www.cchere.com/thread/966890
        复嗯
        家园 找个可以显示波形WAVE的音频工具，比如AUDACITY,
        看一阵子就能对应起来了:)
        复嗯
        家园 假设采样得到的是计算机数据
        硬盘把数据读出来,送到声卡那里, 先有电路把这些离散的点连起来变成连续波形的模拟电信号(这当然就是由电子器件实现的,要明白这个, 不明白电路当然就不成了), 然后把这个电信号送到喇叭,喇叭的那个震动模会根据电信号的强度震动发出声音, 电信号越强, 喇叭的震动也就越强, 声音也就越大, 电信号变化的频率越快, 喇叭震动得也就越快, 你就听到越高频的音乐.
        
        复假设采样得到的是计算机数据
        家园 这样说可是有误导啊
        硬盘把数据读出来,送到声卡那里, 先有电路把这些离散的点连起来变成连续波形的模拟电信号
        D/A转换可不是"把这些离散的点连起来变成连续波形的模拟电信号"这么简单啊!
        复嗯
        家园 似乎你是不理解麦克风的工作原理啊。
        自己放狗去搜吧。
- 复哪位搞音频或者语音的，请教一个基本概念
  家园 你问的是PCM的编码规则吧？找ITU-T G.711即可
  里面告诉你每个取样的那16bit是怎么安排的。。。
  如果你的编码不同，找到相应的标准即可。
- 复哪位搞音频或者语音的，请教一个基本概念
  家园 有一些播放器是可显示波形和频谱的
  你看起来是个软件专家，所以对电路什么的有点晕。
  所以你在改变数据以后，可以用播放器看看效果，当然那个比较粗糙。
  另外WAV文件的数据结构我估计是有的，你看一些编程的书里面应该提及，或者是与WAV相关的函数什么的。
  我离开技术已经很远了，从常识上说些想法供参考。
  44.1K是取样速率，就是每一秒钟取44.1k个数据，每一个数据是16bit，左右两个声道数据量就加倍。由于动态范围的原因，可能还有一个常数来描述音量的基准值或峰值。另外也可能先把信号标准化，再取样，就是先变成峰值1V的信号。
  你可以先在data chunk里把左右声道先分开，看哪些数据是哪个声道的，然后注意每一个点是16bit，有两个Bytes。
  也不知道帮不帮得上忙，凑合看看吧。
- 复哪位搞音频或者语音的，请教一个基本概念
  家园 俺没搞过音频，搞过类似的波形处理。
  　　上过大学物理应该做过示波器实验，音频就相当于示波器屏幕上显示的波形。
  　　这个波形X轴是时间，Y轴是电压。
  　　采样频率的高低决定了时间采样的精细度，频率越高能还原出的音频频率就越高；
  　　每个采样点的数值代表了这个时间点的电压值（相对值），位数越多还原出的电压值就越准确。
  　　数字音频就等于用直方图来代替曲线图，很明显，直方图每一个长方条越细，高度的分辨率越高，长方条的顶点连成的曲线与原曲线就越接近。
  　　16bit就是每个采样点量化（用A／D转换器）后的数值是个16位二进制数，分辨率为65536。楼下说的1024是10位二进制数。
  　　音频电压是交流的，正负电压都有，所以这个16位数要能表示出正负来。为了处理方便，一般使使数值向上平移。
  　　为表示方便以下以10位为例：
  　　音频瞬间电压的绝对值并不重要，重要的是相对值，所以以下的具体电压变一下可无妨，只要所有点按同样比例变就行。
  　　10位二进制数分辨率为1024，如果表示一个0－10V的电压，数值0＝0V，512＝5V，1024＝10V，其他按比例算。
  　　如果表示一个－5－＋5V的电压，可以把512定为0V，1024就是＋5V，0就是－5V。其他同样按比例算。
  　　因为是交流信号，我们要还原的是各点数值在X、Y值上连成的相对曲线，所以这个曲线只要不变形，向上、下平移一段距离对还原没有影响，就象示波器看波形上下移动扫描基线一样。你把某一个wav的data chunk里所有采样点都减少或者增加一个常量后生成新的wav，实际上就是把音频曲线向下（减少）或向上（增加）平移一点。而实际把音频电压量化成数字信号时为了保证不失真都不会用满，所以少量平移不会影响原来的音质。但移的多了造成超出范围（就象示波器把波形一部分移出屏幕外），所有超出范围的点都变成最低电压或最高电压（这有个术语叫削顶，在示波器上看就是最高的部分或最低的部份变成平直线），这就造成失真，如果移的太多就会变成最高电压或最低电压的一条直线，还原出就是直流电压，这就没了声音。
- 复哪位搞音频或者语音的，请教一个基本概念
  家园 你改变采样频率后
  是很难用耳朵听出区别的, 建议你使用高精度的数字采集卡然后配上Matlab或者NI的Labview来分析. 哈哈, 看起来一时半会也凑不齐这些装备来.
- 复哪位搞音频或者语音的，请教一个基本概念
  家园 依靠采样后的电平值量化
- 复哪位搞音频或者语音的，请教一个基本概念
  家园 一段音乐色彩的丰富是由音乐的频率宽度决定的
  信息理论的一个基本定理是nyquist thereom，当数据采样以后，再恢复出来的信号，其频率最高只能是采样频率的一半，也就是说，如果要保留带宽为 2k, 那么理论上的采样频率至少要是 4k.
  Wiki的简介
  外链出处
  - 复一段音乐色彩的丰富是由音乐的频率宽度决定的
    家园 嘿嘿,说得不太准
    一段音乐色彩的丰富是由音乐的频率宽度决定的
    貌似不可以这么说.
    事实上任何一段音乐的原始频带宽度都是无穷大的,那么是不是所有的"音乐色彩的丰富"程度都是一样的?
    奈奎思特抽样率你说的是对的.
- 复哪位搞音频或者语音的，请教一个基本概念
  家园 这是电子通信的一门基础课叫做数字信号处理。
  你拿本教材就看到了。放狗是很难搜出来的。因为这些
  有图的话你就看的更清楚了。可是图很难上网。

分页树展主题 · 全看首页上页下页末页

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明