音轨分离 (Stem Separation)
音轨分离(Stem Separation)是将混合音频文件分离成独立音轨(如人声、低音、鼓点、其他)的技术。它是音频可视化中实现多层波形独立显示的关键技术前提。
技术原理
现代音轨分离工具(如Demucs、Spleeter)基于深度学习模型,训练于大规模数据集,预测每个时间帧的源分离掩码。模型能够从混合信号中提取出各个源的独立信号。
在音频可视化中的应用
在[[2026-03-25-audio-visualization-python-houdini.md]]中,音轨分离被用于:
- 将混合音频分离成人声、合成器、低音、鼓点等独立音轨
- 为后续librosa特征提取提供干净的每层音频数据
- 实现视频中五层清晰独立的波形显示
相关工具
- [[Demucs]]:Facebook Research开发的音轨分离工具
- [[Spleeter]]:Deezer开发的音轨分离工具
- [[librosa]]:用于提取分离后音轨的特征