AudioGPT:理解和生成语音、音乐、声音和说话头
生成音乐 ?
– 背景音效 ?
– 音频生成字幕 ?
– 文字生成音频 ?
– 文字生成音频并模拟声音 ?
– 根据图片生成音频 ??
– 对音频进行inpaint(局部屏蔽)?
– 根据音频和人脸照片合成视频 ??
– 检测音频中的事件,以及开始和结束时间 ⏰?
– 单声道变双声道 ?➡️??
– 通过文本描述检测特定声音发生的时间 ??⏰
– 抽取某种声音 ??
– 去除背景噪音 ??
多人混合声分离出单人声音 ??➡️??
语音翻译 ??
项目: https://github.com/AIGC-Audio/AudioGPT
演示: https://huggingface.co/spaces/AIGC-Audio/AudioGPT
论文: https://arxiv.org/abs/2304.12995