职位简介:
作为腾讯TEG语音与音频理解方向研究员,你将参与构建原生支持视觉、音频与文本的大规模多模态模型体系,推动人工智能系统对物理世界的全面感知与理解。核心职责包括研发端到端语音大模型,涵盖多语言语音识别、语音翻译、语音合成及音频理解,推进语音表征学习与语音编码/解码架构研究,构建统一声学表征,并探索音频和语音在多模态大模型中的表征对齐与融合机制。同时需构建并维护高质量的语音多模态数据集,开发自动标注与数据合成技术。你需要具备计算机、电子工程、人工智能或相关领域的博士学历,或硕士加多年相关工作经验,深入理解语音音频信号处理、声学建模、语言模型和大模型架构,熟练掌握语音识别、语音合成、语音翻译等系统开发流程,并对语音表征预训练、多模态对齐与跨模态建模有深入研究或实践经验。熟练掌握PyTorch、TensorFlow等深度学习框架及Transformer类模型在语音、多模态领域的训练和推理。
简历及面试建议:
在撰写简历时,你需要突出自己在语音与音频理解领域的专业背景和实际经验。首先,确保你的教育背景清晰列出,尤其是与计算机、电子工程、人工智能或语言学相关的博士学位,或者硕士学位加上多年的相关工作经验。在技能部分,详细列出你掌握的语音音频信号处理、声学建模、语言模型和大模型架构的知识,并具体说明你在语音识别、语音合成、语音翻译等系统开发中的实践经验。如果有参与过多语言、多任务或端到端系统的开发,务必强调这些项目经验。此外,特别标注你对语音表征预训练(如HuBERT, Wav2Vec, Whisper等)和多模态对齐与跨模态建模的研究或实践经验。如果你有推动大模型在音频理解任务上达到SOTA性能的经验,这将是简历中的一大亮点。最后,别忘了提及你熟练掌握的深度学习框架(如PyTorch、TensorFlow)以及在大规模训练与分布式系统方面的经验。
面试时,面试官会重点关注你在语音与音频理解领域的技术深度和实际应用能力。准备时,确保你对语音大模型、多模态对齐与融合技术有深入的理解,并能清晰表达你在相关项目中的具体贡献。面试官可能会询问你在语音表征预训练或多模态对齐方面的研究细节,因此提前准备好相关的技术案例和成果展示。此外,面试中可能会涉及技术难题的解决思路,建议你回顾过去项目中遇到的挑战及你的解决方案。在回答问题时,尽量结合具体的项目经验,展示你的技术洞察力和解决问题的能力。同时,面试官可能会考察你对大规模训练与分布式系统的熟悉程度,因此准备好讨论你在这些方面的实践经验。最后,保持自信和专业,展示你对语音与音频理解领域的热情和长期发展的承诺。
在线咨询
提示:由 AI 生成回答,可能存在错误,请注意甄别。