华盛顿大学研发“空间语音翻译”技术:多人同时发言也能精准识别
作者:灵犀软件园时间:2025-05-25 11:03:21
本站 5 月 24 日消息,美国华盛顿大学的一项研究提出了一种可穿戴式“空间语音翻译”技术,能够通过双耳耳机在多人交谈环境中实时翻译,并可以保留每位发言者的声音特征与方位感。
据 ITMedia News 昨日报道,借助这项技术,耳机能将每个人的话实时翻译成你的母语,同时保留每个人的声音个性和方向信息,让你清楚分辨谁在说什么。
与现有翻译工具相比,这项技术解决了两大难题:一是支持多人同时发言场景,二是翻译结果不再千篇一律,而是保持每个说话者独特的声音风格与方向。研究结合了音源分离、空间定位、实时翻译与双耳渲染等技术,构建出完整系统。
本站从报道中获悉,研究团队的三大技术突破包括:
https://doi.org/10.1145/3706598.3713745
通过将空间细分为多个角度区域,并用神经网络识别每个区域内的潜在发言者,实现准确的音源分离与定位;
构建可在 Apple 芯片上实时运行的语音翻译模型,能保留说话者的音质与情感;
开发出双耳渲染方法,让翻译后的语音从原说话者方向传来,增强沉浸感。
在实际测试中,研究人员使用市售降噪耳机和双耳耳机,在苹果 M2 芯片上完成了从法语、德语、西班牙语到英语的实时翻译。10 名受试者在多种环境下测试后,系统展现出较强的通用性。
进一步的评估表明,29 名参与者普遍认为,新系统在多人交流场景中的表现优于传统翻译工具,不仅提升了翻译质量,也更易分辨说话者。此外,在空间感知实验中,用户能准确判断翻译语音的方向,与原声几乎无异。
研究成果:
相关文章
-
华盛顿大学研发“空间语音翻译”技术:多人同时发言也能精准识别
本站 5 月 24 日消息,美国华盛顿大学的一项研究提出了一种可穿戴式“空间语音翻译”技术,能够通过双耳耳机在多人交谈环境中实时翻译,并可以保留每位发言者的声音特征与方位感。据 ITMedia New
-
吉麦新能源骏驰 ET 微型车上市:半隐藏式门把手、纯电续航 150 公里,3.68 万元起
本站 5 月 24 日消息,吉麦新能源旗下骏驰ET微型车正式上市,共推出基础款和进阶款两车型,官方指导价分别为3 68万元和4 18万元。该车外观方正,应用三门四座布局,车头灯组间采用了黑色饰板相连,
-
莫迪:首款“印度造”芯片即将正式下线
本站 5 月 24 日消息,据《财富》印度版报道,当地时间 23 日,印度总理纳伦德拉・莫迪在新德里 Bharat Mandapam 出席“2025 年东北崛起投资者峰会”时宣布,印度东北地区的半导体
-
蔡崇信:阿里巴巴国际化并非完美,有成功也有失败
本站 5 月 24 日消息,第五届 BEYOND 国际科技创新博览会(BEYOND Expo 2025)于 5 月 21 日至 24 日举行。在闭幕式上,阿里巴巴集团董事长蔡崇信表示,阿里巴巴在国际化
-
奇瑞小蚂蚁微型车新增“喜爱版”预售:换用竖向布局 10.4 英寸中控屏,5.89 万元
本站 5 月 24 日消息,奇瑞宣布旗下小蚂蚁纯电两门车新增一款“喜爱版”车型开启预售,该版本车型纯电续航里程 251 公里,定价为5 89万元。外观方面,该车延续了小巧圆润的设计风格,提供LED迎宾
-
谷歌逐步推广全新“渐变 G”logo,现已登陆网页图标及 App 内部
本站 5 月 24 日消息,谷歌在 I O 2025 开发者大会上正式发布了新版“G”logo,这一设计现已陆续应用到更多应用程序和网页中。上周,这款新 logo 率先登陆 Android 与 iOS