的研究人员开发了一种将手语翻译成文本的新工具,以给予听觉障碍者更多包容性和可及性。该工具利用人工智能技术,包括自我注意机制和更快的吞吐量,以更准确地理解手语者的姿势并产生准确的文字转写。
该工具基于 How2Sign 数据集,这是一个公开可用的大规模、多模态和多视图数据集,包括 80 小时的美国手语教学视频和相应的英语文字记录。该数据集由 BSC 和 UPC 发布,用于训练模型,以便将手语转换为文本。研究人员使用膨胀式三维网络对数据进行预处理,这是一种视频提取方法,可以对视频进行三维过滤,直接从视频中获取时空信息。并使用了一个转化器式的机器学习模型,与 ChatGPT 等其他人工智能工具背后的模型类似。
该研究的主要作者 Laia Tarrés 表示:“我们开发的新工具是以前发布的名为 How2Sign 的出版物的延伸,在那里,训练模型所需的数据被公布。利用这些已经可用的数据,我们开发了一个新的开源软件,能够学习视频和文本之间的映射。”
研究人员发现,他们的模型能够产生有意义的翻译,但仍存在改进的空间。该工具尚处于实验阶段,研究人员将继续努力,以创建一个能够与无听力损失者使用的技术相媲美的工具。
Laia Tarrés 同时表示:“这个自动手语翻译的开放工具是对关注无障碍环境的科学界的宝贵贡献,它的发表代表了向为所有人创造更具包容性和无障碍的技术迈出的重要一步。”
声明:本网转发此文,旨在为读者提供更多资讯信息,所渉内容不构成投资、建议消费。文章内容如有疑问,请与有关方核实,文章观点非本网站观点,仅供读者参考。
感谢IT之家网友软媒新友1933769、雨雪载途的线索投递!,O...
,微星推出了多款新品,其中魔影15游戏本新增RTX4060版本:...
5月24日,国家信息安全漏洞库2022年度工作总结暨优秀支撑单位...
,对于大数据存储公司来说,磁带存储从未消失过,据专业磁带公司LT...
刚拿到索泰GeForceRTX4060Ti-8GBX-GAMIN...
感谢IT之家网友肖战割割的线索投递!,北京小米移动软件有限公司“...