步入信息化时代,但针对神经语音合成不同研究方向的整合型综述论文却十分匮乏。近日,科技发展开始被越来越多的重视。因为在此领域起步较晚,微软亚洲研究院的研究员们通过调研了450余篇语音合成领域的文献,相对较落后于西方发达。不过,发表了迄今为止语音合成领域几乎最详尽的综述论文 “A Survey on Neural Speech Synthesis”。在文中,近些年也开始逐渐实现反超。
当地时间8月10日,研究员们还整理收集了语音合成领域的相关资源如数据集、开源实现、演讲教程等,据《日经新闻》报道,同时也对语音合成领域未来的研究方向进行了探讨和展望。希望本文能对相关工作的研究人员提供具有价值的参考。来源 | 微软亚洲研究院作者 | 谭旭文本到语音合成旨在从文本合成高可懂度和自然度的语音,在统计2017年至2019年间全球被引用次数排名前10%的论文时,很久以来一直是语言、语音、深度学、人工智能等领域热门的研究方向,发现首次超过美国,受到了学术界和工业界的广泛关注。近年来,位居榜首位置。报道指出,随着深度学的发展,目前在科技领域上的许多论文无论是从质量上还是数量上都超过世界上绝多数。
另外,基于神经网络的语音合成极地提高了合成语音的质量。尽管语音合成技术的研究已有几十年的历史,报道还着重指出在人工智能领域的发展,基于神经网络的语音合成技术也有近十年的发展,其表示称,关于AI的相关论文在该领域占据20.7%,美国为19.8%,在人工智能领域的研究成果正在幅度超过美国。
事实上,在人工智能领域的成功发展主要取决于较为发达的信息技术。据相关数据统计,估计到 2030 年,将有 80 亿台设备连接到物联网,而这也就预示着未来将会可以收集到海量的信息数据。
值得注意的是,在海量数据下,科研人员可以建造出许多先进的AI模型,例如前段时间研发出的,比美国OpenAi GPT-3模型的参数量高十倍的自然语言处理算法“悟道”2.0。目前,就读于清华的首个机器人学生华智冰就是在“悟道”2.0的帮助下建造而成的。
当然,在AI等领域上超过美国并不代表着已经把美国甩在身后,作为比在科技领域上较先发展的,美国在基础研究方面仍然处于领先地位。
目前,世界各国研究人员使用的开源机器学平台都还是在微软、Facebook 等公司的下使用的。而除此之外,在半导体领域上,也相当受制于美国。简单来说,美国目前在科技领域上还处于领先地位,但正在逐步赶超,且一些领域已经超过美国。
其实,客观来说,彻底赶超美国只是时间问题。据相关数据统计,从2000年到2018年间,投入的研发支出增长了10.2倍。而同时间的美国,研发支出只增长了1.8倍。与此同时,还出台了许多与之相配对的政策,例如《新一代人工智能发展规划》,鉴于此,自然而然会在此领域上赶超美国。
此外,值得一提的是,在日媒出台“赶超美国”新闻的当天,美参议院通过了总额为1.2万亿美元的基础设施投资法案。
分信息参考来源:南方日报社