微软神经网络语音合成工具是一款专业的语音合成软件,支持多种语音类型,可以对合成的语音进行调整,满足配音、讲解、讲故事、广告等用户需求。该软件结构紧凑,易于安装。欢迎有需要的用户下载。
软件介绍
1.发展的原因
虽然语音合成技术已经存在很久了,但是唯一的缺点就是普通人的可视化操作工具很少。一方面,这类工具的实现很难实现;另一方面,这些可视化工具曾经依赖于最低的C级编程语言,但这都是2022年的事了。随着很多跨端技术的出现,比如fluent和webview2,所有之前的全栈开发者都可以降维开发桌面跨端app。这也是我开发这套工具的技术基础。
本次开发借助wails工具,实现了go后端vue前端的合并开发。最终音量只有3.6Mb,包含15种音频预览。这种组合开发可以通过全前端wasm或者go来实现,自由度很高。此外,微软亚洲研究院还详细介绍了fastspech模型及相关文献资料,并对科研工作者的故事和背景做了详细的报道。另一方面,在国内的互联网公司,技术上的东西永远只是概念,微软亚洲研究院在这方面非常开放和自由,给读者带来更多的启发。
2.为什么做paper2gui?
当今世界,再先进的技术,如果没有简单的可视化操作入口,也只能是尘土飞扬。价值来源于广泛的使用,挖掘那些论文的潜在价值是半年前创造paper2gui的初衷,让更多的人工智能产品能够更简单直接的面向普通大众。
3.抗内耗后的研究思路
在编写代码的风格上,类似yaml的格式是最适合和最受人脑欢迎的,比如python、pug、stylus。在项目类中,一般仓库更受欢迎。比如老大哥antfu写的unplugin系列,远比unocss流行,充其量只能做到像tailwindcss那样的主分流线,有创始人的意思。unplugin系列包罗万象,这种高度兼容的工具会变得像vue或者像vite。
国内很多新手眼界狭窄,从来不愿意去思考跨领域的问题。他们只觉得当下就是一切,盲目是危险的。像我,不仅广泛浏览和思考世界上优秀的UI设计,还开发了一些全栈的网页,降维操作的桌面app。我可以实时查看GitHub感兴趣的仓库代码的变化,从源头梳理开发者的思路。虽然不能主动提出科研问题,但是每个月都能体会到自己的一点点灵感。越前沿越国际化的东西,其实最后都是通用的。你感受到的痛点何爽在节目领域总是有一种类似的群体感,所以每天的更新迭代可以逐渐趋于一致。
如果你长期遵循这些顶级开发者的逻辑,渐渐的你就会有他们视角之外的想法,从而提出改进的建议或者干脆自己做一个拉。在追nuxt3的更新中,我认识了中国的大安福。外国人愤怒地称赞他是十大之一,有无限的能量和灵感。更重要的是,人们愿意为开源服务。当我在追逐ncnn项目时,我认识了像倪慧这样的大人物。虽然不如安富多产,但确实在把纸变成普通人的工具上有所突破。这次微软神经网络语音合成让我认识了国内人工语音合成专家徐坦谭旭。追这些顶尖选手的过程很有趣,见识也大大增加。他们不怕失败或错误。当你把新想法付诸实践时,如果你没有99%失败,那就证明你的工作没有创造性。这也是我连续几个月挑战多个领域的一个现实动作,每个月一个新品。高产出、高实践、高挫折也带给我无限的喜悦、兴奋和自豪。