深度解析:基于微软TTS的文本转语音源码构建过程

源码介绍

基于微软语音合成SDK构建的JavaScript文本转语音语音转文本项目,前端我采用的是当下流行的Bootstrap V4,本版本和功能和官网几乎一致,相对于《微软文字转语音网页源码》更加强大,目前你该功能已上线在线工具并且是免费使用的。

特色功能

微软的语音项目可以说是地表最强的存在,完全听不出Ai的感觉,在如今这个自媒体时代,很多人都在做抖音剪辑或其他平台的视频剪辑,但是又觉得自己的声音不好听或是没有专业的录音设备,那么文本转语音就能帮你解决一切难题!

文本转语音(textToSpeech)

采用微软认知TTS语音合成引擎技术开发,可以将文字转换为堪比真人发声的Ai语音,支持多种语音转换,可调节语速、音调以及可阅读情感等,本工具广泛用于新媒体运营,支持试听也可转换成的语音下载到本。

【牛牛源码】基于微软TTS语音合成项目构建的文本转语音源码-牛牛源码库
  • 逼真的合成语音:实现与人声的语调和情感匹配的流畅、发音自然的文本转语音。
  • 可自定义文本讲述者语音:创建反映品牌形象的独特 AI 语音生成器。
  • 细化的文本转语音控件:通过轻松地调整语速、音调、发音和停顿等,为你的方案优化语音输出。
  • 多国语言支持:跨 129 种语言和变体的 330 多种神经网络声音吸引全球受众。

语音转文本(speechToText)

将可听语音转录成可读的、可搜索的文本,使口述音频可操作,快速准确地将音频转录为超过 100 种语言和变体中的文本。对模型进行自定义设置以提高特定于域的术语的准确性。通过对转录文本或启用操作启用搜索或分析,从语音音频中获得更多价值,所有这些操作均以首选编程语言提供。

【牛牛源码】基于微软TTS语音合成项目构建的文本转语音源码-牛牛源码库
  • 高质量听录:使用先进的语音识别获取准确的音频转文本听录。
  • 可自定义模型:将特定单词添加到基本词汇或构建自己的语音转文本模型。
  • 灵活的部署:在任意位置(在云中或容器边缘)运行语音转文本。
  • 生产就绪:访问跨 Microsoft 产品支持语音识别的同一可靠技术。

常规参数

语言语音

不同的国家或地区有不同的语音(发音人),这里我只写大陆和特别地区的发音,完整的还是需要结合官网查看,官网写得更详细,参考现有的矩阵结合官网说明语音支持

大陆地区:

编号 代码 人物 性别 版本
1 zh-CN-XiaoxiaoNeural 晓晓 正式版
2 zh-CN-YunyangNeural 云扬 正式版
3 zh-CN-XiaochenNeural 晓辰 正式版
4 zh-CN-XiaohanNeural 晓涵 正式版
5 zh-CN-XiaomoNeural 晓墨 正式版
6 zh-CN-XiaoqiuNeural 晓秋 正式版
7 zh-CN-XiaoruiNeural 晓睿 正式版
8 zh-CN-XiaoshuangNeural 晓双 正式版
9 zh-CN-XiaoxuanNeural 晓萱 正式版
10 zh-CN-XiaoyanNeural 晓颜 正式版
11 zh-CN-XiaoyouNeural 晓悠 正式版
12 zh-CN-YunxiNeural 云希 正式版
13 zh-CN-YunyeNeural 云野 正式版
14 zh-CN-XiaomengNeural 晓梦 预览版
15 zh-CN-XiaoyiNeural 晓伊 预览版
16 zh-CN-XiaozhenNeural 晓甄 预览版
17 zh-CN-YunfengNeural 云枫 预览版
18 zh-CN-YunhaoNeural 云皓 预览版
19 zh-CN-YunjianNeural 云健 预览版
20 zh-CN-YunxiaNeural 云夏 预览版
21 zh-CN-YunzeNeural 云泽 预览版

香港地区:

编号 代码 人物 性别 版本
1 zh-HK-HiuMaanNeural 曉曼 正式版
2 zh-HK-HiuGaaiNeural 曉佳 正式版
3 zh-HK-WanLungNeural 雲龍 正式版

台湾地区:

编号 代码 人物 性别 版本
1 zh-TW-HsiaoChenNeural 曉臻 正式版
2 zh-TW-HsiaoYuNeural 曉雨 正式版
3 zh-TW-YunJheNeural 雲哲 正式版

特别注意:预览版声音只在美国东部、西欧和东南亚这三个区域提供。

说话风格

DavisNeural、JaneNeural、JasonNeural、NancyNeural 和 TonyNeural 的愤怒、欢快、兴奋、友好、充满希望、悲伤、大喊大叫、惊恐、不友好和低语风格只在美国东部、西欧和东南亚这三个服务区域提供。 若要了解如何配置和调整神经网络声音风格和角色,请参阅语音合成标记语言

风格 说明
style=”advertisement-upbeat” 用兴奋和精力充沛的语气推广产品或服务。
style=”affectionate” 以较高的音调和音量表达温暖而亲切的语气。 说话者处于吸引听众注意力的状态。 说话者的个性往往是讨喜的。
style=”angry” 表达生气和厌恶的语气。
style=”assistant” 以热情而轻松的语气对数字助理讲话。
style=”calm” 以沉着冷静的态度说话。 语气、音调和韵律与其他语音类型相比要统一得多。
style=”chat” 表达轻松随意的语气。
style=”cheerful” 表达积极愉快的语气。
style=”customerservice” 以友好热情的语气为客户提供支持。
style=”depressed” 调低音调和音量来表达忧郁、沮丧的语气。
style=”disgruntled” 表达轻蔑和抱怨的语气。 这种情绪的语音表现出不悦和蔑视。
style=”embarrassed” 在说话者感到不舒适时表达不确定、犹豫的语气。
style=”empathetic” 表达关心和理解。
style=”envious” 当你渴望别人拥有的东西时,表达一种钦佩的语气。
style=”excited” 表达乐观和充满希望的语气。 似乎发生了一些美好的事情,说话人对此非常满意。
style=”fearful” 以较高的音调、较高的音量和较快的语速来表达恐惧、紧张的语气。 说话人处于紧张和不安的状态。
style=”friendly” 表达一种愉快、怡人且温暖的语气。 听起来很真诚且满怀关切。
style=”gentle” 以较低的音调和音量表达温和、礼貌和愉快的语气。
style=”hopeful” 表达一种温暖且渴望的语气。 听起来像是会有好事发生在说话人身上。
style=”lyrical” 以优美又带感伤的方式表达情感。
style=”narration-professional” 以专业、客观的语气朗读内容。
style=”narration-relaxed” 为内容阅读表达一种舒缓而悦耳的语气。
style=”newscast” 以正式专业的语气叙述新闻。
style=”newscast-casual” 以通用、随意的语气发布一般新闻。
style=”newscast-formal” 以正式、自信和权威的语气发布新闻。
style=”poetry-reading” 在读诗时表达出带情感和节奏的语气。
style=”sad” 表达悲伤语气。
style=”serious” 表达严肃和命令的语气。 说话者的声音通常比较僵硬,节奏也不那么轻松。
style=”shouting” 就像从遥远的地方说话或在外面说话,但能让自己清楚地听到
style=”sports-commentary” 用轻松有趣的语气播报体育赛事。
style=”sports-commentary-excited” 用快速且充满活力的语气播报体育赛事精彩瞬间。
style=”whispering” 说话非常柔和,发出的声音小且温柔
style=”terrified” 表达一种非常害怕的语气,语速快且声音颤抖。 听起来说话人处于不稳定的疯狂状态。
style=”unfriendly” 表达一种冷淡无情的语气。
© 版权声明
THE END
喜欢就支持一下吧
点赞8 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容