引言
随着AI大模型的发展,由Open AI引领的ChatGPT热潮已经展现出了强大的实力。文本大模型在近期取得了突飞猛进的成果,而语音合成大模型也在近些年发生了非常快的迭代。
不同于传统语音合成所面临的挑战,如缺乏人声自然度、情感化表达能力,生成音色的可扩展性低、难以满足不同场景的多样化需求,复刻素材所需成本高且耗时长等多方面因素。
Part1
目前,语音合成大模型在音质、断句气口、韵律节奏、风格、感知等多个方面都达到了更生动、更具情感表现力的听觉体验。亚马逊更是推出了10万小时数据训练的BASE TTS模型,这是一款具有10亿参数的多语言、多说话人的TTS系统。
同样可以做到高度还原生成AI声音的字节跳动旗下产品Mega-TTS,它将语音分解为四种属性,即内容,音色,韵律,相位,轻松做到在音色与韵律等多方面都能够极高还原用户输入音频的发声特点。
语音合成大模型已经在各种APP等应用中落地,人们对于语音的需求也变得更加多样化。在这个过程中,我们看到,对于音色的个性化和自然化的需求逐渐增加。越来越多的用户希望在语音合成中体验到自己独特的风格和特点,这促使技术不断向个性化方向迭代。
Part2
无论是在广告、娱乐还是教育领域、新闻资讯、数字人等多个场景,个性化的语音合成都在持续释放强大的实力。特别是在方言和外语领域,随着全球化进程的不断推进,对于这些语言的需求也在不断增加。
人们希望能够通过语音合成技术来更好地表达自己,同时也能更好的理解和交流不同文化背景下的信息。因此,语音合成技术不仅需要在音色、韵律等方面进行个性化处理,还需要在多种语言和方言方面做到丰富的积累,以满足不同用户群体的需求。
例如,小堂整理了部分近期热门语音合成数据需求样例,数据集均由本土发音人录制,语料音素覆盖均衡,专业语言学家参与标注,精准匹配语音合成的研发需求。
样例一
拥有一个个性化的语音助手意味着我们不再满足于与其进行机械的对话,而是期待与一个真实的人进行互动。比如,当一个虚拟的“霸道总裁”用严肃的语气说话时,我们可以根据他的人设来理解他可能是生气、认真,甚至可能是在嘴硬地撒娇。这种个性化的风格赋予了语音助手更为丰富的情感和人性化特质,使得交流更加自然、贴近生活。
样例二
方言和地域语言是一个非常复杂的问题,尽管如此,仍然有很多人在日常生活中使用他们当地的方言。以潮汕话和客家话为例,它们是汉语言体系下的两种方言。我们可以根据这些方言的语法规则和特有的音标,将它们整合到我们拉丁字母为基础的标注语言系统中,从而使这些方言能够被应用到我们的语音合成技术中。这种整合为人们提供了更加丰富和多样化的语音合成选择,更好地满足了不同地区、不同群体的语言需求。
样例三
当涉及到外语与地域之间的关系时,情况更为复杂。许多语言并不仅仅在其所在国家作为官方语言存在,这涉及到历史、民族等诸多因素。以美国和新西兰为例,尽管它们都以英语为官方语言,但口音和发音存在一些差异。因此,我们将这些不同的口音和发音整合到我们的标注语言系统中,以确保外语的语音合成也能够包含方言特色。这种整合不仅使语音合成更具多样性,也更好地满足了不同地区、不同群体对于语音合成的需求。
样例四
自然对话是指发言人在录制过程中纯自然、无给定文本的一种录制方式。在纯自然对话的过程中,收集其中的副语言,对预训练好的口语化模型进行微调,最终实现可控的、自然的口语化合成效果。标注内容分别为换气、停顿、犹豫、嘴瓢、拖音、咳嗽、笑声、结巴重复、倒装和语气词等,最终根据发音人实际音频进行副语言标签补充。
结语
数据堂基于海量语音合成项目实施经验,通过高质量的录音软硬件环境,拥有丰富的声优资源库,积累了超220小时的中文方言音库,300+时长的外语音库以及400+时长的样音库,帮助客户提供高音质、多场景、多类别的语音合成数据解决方案。
同时,数据堂拥有一整套完善的语音合成数据质量和安全管理体系,为TTS项目注入多年项目积累经验,满足语音合成技术朝着更加个性化、自然化和多样化方向的发展。
随着AI大模型的发展,由Open AI引领的ChatGPT热潮已经展现出了强大的实力。文本大模型在近期取得了突飞猛进的成果,而语音合成大模型也在近些年发生了非常快的迭代。
不同于传统语音合成所面临的挑战,如缺乏人声自然度、情感化表达能力,生成音色的可扩展性低、难以满足不同场景的多样化需求,复刻素材所需成本高且耗时长等多方面因素。
Part1
目前,语音合成大模型在音质、断句气口、韵律节奏、风格、感知等多个方面都达到了更生动、更具情感表现力的听觉体验。亚马逊更是推出了10万小时数据训练的BASE TTS模型,这是一款具有10亿参数的多语言、多说话人的TTS系统。
同样可以做到高度还原生成AI声音的字节跳动旗下产品Mega-TTS,它将语音分解为四种属性,即内容,音色,韵律,相位,轻松做到在音色与韵律等多方面都能够极高还原用户输入音频的发声特点。
语音合成大模型已经在各种APP等应用中落地,人们对于语音的需求也变得更加多样化。在这个过程中,我们看到,对于音色的个性化和自然化的需求逐渐增加。越来越多的用户希望在语音合成中体验到自己独特的风格和特点,这促使技术不断向个性化方向迭代。
Part2
无论是在广告、娱乐还是教育领域、新闻资讯、数字人等多个场景,个性化的语音合成都在持续释放强大的实力。特别是在方言和外语领域,随着全球化进程的不断推进,对于这些语言的需求也在不断增加。
人们希望能够通过语音合成技术来更好地表达自己,同时也能更好的理解和交流不同文化背景下的信息。因此,语音合成技术不仅需要在音色、韵律等方面进行个性化处理,还需要在多种语言和方言方面做到丰富的积累,以满足不同用户群体的需求。
例如,小堂整理了部分近期热门语音合成数据需求样例,数据集均由本土发音人录制,语料音素覆盖均衡,专业语言学家参与标注,精准匹配语音合成的研发需求。
样例一
拥有一个个性化的语音助手意味着我们不再满足于与其进行机械的对话,而是期待与一个真实的人进行互动。比如,当一个虚拟的“霸道总裁”用严肃的语气说话时,我们可以根据他的人设来理解他可能是生气、认真,甚至可能是在嘴硬地撒娇。这种个性化的风格赋予了语音助手更为丰富的情感和人性化特质,使得交流更加自然、贴近生活。
样例二
方言和地域语言是一个非常复杂的问题,尽管如此,仍然有很多人在日常生活中使用他们当地的方言。以潮汕话和客家话为例,它们是汉语言体系下的两种方言。我们可以根据这些方言的语法规则和特有的音标,将它们整合到我们拉丁字母为基础的标注语言系统中,从而使这些方言能够被应用到我们的语音合成技术中。这种整合为人们提供了更加丰富和多样化的语音合成选择,更好地满足了不同地区、不同群体的语言需求。
样例三
当涉及到外语与地域之间的关系时,情况更为复杂。许多语言并不仅仅在其所在国家作为官方语言存在,这涉及到历史、民族等诸多因素。以美国和新西兰为例,尽管它们都以英语为官方语言,但口音和发音存在一些差异。因此,我们将这些不同的口音和发音整合到我们的标注语言系统中,以确保外语的语音合成也能够包含方言特色。这种整合不仅使语音合成更具多样性,也更好地满足了不同地区、不同群体对于语音合成的需求。
样例四
自然对话是指发言人在录制过程中纯自然、无给定文本的一种录制方式。在纯自然对话的过程中,收集其中的副语言,对预训练好的口语化模型进行微调,最终实现可控的、自然的口语化合成效果。标注内容分别为换气、停顿、犹豫、嘴瓢、拖音、咳嗽、笑声、结巴重复、倒装和语气词等,最终根据发音人实际音频进行副语言标签补充。
结语
数据堂基于海量语音合成项目实施经验,通过高质量的录音软硬件环境,拥有丰富的声优资源库,积累了超220小时的中文方言音库,300+时长的外语音库以及400+时长的样音库,帮助客户提供高音质、多场景、多类别的语音合成数据解决方案。
同时,数据堂拥有一整套完善的语音合成数据质量和安全管理体系,为TTS项目注入多年项目积累经验,满足语音合成技术朝着更加个性化、自然化和多样化方向的发展。