当前,国内AI人工智能应用大爆发。DeepSeek的横空出世让AI加速普及,AI正以前所未有的速度重塑各行各业。在深入推进“人工智能+行动”的指引下,中国科技企业以独特的路径在全球竞争中脱颖而出。在这一过程中,本土化的深度洞察与技术创新相结合,为AI应用快速普及与落地铺平道路。
4月7日,趣丸科技首款搭载SOTA模型的AI语音应用——趣丸千音(英文名:All Voice Lab)开启邀测。
作为全球领先的AI语音创作平台,趣丸千音旨在提供一站式智能语音解决方案。平台集成文本转语音、视频翻译、多语种合成等能力,是业界首个从模型到应用全面赶超国际先进水平的AI语音产品,适用于影视动漫、有声读物、新闻传媒、文旅导览等多个行业,全流程革新内容创作与国际传播,为用户带来前所未有的沉浸式体验。
综合能力全球领先,赶超国际先进水平
趣丸千音坚持以用户需求驱动产品创新,致力于给企业和创作者带来更智能、更高效、更卓越的产品体验,首批面向大众开放的功能如下:
视频翻译:一站式Agent工作流,上传视频自动完成“字幕擦除-翻译-配音-后期-成片交付”。单次批量上传最大支持40G,是业界首个实现工业化量产水平的产品,颠覆全球化内容生产模式。
文本转语音:输入文本即配音,自动识别多种语言,可选择不同音色和调节语速,满足复杂场景的精细化需求。
有声书:一站式Agent工作流,上传长篇文本自动生成有声书或播客。支持多种文件格式、多角色分配和段落编辑,能够制作更具有情感表现力的有声读物,让每个故事和角色都栩栩如生。
在MaskGCT(Masked Generative Codec Transformer)模型能力支持下,趣丸千音在语音相似度、准确率、质量和稳定性上均领先于同类产品,同时支持支持中文、英语、日语、法语、德语、韩语等多语种生成,能够提供全球化的语音输出。
MaskGCT是趣丸科技与香港中文大学(深圳)联合研发的开源语音大模型,采用掩码生成模型与语音表征解耦编码的创新范式,曾登顶GitHub趋势榜榜首。该模型在全球最大且最为多样的高质量多语种语音数据集之一“Emilia”上进行训练,展现出超自然的风格迁移及跨语言生成能力。实验表明,模型在多个TTS基准数据集上都达到了SOTA效果,超过当前最先进的同类模型。
此外,记者使用趣丸千音与ElevenLabs、Open AI gpt-4o-mini-tts进行绕口令“烫嘴挑战”。实测发现,趣丸千音的中文生成效果明显更优,在停顿、韵律、音准表现上更自然流畅、媲美真人。
解决真实场景需求,打造AI语音的“特斯拉时刻”
趣丸科技从模型自研到产品创新均以用户需求为导向,这让趣丸千音得以率先在垂直纵深场景中开辟出差异化的应用路径。目前,趣丸千音在影视动漫、有声读物、新闻传媒、文旅导览、在线教育等领域应用场景广阔。
这种“小切口大机会”的逻辑,与特斯拉用Model S打开电动车市场异曲同工:先用极致效率攻克一个高需求场景,再以标准化能力横向吞噬百亿市场。据《2024全球数字内容产业报告》,仅媒体与泛娱乐领域的多语言翻译需求规模已超650亿美元,而趣丸千音正成为这条赛道的核心基建。
以微短剧应用场景为例,作为中国文化出海“新三样”,微短剧正在海外刮起强劲“中国风”。国家广播电视总局国际合作司公布的数据显示,中国微短剧海外应用已突破300款,全球累计下载量逾4.7亿次;中国微短剧产品已覆盖全球200余个国家和地区。
短剧出海的爆发,也让译制剧加速成为出海内容的主体。而传统人工译制流程周期长、成本高昂正成为制约短剧作品“走出去”的一大瓶颈。目前,趣丸千音的视频翻译功能可实现12小时译制1000分钟剧集,效率较人工提升10倍+,成本下降15倍+,让译制行业在AI赋能下迈入工业化量产新纪元,为中国优秀作品按下出海“倍速键”。
这组数据背后,不仅让支持45分钟单次上传的ElevenLabs望尘莫及,也是工业化能力对实验室原型的降维打击。
AI的未来,不是某一个企业的未来,而是整个产业生态的未来。趣丸科技始终坚持科技开发造福社会,最大化发挥AI的价值,帮助更多个人用户和企业用得上、用得起、用得好先进的模型与产品,携手更多行业伙伴共建产业生态圈,迈向高质量发展新阶段。