开源大模型新近开启了一项实用本领,即直接朝着 AI 讲话便可展开双语对话,这已并非只是一个仅存于实验室的构想,任何人均可以去亲身感受体验 。
语音交互的真正意义
语音聊天被视作是比单纯文本更加自然的交互方式,诸多日常场景,像是处在开车的时候、手被占用的情况下,语音输入远比打字来得便利,该技术把AI从“打字机”转变成为了潜在的“对话伙伴”。
对于开发者来讲,语音交互开启了新的应用想法,在未来,我们没准能够凭借说话去直接操控智能家居,开展外语学习对话,甚至“光动嘴不动手”地撰写代码草稿,它使得AI的接入形式变得愈发无缝与人文化 。
技术架构如何实现
LLaSM模型不是从无开始搭建框架,而是以巧妙的方式将现有的成熟组件进行整合,它主要分成三个部分,一部分是自动语音识别模型,一部分是被称作“模态适配器”的连接架构,还有一部分是作为核心的大语言模型LLaMA,确实无疑,真实确凿 。
这种设计思路极为务实,规避了重复造轮这一情况。研究团队把重点着重安置于怎样使语音与文本这两种各异模态的信息能够被大模型理解且处理之上,借助适配器去对齐两种信号,进而赋予大模型“听”的能力 。
两个阶段的训练过程
模型的训练被划分成两个关键阶段,第一阶段,团队把语音编码器与大模型的参数予以固定状态,仅仅对中间的模态适配器展开训练,这个阶段所设定的目标是要让适配器达成将语音特征精准映射至文本特征的空间里 。
第二阶段,他们对语音编码器予以固定,接着转而开展模态适配器与后续大语言模型的联合训练。此阶段的目标在于,使整个系统能够基于所听到的语音内容,达成连贯且合理的多轮对话,切实掌握多模态对话能力。
数据集的构建与挑战
致使这个模型接受训练,研究团队搭建起一个称作 LLaSM-Audio-的数据集,此数据集涵盖了大概 19.9 万个对话以及 50.8 万个语音 - 文本配对样本,属于当下规模最大的中英文语音 - 文本指令遵循数据集 。
那些数据不全源自真实录音,研究人员依据多个现存的高质量文本对话数据集,借助文本转语音技术生成了相应的语音,且进行了严格过滤,此数据集自身也会开源,为后续研究提供宝贵资源 。
实际体验中的优势与不足
于实际试玩期间,LLaSM呈现出其核心亮点,即流畅地处置中英文单独的提问,且能够借助录音或者文本进行自由输入。比如说,以英文促使它对中国诗人李白予以评价,它能够给出具有平衡性、客观性的回应。
然而,当遭遇到中英文交织的繁杂指令之际,模型的表现就并非那般稳定了。有时它会佯装听不懂,仅仅输出英文;在极为极端的测试案例当中,它甚至有可能陷入循环不息的输出状态而难以终止。这暴露出其于处理复杂混合语言场景之时所存在的局限性。
开源带来的可能性
初创公司.AI、北京大学以及零一万物公司共同开展了该模型的研发工作,且该模型已然实现了完全开源。开源所带来的情况是,全球范围内的开发者以及研究者能够免费对其予以使用,还能够进行修改,并且还能于这一基础上面做创新.
语音交互应用的开发进程被这加速了,企业能够把它集成到客服系统、教育软件或者智能硬件里,却不用支付高昂的授权费用,也不用从头开始进行研发,技术应用的门槛被极大地降低了。
当你看过介绍之后,对于那种具备能够“听”以及会说双语能力的AI而言,你最为感兴趣的应用场景会是怎么样的,究竟是教育辅导方面还是智能助理方面,又或者是其他更具创意的领域,欢迎你在评论区当中分享出你的想法,要是你感觉本文是有帮助作用的,那么也请你进行点赞予以支持。


