智元发布全国首个通用具身基座模型ViLLA
2025年3月10日,国内人工智能领军企业智元科技在北京国家会议中心正式发布“智元启元大模型(Genie Operator-1)”,即全国首个通用具身基座模型ViLLA。这一成果的发布标志着中国在通用人工智能领域取得了重大技术跃迁。
智元启元大模型GO-1开创性地提出了Vision-Language-Latent-Action(ViLLA)架构,该架构由VLM(多模态大模型)+MoE(混合专家)组成,实现了多模态深度融合。通过三层异构神经网络构建感知决策闭环,包括采用动态注意力机制的视觉模块、集成多轮对话上下文记忆的语言引擎,以及独创的将抽象指令转化为可执行动作序列的Latent Action空间。
GO-1大模型具备四大特点:一是人类视频学习,能结合互联网视频和真实人类示范进行学习,增强对人类行为的理解;二是小样本快速泛化,能在极少数据甚至零样本下泛化到新场景、新任务,降低了具身模型的使用门槛;三是一脑多形,作为通用机器人策略模型,能在不同机器人形态之间迁移,快速适配到不同本体;四是持续进化,搭配智元一整套数据回流系统,能从实际执行遇到的问题数据中持续进化学习。
在测试中,GO-1大模型展现出跨场景任务迁移能力,并在多种任务中表现优异。基于启元基座开发的具身智能终端已进入规模化测试阶段,在工业质检、智能家居、医疗护理等领域展现出广泛应用前景。