“从动物进化到人类”,理想汽车推出VLA 司机大模型
长沙晚报掌上长沙5月8日讯(全媒体记者 曹开阳)5月7日晚,理想汽车推出“理想AI Talk第二季——理想VLA司机大模型,从动物进化到人类”,理想汽车董事长兼CEO李想分享了对于人工智能的最新思考,VLA(
Vision-Language-ActionModel,视觉语言行动模型)司机大模型的作用、训练方法和挑战,以及对于创业和个人成长的见解。

李想将AI工具分为三个层级,分别是信息工具、辅助工具和生产工具。目前,大多数人将AI作为信息工具使用,但信息工具常伴随大量无效信息、无效结果和无效结论,仅具参考价值。成为辅助工具后,AI可以提升效率,例如现在的辅助驾驶,但仍需人类参与。未来,AI发展为生产工具后,将能独立完成专业任务,显著提升效率与质量。李想认为,只有当人工智能变成生产工具,才是其真正爆发的时刻。就像人类会雇用司机,人工智能技术最终也会承担类似职责,成为真正的生产工具。”VLA的实现不是突变的过程,是进化的过程目前的L2、L2+组合驾驶辅助仍属于辅助工具阶段,而VLA能够让AI真正成为司机,成为交通领域的专业生产工具。对理想汽车而言,未来的VLA就是一个像人类司机一样工作的司机大模型”。VLA的实现不是一个突变的过程,是进化的过程,经历了三个阶段,对应理想汽车辅助驾驶的昨天、今天和明天。
第一阶段,理想汽车自2021年起自研依赖规则算法和高精地图的辅助驾驶,类似“昆虫动物智能”。第二阶段,理想汽车自2023年起研究,并于2024年正式推送的端到端+VLM(Vision Language Model,视觉语言模型)辅助驾驶,接近“哺乳动物智能”。端到端模型在处理复杂问题时存在局限,虽可借助VLM视觉语言模型辅助,但VLM使用开源模型,使其在交通领域的能力有限。同时端到端模型也难以与人类沟通。为了解决这些问题并提升用户的智能体验,理想汽车自2024年起开展VLA研究,并在多项顶级学术会议上发表论文,夯实了理论基础。在端到端的基础上,到第三阶段,VLA将开启“人类智能”的阶段。它能通过3D和2D视觉的组合,完整地看到物理世界,而不像VLM仅能解析2D图像。同时,VLA拥有完整的脑系统,具备语言、CoT(Chain of Thought,思维链)推理能力,既能看,也能理解并真正执行行动,符合人类的运作方式。VLA训练过程模拟人类学习,对齐人类价值观VLA的训练分为预训练、后训练和强化训练三个环节,类似于人类学习驾驶技能的过程。预训练相当于人类学习物理世界和交通领域的常识,通过大量高清2D和3D Vision(视觉)数据、交通相关的Language(语言)语料,以及与物理世界相关的VL(VisionLanguage,视觉和语言)联合数据,训练出云端的VL基座模型,并通过蒸馏转化为在车端高效运行的端侧模型。后训练相当于人类去驾校学习开车的过程。随着Action(动作)数据的加入——即对周围环境和自车驾驶行为的编码,VL基座变为VLA司机大模型。得益于短链条的CoT,以及Diffusion扩散模型对于他车轨迹和环境的预测,VLA具备实时性的特点,实现了在复杂交通环境中的博弈能力。强化训练类似于人类在社会中实际开车练习,目标是让VLA司机大模型更加安全、舒适,对齐人类价值观,甚至超越人类驾驶水平。强化训练包含两部分:一是通过RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习)完成安全对齐,使模型遵守交通规则,贴合中国用户的驾驶习惯;二是将纯强化学习模型放入世界模型中训练,提升舒适性,避免碰撞事故,遵守交通规则。经过预训练、后训练和强化训练后,VLA司机大模型即可部署至车端运行。
从使用增程电动和5C超充技术解决电池成本高、充电难、充电慢的问题,到自研汽车操作系统攻克传统汽车操作系统性能差、开发缓慢、芯片匹配周期长等挑战,理想汽车始终以技术创新解决行业无法解决的问题。李想表示,当前辅助驾驶走到了新的十字路口上,理想汽车将不断挑战成长的极限,持续为行业和用户创造价值。
相关推荐
-
“从动物进化到人类”,理想汽车推出VLA 司机大模型 长沙晚报掌上长沙5月8日讯(全媒体记者 曹开阳)5月7日晚,理想汽车推出“理想AI Talk第二季——理想VLA司机大模型,从动物进化到人类”,理想汽车董事长兼CEO李想分享了对于人工智能的最新思考,VLA(Vision-Language-ActionModel,视觉语言行动模型)司机大模型的作用、
实时讯息 05-08
-
掌握核心科技!小米汽车公布“风刀”专利 【ZOL中关村在线原创新闻】5月6日消息,据企查查APP显示,小米汽车科技有限公司近日申请的“风刀、前保险杠总成和车辆”专利已正式公布。从专利摘要来看,此次申请的风刀发明结构独特,由主体段和延长段构成。延长段设置在主体段左右方向的一侧,并沿主体段上下方向延伸。延长段还包含用于与车身连接的第一固定部和
实时讯息 05-07
-
图像生成新星Recraft获3000万美元B轮融资 IT之家 5 月 6 日消息,在图像生成领域一鸣惊人的初创公司 Recraft 宣布完成了一轮 3000 万美元(IT之家注:现汇率约合 2.17 亿元人民币)的 B 轮融资,本轮融资由 Accel 领投,Khosla Ventures 和 Madrona 等投资机构也参与其中。Recraft 总部
实时讯息 05-06
-
地球上只有人类这个物种发展出自然保护的概念 科普人花蚀(帕索卡/图)“能活着让社区赚钱的鸟儿,人不会让它死”无论是北京的玉渊潭公园,还是上海的大宁公园,或是广州的流花湖公园,越来越多拿着专业摄影设备的人来到这里,等候着鸟儿的到来。2025年春天,演员李现到北京玉渊潭拍鸟的照片一度登上互联网热搜。在他的照片里,有鸬鹚捕鱼,苍鹭展翅。在城市中生活
实时讯息 05-05
-
以科技创新引领新质生产力发展 本报记者4月29日,习近平总书记在上海考察并发表重要讲话。习近平总书记的重要讲话鼓舞人心、催人奋进,激励广大干部群众团结奋斗、锐意进取。大家表示,要深入贯彻习近平总书记重要讲话精神,抢抓机遇,以服务国家战略为牵引,以科技创新引领新质生产力发展,培育高质量发展新动能,在推进中国式现代化的火热实践中不断
实时讯息 05-01