人工智能正在重塑千行百业,在智能电动汽车领域,端到端正在改写自动驾驶的竞争格局,大模型也正在重塑智能座舱的产品形态和用户体验。
01
眼睁睁看着朱颜辞镜花辞树的人们经常感慨,这个世界上唯一不变的就是变化。
不过,如果把时间段缩短一些,有一些东西还未曾发生改变,比如对电子系统的认知方法论。
过去二十年,电子系统经过了数字化、互联网化和智能化的三次范式变革,伤透了电子专业授课老师的脑壳。
吃过的盐比年轻老师走过的路还要多的老教师总会传授准确把握这类系统的黄金法则:在变化中寻找不变,以不变应万变,电子系统的分析和处理始终遵循输入-处理-输出的三段论。
只不过,到了人工智能时代,输入变成了感知,处理变成了决策,输出变成了执行,表面上换了个马甲,但内里依然是换汤不换药。
在端到端自动驾驶方案出现之前,感知-决策-执行正是分模块自动驾驶方案中的三大模块。
包含自动驾驶系统在内的智能系统虽然在实现形式上都在纷纷转向全面AI化的端到端,但是,系统的底层逻辑和分析方法依然遵循感知-规划-控制的三段论。
大模型对智能座舱系统的改造首先体现在感知层面,基于触控的规则式反应进化到基于听觉的语音小模型之后,再度进化成了听觉、视觉融合的多模态感知大模型。
融合听觉、视觉信息的核心作用是扩大人和智能座舱的交互带宽。
据悉,人类通过视觉接收80%的信息,文字表达的信息只有20%。
之所以重要的事情不能在微信上通过文字进行交流,而是要面对面交谈,其主要原因就在这里,文字传递的信息太少了,不知怎么着,对方就会错了意。
除了干巴巴的文字,其它各种各样丰富的信息需要通过手势、表情、语气、肢体动作进行传递,稍微有点人生的经验,就知道这是一个颠扑不破的真理。
02
人世间最大的深情莫过于面对面,还在想着你,世上最大的薄情莫过于面对面,你却说“我不懂你”。
之前的智能座舱经常被称为人工智zhang,核心原因就在于“它不懂你”。
之所以出现鸡同鸭讲、驴头不对马嘴的尴尬,核心原因有三。
第一,用户之前只能通过语音或触控单模态地表达需求,承载用户意图的更多丰富信息传递不过去,自然不可能“懂你”。
大模型的出现使得座舱可以融合语音、视觉、按键、触控等多维度的信息,通过空间智能感知全方位地接收用户表达需求的信息,理解用户意图。
第二,AI小模型缺乏大模型的注意力机制,只能处理用户的即时需求,大模型可以生成连续时空信息,建立长时序处理能力,就可以将单一场景、单一任务的交互升级成为多场景、多任务的交互。
之前的智能座舱交互之所以有很强的机械感,主要原因就在于座舱满足多场景多任务的能力有限,用户体验被搞得零零碎碎,得不到连续的获得感。
第三,座舱的认知引擎不具备对自然语言的理解能力,没有唤醒词不行,方言听不懂,口语不支持,理解不了用户的词不达意和临时变更,无法满足用户对使用口语自然交流的需要。
空间感知在空间维度上增加了信息模态,长时序感知在时间维度上建立了连续一致性,空间感知和长时序感知综合形成了连续时空多模态感知,增强了智能系统的感知能力,迈出了机械交互走向自然交互的第一步。
GPT大模型具备超强的自然语言理解和自然语言生成能力,增强了智能系统的认知和决策能力,使得人类可以使用自然语言作为人机交互的内容载体,迈出了机械交互走向自然交互的第二步。从机械走向自然,当然会极大地提升用户的体验。
03
自古以来,劳心者治人,劳力者治于人,如果说感知对应眼睛和耳朵,执行对应手和脚,是智能座舱系统的劳力者,那么,认知中枢大模型对应大脑,是座舱系统的劳心者,在劳心方面,大模型最核心的能力便是自然语言交互和AIGC。
自然语言交互对应大模型的理解能力,AIGC对应大模型的生成和创造能力。
理解和生成显然是两种不同的能力,拿前面的认知方法论来套的话,前者对应感知,后者对应执行。
举个例子,我理解老婆有钱花、随便花的需求,但因为没有足够的物质实力,却只能夸她一句“你真美”-想得美。
大模型强大的生成能力不仅在于它全面压缩并灌注了人类世界的所有知识,可以做到上知天文、下知地理,更重要的是,它具备了以往互联网搜索技术提供不了的生成能力。
早在PC互联网时代,互联网就已经存储了人类世界的所有知识,但是,互联网自有一套匹配、过滤、隔离、排名机制,通过搜索自行寻找答案,远远比不上大模型即时反馈答案的效率。
更重要的,知识并不直接等于问题和答案,互联网可以存储所有知识,无法存储所有问题,不具备生成能力的搜索技术显然回答不了人类在千奇百怪的需求之下提出的各式各样的问题。
大模型技术具备“无中生有”的能力,可以以相当高的准确度自行组织语言,以缜密的逻辑来回答你的问题,从而充当懂车大师和百科老师。
作为超级大号移动终端,智能电动汽车内部丰富的设备、系统和大模型的推理、规划和执行能力更是天作之合。
用户在手机和PC上只能文生图、文生视频、图生图,但在智能电动汽车中,麦克风、摄像头、香氛机、氛围灯、显示屏、音响、座椅加热和振动单元等为大模型充分发挥自身实力提供了广阔的舞台和想象空间。
大模型以其多模态感知、GPT认知中枢和多智能体为用户提供了丰富的交互框架,重塑了人车交互的范式,在这场轰轰烈烈的人工智能+、+人工智能的运动中,智能电动汽车或许会成为所有智能终端设备中最亮的那一颗星。