2024年12月,随着中央经济工作会议的召开,中国人工智能(AI)产业迎来重要的政策指导期。在这一背景下,各大科技公司众彩纷呈。尤其近期,DeepSeek、字节跳动和小米等企业的最新动态,更是为国产AI大模型的商业化应用提供了生动的注解。
最近DeepSeek在AI社区引发轩然大波,其推出了大语言模型DeepSeek-R1及聊天机器人应用。据估算,DeepSeek-R1比OpenAI的ChatGPT-O1模型成本低95%,且计算能力需求仅为Meta的Llama3.1的十分之一。其通过算法创新实现计算能力的优化,突破了美国企业依赖海量数据输入和庞大计算资源的传统模式。
其次,字节跳动在其冬季FORCE原动力大会上宣布其自研的大模型“豆包”完成全面升级,推出了新的视觉理解模型。该模型不仅在内容识别和推理能力上表现卓越,而且其服务价格优势明显。
而小米则宣布正在建设大型GPU集群,旨在为业务的AI大模型发展提供强有力的支撑。其AI团队规模已超过3000人,显现出这一行业龙头对AI技术未来的重视与投入。随着算力基础设施投资的持续增加,AI应用将加速落地,推动整个产业的高速发展[1]。
2024年12月19日,闪极科技发布了AI眼镜“闪极AI拍拍镜”,该产品支持接入多种各具特色的大模型,如豆包和文心一言等。2025年1月7日-10日,全球最大的电子消费展CES 2025在美国拉斯维加斯盛大召开。继去年首次亮相后,李未可科技在此次展会上带来了即将在春季正式发布的AI拍摄眼镜MetaLens View,搭载自研多模态AI大模型WAKE-AI。
AI眼镜的发布标志着端侧AI的崛起,一种新的设备终端生态开始形成。未来AI大模型的发展一定是结合不同的应用场景。根据市场研究机构头豹研究院的测算,预计2028年中国终端AI市场规模将激增至19071亿元[2]。
这种趋势预示着,端侧AI技术正在迅速成熟,能够有效整合于PC、手机、可穿戴设备、车载中控屏等多种智能硬件之中,并应用于多种场景。接下来,将从AI大模型技术应用到多场景的角度进行专利技术的解析。
图1 闪极AI拍拍镜[3]
百度在2024年11月发布了小度AI眼镜产品,其于2023年便布局了相关专利CN116300092B,基于语音交互和智能眼镜的移动状态分析用户意图,从图像序列中筛选出用户感兴趣的目标图像并展示出来便于用户交互;并基于标记精确定位出用户感兴趣的图像内容,使得用户可以较低的复杂度和操作成本在智能眼镜进行图像内容搜索,提升了用户的使用体验。
又如杭州李未可科技有限公司2024年申请的专利CN118585071B,其公开了基于AR眼镜的多模态大模型的主动交互系统,同样将AI大模型技术结合到眼镜上面。通过集成多种交互模态,包括视觉、语音、手势和触觉等,利用先进的数据融合技术和机器学习算法,智能地处理并整合来自不同模态的信息,从而在复杂的使用环境中做出更加准确的决策,其提出的大模型眼镜能够识别并量化交互命令中的不确定性,通过触发辅助交互模态及时介入,确保了交互的准确性。
图3 李未可眼镜[5]
现有的问答系统面向通用知识领域,在用户进行问题搜索时,往往根据用户问题中的关键词在通用知识领域进行关键词匹配搜索,因此用户进行问题搜索时,往往不能准确理解用户的技术术语和问题描述,难以确保提供的答案正确有效。2024年三六零安全科技发布的儿童AI手表,其搭载了360智脑大模型。三六零安全科技2023年布局专利CN116955573B,通过对用户问题进行关键词提取,再进行知识检索,从而对用户问题进行问题描述增强,然后再进行检索得到答案信息,相对于直接根据用户问题检索对应答案信息的方式,能够提高问题搜索的效率,提高用户体验感。
图4 360儿童AI手表[6]
AI大模型技术融合到PC端和手机端均是从2023年下半年开始的。2023年底,联想抢先发布全球首款商务AI PC—ThinkPad X1 Carbon AI。2024年3月,苹果发布最新款MacBook Air,作为其首款AI PC产品,在M3芯片的加持下,macOS提供AI功能。2024年,市场部分PC产品已嵌入了一些AI技术,头部厂商推出从双向AI降噪、AI文生图创作,到搭载AI引擎、AI软件等功能。
2017年被业内视作“AI手机”元年,苹果、华为、三星等智能手机厂商纷纷自研AI大模型,全力布局AI手机并发掘更多有价值的AI应用。而在2023年各个智能手机厂商更是众彩纷呈。如2023年10月26日,高通骁龙8gen3发布,其离线终端可以运行百亿参数量大模型。2023年11月,华为宣布手机系统接入盘古大模型,开启内置大模型的语音助手“小艺”的众测。vivo推出自研AI大模型矩阵,并在11月发布了首款AI大模型手机X100。OPPO开发者大会上,操作系统ColorOS14正式亮相,首次内置了安第斯大模型(AndesGPT)。
接下来,针对AI大模型技术融合到PC端、手机端的专利技术,从产品的角度进行浅析。
Deepseek是杭州深度求索人工智能基础技术研究有限公司的子公司,其技术优势及特点主要是采用混合专家(MoE)架构,如DeepSeek-R1包含256个路由专家和1个共享专家,每个令牌可激活370亿个以上参数。共享专家捕捉通用知识,路由专家优化计算资源分配,使模型能更高效地处理各种任务,在保持高性能的同时降低计算成本。另一个相较于其他大模型的优势在于,DeepSeek采取开源模式,如DeepSeek-R1在MIT许可下发布,开发者可自由访问、修改和部署技术,提高了模型的透明度,能集众人之力进行改进,降低了AI应用门槛,吸引了更多开发者和企业参与到基于其模型的开发中。
图5 Deepseek产品图
在专利的布局方面,由于公司成立时间较短,以及专利审查的滞后性,目前公开的专利只有1项,即申请日为2024年的CN118246542A,通过将数据集切分为数据序列,以数据序列为单位建立索引,对索引进行操作而不直接操作数据的情况下,实现数据的按比例混合、打乱及切分操作,整个过程不会增加冗余数据存储,减少对存储、通信资源的消耗。
文心一言是百度打造出来的人工智能大语言模型,其在人机交互技术和视频交互技术方面具有一定的优势。
在人机交互方面,主要基于深度学习的Transformer架构,还涉及情感分析、知识图谱等算法,支持文本、语音、图像等多种输入方式,实现了多模态的交互体验,使得用户与机器之间的交流更加自然和便捷。在视频交互方面,用户可根据自己的需求,选择不同的语音、图像和动画风格,还能对生成的语音进行语速、音高和音量等方面的调整,生成符合个人喜好的视频,满足不同用户对视频风格和内容的多样化需求。
人机交互方面:2024年申请专利CN118606590B,通过浏览目标页面的对象的交互操作,来获取目标页面相关页面信息,并根据大模型处理页面信息得到的结构化反馈信息来向对象进行展示,从而可以基于结构化反馈信息来实现对页面信息的展示,使对象可以通过浏览结构化反馈信息,来提升用户的信息获取效率和信息浏览效率,进而提升用户的多模态交互体验。
视频交互方面:2024年申请专利CN118764681B和CN118764682B基于AIGC(中文释义)技术进行智能对话。基于视频的内容,采用大语言模型确定交互页面所关联的交互对象包括的虚拟对象;虚拟对象与视频中的角色相对应;以及响应于接收到针对视频的获取请求,将视频以及虚拟对象的标识信息发送给请求视频的终端设备,进而提升用户的参与感与沉浸度。
豆包是字节跳动研发的AI大模型,其采用拟人化和真实感的设计,用户可以通过文字、语音与豆包互动,其高逼真、拟人化的自然语言风格,让对话更加自然流畅。另外,其在图像生成方面也有着强大的实力。
在人机交互方面,豆包采用先进的深度学习算法和大规模语料库训练,能够精准解析用户输入的自然语言,理解其中的意图、情感和上下文信息。无论是简单的问题询问,还是复杂的指令表达,都能准确把握关键信息,并且豆包还支持多语种交互以及多模态交互。在图像处理方面,利用深度学习中的卷积神经网络等技术,能够对各种类型的图像进行精准分类,识别出图像中的物体、场景、人物等元素。可以准确判断图像是风景、动物、建筑还是其他类别,为进一步的图像处理和分析提供基础。其不仅能够识别图像中的物体和场景,还能理解图像所表达的语义信息。通过对图像中各种元素之间的关系进行分析,能够推断出图像所传达的故事、情感或主题,实现对图像更深入的理解。
人机交互方面,2018年布局专利CN108564833B,通过构建目标知识集合,进而确定应答语句的方式能够保证对话内容在用户的学习能力范围之内,进而可以巩固和提升用户对知识点的吸收率。此外,针对不同的用户,根据该用户对应的目标知识集合,向用户反馈与用户输入的第一源语句对应的第一应答语句,可以满足不同用户的个性化交互需求,提升用户的交互体验。
图像处理方面,2019年布局专利CN110475065B,通过基于特效图像帧的绘制帧率和原始图像帧的预览帧率之间的差值,控制图像预览过程中用于采集新的原始图像帧的分辨率,能够使特效处理过程中分辨率和帧率的智能化平衡,从而使得用户对相机预览效果和视频录制的满意度达到相对最佳,并且获得更优质的使用体验。
Kimi是北京月之暗面科技有限公司(以下简称“月之暗面”)开发的智能助手产品,其具备长文总结和生成、联网搜索、数据处理、编写代码、用户交互、翻译等功能。
现有的大语言模型推理方法中,会涉及对同一参数进行多次重复计算,但是,由于大语言推理模型的复杂性,单次推理可能进行上亿参数的深度学习推理计算,因此,大量的重复计算会导致浪费计算资源。月之暗面在2024年布局的专利CN118052282A提出了解决方案,通过缓存单元存储历史推理请求过程中的推理资源,进而可以在针对当前推理请求过程中,提取历史推理资源,以减少当前推理过程中重复计算的问题,加快了推理速度,进一步的,通过使用生成的结果字更新当前推理数据,可以使后续结果字的生成更加准确,可以提高推理系统生成自然语言的流畅性和连续性。
车企与科技企业合作可以充分发挥各自的优势,共同推动智能汽车的发展。例如,百度、字节跳动、商汤科技、科大讯飞等科技企业与理想汽车、小鹏汽车、蔚来汽车等车企都在加快部署大模型“上车”,融合到车载端的大模型可以为新能源汽车更好地赋能:
(1)大模型能够处理和分析海量的驾驶数据,实现更精准的环境感知、目标识别和路径规划。例如,商汤绝影发布的DriveAGI自动驾驶大模型,可让车辆像人一样理解复杂的现实世界,洞察各类交通参与者的行为动机,快速学习交通规则,并向用户解释驾驶决策的推理过程。
(2)通过对用户语音、手势等多模态信息的理解,提供更加自然、便捷的交互方式。例如,百度的文心一言大模型将百度智能座舱升级为Apollo超级座舱,可实现自动理解、构建,并生成相应场景,调度全车能力,理解用户需求,并主动执行最优全局解决方案。
(3)实时监控车辆的运行状态和周围环境,及时发现潜在的安全隐患,并向用户发出预警。例如,国内汽车安全公司木卫四发布的汽车安全大模型蝴蝶大模型2.0,可以在数百万辆的汽车异常日志中自动识别黑客攻击和汽车异常状况,帮助车企实时识别汽车安全风险。
(4)大模型可以支持更多的娱乐应用,如游戏、视频、音频等,为用户在驾驶过程中提供更多的娱乐选择。例如,吉利的AI银河精灵拥有远程控车、自定义形象、大模型创作等15大功能,还可以根据用户的驾驶习惯、偏好等数据,提供个性化的服务,如音乐推荐、导航路径规划等,提升用户的满意度。
在融合到车载端的大模型的专利布局方面,列举以下企业:
商汤科技主要产品为DriveAGI自动驾驶大模型,在该系列模型的专利技术保护方面如:
2021年,商汤科技布局的专利CN112949827B,提出了神经网络生成、数据处理,以及智能行驶控制方法。通过确定结构向量对应的梯度向量,基于梯度向量和结构向量确定目标神经网络,比如利用梯度向量指示的调整信息对结构向量对应的神经网络结构进行调整,确定目标神经网络,不需要多次采样神经网络结构,提高了生成目标神经网络的效率。商汤科技将这种方法融合到了自动驾驶方面,通过获取行驶装置在行驶过程中采集的图像或视频;利用神经网络检测图像或者视频中的目标对象;基于检测的目标对象,控制行驶装置。
图9 商汤科技产品应用图[7]
随着人工智能的发展,智能交互的思想逐渐渗透至生活中的各个方面。在智能汽车领域,现如今逐渐趋向于软件定义汽车,在大模型自然交互的大背景下,如何更好地提升乘驾体验,让汽车更加智能化,成为该领域研究的重点之一,吉利基于自建星睿智算中心,已正式发布全栈自研的全球首个汽车行业全场景AI大模型——吉利星睿AI大模型。
图10 吉利星睿AI大模型架构图[8]
车端的算力相对于云端存在较大差距,目前大多是通过对大模型进行云端部署,以实现车端的大模型体验。但是,在云端部署大模型,由于云端数据交互传输会导致车端在实际体验过程中时延较高;并且,云端部署的大模型与车端进行交互时,对网络质量的要求较高,但在实际车辆行驶过程中,车载网络信号不能实现时刻稳定,因此,导致车载交互准确性较差以及车载大模型体验不够好。
针对云端部署大模型与车端进行数据交互过程中时延高,以及车载网络不稳定导致的车载交互不够及时和准确的问题,吉利在2024年申请了专利CN117891469A,通过云端运行车载大模型,利用用户终端的大模型框架加载云端运行跑出的参数,从而实现将大模型从云端运行转移至用户终端运行,实现了本地化及离线化部署;通过共享用户终端算力,避免了汽车终端算力不足的问题;另一方面,通过用户终端与汽车终端进行数据通信传输,避免了汽车终端与云端之间网络信号不稳定而导致的交互不够及时和准确的问题。
随着智能座舱技术的发展,出现了实操驾驶分析技术,此技术采集用户的实操驾驶数据,通过对实操驾驶数据的分析向用户反馈实操驾驶报告,以使用户可以更清晰的知道自己的驾驶水平,从而可以有针对性的对自己的驾驶技巧进行训练。吉利在2024年申请的专利CN118069782A,通过实操驾驶数据和标准驾驶数据对目标对象的驾驶操作进行分析,得到分析结果;根据目标对象的问题和分析结果构建的提示信息有助于指导大模型输出更具针对性的回复信息。
可以看出,无论是将大模型融合到眼镜、手表、手环等可穿戴设备上,还是开发适用于手机端、PC端的AI大模型应用,或是将其延伸到发展如火如荼的新能源汽车上,AI大模型均具有较大的发展潜力。
当然,AI技术的快速发展也带来了一系列挑战与思考。例如,随着算力需求的急剧上升,行业如何确保技术的可持续发展、如何应对行业间的竞争加剧、以及如何在法律与伦理的框架下引导技术的应用,都是亟待解决的问题。
总之,国产大模型的崛起与端侧AI的广泛应用,代表着中国AI产业步入了一个新的发展阶段。未来,AI大模型不仅将是科技领域的一个关键词,更将是每个人日常生活中不可或缺的伙伴。积极的研发活动和完善的专利布局,能够助力企业在日趋激烈的市场竞争中占据一席之地。
作者:北京品源知识产权管理咨询有限公司 张天阔