为什么感知力才是AI下半场的入场券?

发布时间:

2026-03-27 12:11:31

来源:花椒财经

过去二十年,全球科技圈最性感的造富神话,本质上只干了一件事:把现实世界搬进屏幕。

从社交网络到本地生活,谁能最快地将现实场景数字化,谁就能赢下牌局。互联网企业凭借着消除物理世界的空间阻力与信息壁垒,吃尽了时代的红利。以极轻资产撬动极高市值的商业模式,让无数创业者趋之若鹜。

但现在,风向变了。

无论阿里巴巴蔡崇信,还是英伟达黄仁勋,全球科技领袖近期不约而同陷入同一种焦虑:生成式AI聪明绝顶,但无法真正进入真实的物理世界,其商业价值很快就会触顶。

也正因为如此,全球科技的潮头正在全面转向。在硬科技与实体制造深度融合的关口,硅谷的巨头和国内大厂都在求解同一个问题:如何让人工智能真正落地,进入物理世界,转化为真正意义上的生产力。

在今年的博鳌亚洲论坛上,vivo总裁兼首席运营官胡柏山抛出了一个极具前瞻性的产业判断:科技的下一个十年,影像将与AI并驾齐驱,手机将不仅是一个通讯工具,而是将成为AI落地物理世界的第一引擎。

为什么感知力才是AI下半场的入场券?

这一判断,实际上揭示了AI下半场最核心的入场门槛,那就是感知力。

01

从“聪明”到“看懂”:为什么感知力决定AI的下半场

要理解AI行业的下半场,必须先看清当下的发展趋势。过去两年,海量的资本与顶尖天才蜂拥而至,全行业都在云端大模型上疯狂堆叠算力,试图让机器大脑变得更聪明。

这种路径在初期成效显著,但在现实的物理世界中却遭遇了瓶颈。人们发现,尽管AI在网络世界聪明绝顶,但面对“在杂乱厨房中精准抓取透明玻璃杯”这类现实琐事时,却会立刻陷入瘫痪。

为什么机器无法处理现实琐事?核心在于缺乏对物理世界的实时深度感知。

胡柏山直言:“没有感知力,AI的能力就无法泛化。”例如,一个在模拟器里训练了上万次的自动驾驶算法,在现实中可能会被挡风玻璃上的一片落叶搞晕。如果机器无法理解原子的排列规律、空间的几何深度以及光影的变幻,它就永远无法成为真正的生产力工具。

正如“人工智能教母”李飞飞所指出的,目前的机器如果不能通过视觉互动来理解三维世界,它就会与试图理解的物理现实彻底脱节。

感知力从何而来?从人类进化史来看,人类超过80%的外界信息来源于视觉。同理,人工智能走向物理世界的第一步,不是学会如何运动,而是学会“如何看”。

在AI时代,影像技术正经历一场深刻的内涵重构:传统的影像追求“好看”,而AI时代的影像追求“看懂”。

所谓“看懂”,就是机器需要理解三维空间的纵深、分辨物体的材质与摩擦力,甚至捕捉人类肢体语言背后的情绪变化。

基于这一关键洞察,vivo 在内部正式成立感知赛道,把视觉、听觉、触觉等多模态信息,通过传感器与感知大模型转化为可理解、可应用的物理世界信息。

vivo判断,未来的云端算力和大模型能力必将走向同质化和基础设施化。而作为人工智能感知物理世界最自然、信息最丰富的入口,感知力才是真正的护城河。所以,当全行业都在内卷大模型参数时,vivo选择了一条更难但更底层的路:着力打造人工智能的“眼睛”。

02

以影像为底座,vivo构建物理世界的感知系统

既然感知力是下半场的入场券,那么企业应当如何构建这种底层能力?

这是一个极具挑战性的工程难题。我们观察到,目前致力于具身智能与物理世界落地的企业,往往面临两种截然不同的现实困境:

一种诸如硅谷的顶级大模型公司,手握强悍的“云端大脑”,但由于缺乏传感器底部的深度配合,视觉识别在真实复杂场景中往往显得笨拙。

另一种是擅长结构和制造的机器人企业,但由于缺乏视觉算法和海量的真实用户数据反馈。做出来的机器人动作精准,却难以摆脱机械感。

面对这一行业难题,vivo选择了一条独特的破局路径——构建软硬一体化的能力闭环。

胡柏山在专访中多次强调,最好的差异化是软硬结合,vivo正是以此为核心思路,以影像为切口,打造从硬件底层到算法上层的全链路协同能力。在软硬协同这条关键路径上,vivo没有停留在简单的算法集成,而是坚持从光学、传感器、芯片底层到感知AI模型深度融合,真正实现感知能力的原生落地。

这意味着,vivo正试图为未来的万物互联和具身智能行业,打造一套可复用的视觉感知大基建

而这种底层感知能力的构建,已经率先在技术最内卷、距离人类最近的智能手机上迎来了商业化爆发。

即将走向市场的vivo X300 Ultra和X300s,向行业展示了“感知”系统如何重塑用户体验。这两款机型将率先搭载vivo影像Agent,让手机不再是传统的通讯工具或V单相机,实质上已进化为一个搭载了初步影像智能体的全新物种。

当用户举起X300 Ultra拍照时,手机不再死板地等待手动调节参数,而是通过底层视觉感知中枢,主动理解当前的环境光线、空间景深与主体特征,进而推荐最佳构图并调用个性化功能。

这不仅是vivo从Smart Phone向Agent Phone演进的关键跃进,也标志着人工智能开始基于对物理世界的精准感知,代替人类思考并采取行动。

03

从手机到机器人:vivo的“感知力”如何向外延伸?

过去一年,行业涌现出不少新型的AI硬件,但大多在商业化上都不尽如人意。其根本原因是:大部分硬件都脱离了真实的物理场景,且缺乏成熟的供应链支撑。

相比之下,vivo则展现出长期主义的克制与清醒。它笃定未来十年智能手机依然是人机交互的主导载体。因为在这个星球上,没有任何一种民用设备能像智能手机一样,拥有最成熟的光学载体,最密集的感知传感器阵列,以及全天候贴身陪伴的交互属性。

以手机构建感知中枢,是AI进入物理世界阻力最小、数据反馈最快、商业闭环效率最高的最佳入口。

在大众固有认知中,手机厂商往往扮演着“硬件制造商”的角色。但vivo通过软硬一体的布局,正从终端厂商稳步迈向生态型科技平台企业,跳出了单纯拼硬件参数的红海,在“感知-理解-行动”的完整链条中,掌握了更上游的数据入口与交互枢纽。这种将核心技术平台化的能力,是一家企业构建长期护城河的核心。

基于这一战略方向,vivo的布局逻辑清晰且坚定:从去年成立机器人实验室,到发布混合现实(MR)产品,可以清晰地看到一条连贯的主线:不追风口,只是沿着感知物理世界这条脉络,将手机沉淀能力自然向外延伸。

随着感知能力的溢出,影像将从手机延伸至MR头显乃至未来机器人等更多终端。正如vivo所强调的“智及万物”,影像不再是孤立的硬件模组,而是流淌在所有硬件载体中的感知血液。

抛开科技趋势与商业布局,vivo的技术愿景其实非常简单:无论硬件形态如何演进,科技发展的终极目的,始终是更具同理心、更具普适性地服务于每一个具体的人。

04

结语

站在更长远的周期里,未来的科技竞争,是让AI无缝融入真实的物理世界,成为服务于每一个个体的基础设施。在这个演进方向中,算力与通用模型能力会逐渐走向基建化,而对三维真实世界的精准感知,将成为科技企业难以被替代的关键壁垒。

从智能手机上的影像智能体,到涵盖穿戴设备、家庭服务机器人的视觉感知中枢,vivo的平台战略稳步推进,展现出了面对万物智能时代的前瞻与务实。

未来,当AI能够准确理解生活中的一个玻璃杯、一个台阶、甚至一个微笑,并将其转化为切实的服务时,这场关于智能的科技变革,才算真正迎来了落地生根的时刻。

免责声明:所有平台仅提供服务对接功能,资讯信息、数据资料来源于第三方,其中发布的文章、视频、数据仅代表内容发布者个人的观点,并不代表泡财经平台的观点,不构成任何投资建议,仅供参考,用户需独立做出投资决策,自行承担因信赖或使用第三方信息而导致的任何损失。投资有风险,入市需谨慎。

古东管家

请先登录后发表评论

0条评论