为什么感知力才是AI下半场的入场券？

过去二十年，全球科技圈最性感的造富神话，本质上只干了一件事：把现实世界搬进屏幕。

从社交网络到本地生活，谁能最快地将现实场景数字化，谁就能赢下牌局。互联网企业凭借着消除物理世界的空间阻力与信息壁垒，吃尽了时代的红利。以极轻资产撬动极高市值的商业模式，让无数创业者趋之若鹜。

但现在，风向变了。

无论阿里巴巴蔡崇信，还是英伟达黄仁勋，全球科技领袖近期不约而同陷入同一种焦虑：生成式AI聪明绝顶，但无法真正进入真实的物理世界，其商业价值很快就会触顶。

也正因为如此，全球科技的潮头正在全面转向。在硬科技与实体制造深度融合的关口，硅谷的巨头和国内大厂都在求解同一个问题：如何让人工智能真正落地，进入物理世界，转化为真正意义上的生产力。

在今年的博鳌亚洲论坛上，vivo总裁兼首席运营官胡柏山抛出了一个极具前瞻性的产业判断：科技的下一个十年，影像将与AI并驾齐驱，手机将不仅是一个通讯工具，而是将成为AI落地物理世界的第一引擎。

这一判断，实际上揭示了AI下半场最核心的入场门槛，那就是感知力。

从“聪明”到“看懂”：为什么感知力决定AI的下半场

要理解AI行业的下半场，必须先看清当下的发展趋势。过去两年，海量的资本与顶尖天才蜂拥而至，全行业都在云端大模型上疯狂堆叠算力，试图让机器大脑变得更聪明。

这种路径在初期成效显著，但在现实的物理世界中却遭遇了瓶颈。人们发现，尽管AI在网络世界聪明绝顶，但面对“在杂乱厨房中精准抓取透明玻璃杯”这类现实琐事时，却会立刻陷入瘫痪。

为什么机器无法处理现实琐事？核心在于缺乏对物理世界的实时深度感知。

胡柏山直言：“没有感知力，AI的能力就无法泛化。”例如，一个在模拟器里训练了上万次的自动驾驶算法，在现实中可能会被挡风玻璃上的一片落叶搞晕。如果机器无法理解原子的排列规律、空间的几何深度以及光影的变幻，它就永远无法成为真正的生产力工具。

正如“人工智能教母”李飞飞所指出的，目前的机器如果不能通过视觉互动来理解三维世界，它就会与试图理解的物理现实彻底脱节。

感知力从何而来？从人类进化史来看，人类超过80%的外界信息来源于视觉。同理，人工智能走向物理世界的第一步，不是学会如何运动，而是学会“如何看”。

在AI时代，影像技术正经历一场深刻的内涵重构：传统的影像追求“好看”，而AI时代的影像追求“看懂”。

所谓“看懂”，就是机器需要理解三维空间的纵深、分辨物体的材质与摩擦力，甚至捕捉人类肢体语言背后的情绪变化。

基于这一关键洞察，vivo 在内部正式成立感知赛道，把视觉、听觉、触觉等多模态信息，通过传感器与感知大模型转化为可理解、可应用的物理世界信息。

vivo判断，未来的云端算力和大模型能力必将走向同质化和基础设施化。而作为人工智能感知物理世界最自然、信息最丰富的入口，感知力才是真正的护城河。所以，当全行业都在内卷大模型参数时，vivo选择了一条更难但更底层的路：着力打造人工智能的“眼睛”。

以影像为底座，vivo构建物理世界的感知系统

既然感知力是下半场的入场券，那么企业应当如何构建这种底层能力？

这是一个极具挑战性的工程难题。我们观察到，目前致力于具身智能与物理世界落地的企业，往往面临两种截然不同的现实困境：

一种诸如硅谷的顶级大模型公司，手握强悍的“云端大脑”，但由于缺乏传感器底部的深度配合，视觉识别在真实复杂场景中往往显得笨拙。

另一种是擅长结构和制造的机器人企业，但由于缺乏视觉算法和海量的真实用户数据反馈。做出来的机器人动作精准，却难以摆脱机械感。

面对这一行业难题，vivo选择了一条独特的破局路径——构建软硬一体化的能力闭环。

胡柏山在专访中多次强调，最好的差异化是软硬结合，vivo正是以此为核心思路，以影像为切口，打造从硬件底层到算法上层的全链路协同能力。在软硬协同这条关键路径上，vivo没有停留在简单的算法集成，而是坚持从光学、传感器、芯片底层到感知AI模型深度融合，真正实现感知能力的原生落地。

这意味着，vivo正试图为未来的万物互联和具身智能行业，打造一套可复用的视觉感知大基建。

而这种底层感知能力的构建，已经率先在技术最内卷、距离人类最近的智能手机上迎来了商业化爆发。

即将走向市场的vivo X300 Ultra和X300s，向行业展示了“感知”系统如何重塑用户体验。这两款机型将率先搭载vivo影像Agent，让手机不再是传统的通讯工具或V单相机，实质上已进化为一个搭载了初步影像智能体的全新物种。

当用户举起X300 Ultra拍照时，手机不再死板地等待手动调节参数，而是通过底层视觉感知中枢，主动理解当前的环境光线、空间景深与主体特征，进而推荐最佳构图并调用个性化功能。

这不仅是vivo从Smart Phone向Agent Phone演进的关键跃进，也标志着人工智能开始基于对物理世界的精准感知，代替人类思考并采取行动。

从手机到机器人：vivo的“感知力”如何向外延伸？

过去一年，行业涌现出不少新型的AI硬件，但大多在商业化上都不尽如人意。其根本原因是：大部分硬件都脱离了真实的物理场景，且缺乏成熟的供应链支撑。

相比之下，vivo则展现出长期主义的克制与清醒。它笃定未来十年智能手机依然是人机交互的主导载体。因为在这个星球上，没有任何一种民用设备能像智能手机一样，拥有最成熟的光学载体，最密集的感知传感器阵列，以及全天候贴身陪伴的交互属性。

以手机构建感知中枢，是AI进入物理世界阻力最小、数据反馈最快、商业闭环效率最高的最佳入口。

在大众固有认知中，手机厂商往往扮演着“硬件制造商”的角色。但vivo通过软硬一体的布局，正从终端厂商稳步迈向生态型科技平台企业，跳出了单纯拼硬件参数的红海，在“感知-理解-行动”的完整链条中，掌握了更上游的数据入口与交互枢纽。这种将核心技术平台化的能力，是一家企业构建长期护城河的核心。

基于这一战略方向，vivo的布局逻辑清晰且坚定：从去年成立机器人实验室，到发布混合现实（MR）产品，可以清晰地看到一条连贯的主线：不追风口，只是沿着感知物理世界这条脉络，将手机沉淀能力自然向外延伸。

随着感知能力的溢出，影像将从手机延伸至MR头显乃至未来机器人等更多终端。正如vivo所强调的“智及万物”，影像不再是孤立的硬件模组，而是流淌在所有硬件载体中的感知血液。

抛开科技趋势与商业布局，vivo的技术愿景其实非常简单：无论硬件形态如何演进，科技发展的终极目的，始终是更具同理心、更具普适性地服务于每一个具体的人。

结语

站在更长远的周期里，未来的科技竞争，是让AI无缝融入真实的物理世界，成为服务于每一个个体的基础设施。在这个演进方向中，算力与通用模型能力会逐渐走向基建化，而对三维真实世界的精准感知，将成为科技企业难以被替代的关键壁垒。

从智能手机上的影像智能体，到涵盖穿戴设备、家庭服务机器人的视觉感知中枢，vivo的平台战略稳步推进，展现出了面对万物智能时代的前瞻与务实。

未来，当AI能够准确理解生活中的一个玻璃杯、一个台阶、甚至一个微笑，并将其转化为切实的服务时，这场关于智能的科技变革，才算真正迎来了落地生根的时刻。

免责声明：所有平台仅提供服务对接功能，资讯信息、数据资料来源于第三方，其中发布的文章、视频、数据仅代表内容发布者个人的观点，并不代表泡财经平台的观点，不构成任何投资建议，仅供参考，用户需独立做出投资决策，自行承担因信赖或使用第三方信息而导致的任何损失。投资有风险，入市需谨慎。

请先登录后发表评论

为什么感知力才是AI下半场的入场券？

共0条评论