4月24日,“数智未来”高质量数据集开发者创新大赛成果发布会在南京市玄武区落幕。这场历时5个月,吸引全国30余所高校、70余家企事业单位同台竞技的赛事,不仅决出了五大赛道的优胜者,更折射出智能经济底层基础设施高质量数据集建设的真实图景。
建设高质量数据集面临三大难点
“你有数据并不代表你有高质量数据集。”国家管网集团西气东输分公司科技数字中心副主任占传熙在圆桌论坛上直言,当前他们在建设高质量数据集时面临三大难点。
首先是数据稀缺性。以焊缝缺陷数据为例,在管道建设中,有缺陷的焊缝比例可能只有千分之几。“量少且分散,从项目上拿回来、再处理,成本极高。”占传熙说。
难点还在于数据专业性不够。焊缝底片的判读需要专家具备多年经验,模型难以在短时间内规模化复制。同时,还存在数据的泛化性不足问题。“世界上没有两个一模一样的缺陷。”占传熙说,即便模型学习了上万张样本,到了真实场景仍需持续适配算法。
徐工集团全球数字化中心部长李忠福同样深有感触。他以挖掘机核心部件液压泵为例,完整寿命约3000小时,但企业通常只关注最后“失效”的1小时。“从0到100%的退化过程,数据分散在生产、服务、研发等不同部门,大家不好意思把‘不好’的数据拿出来,部门之间也存在壁垒。”李忠福说,这种数据孤岛,让建立完整的寿命预测曲线变得极其困难。
在卫星遥感赛道,自然资源江苏省卫星应用技术中心总工詹雅婷用一组数字说明了难度:280万个样本,其中200万个用于变化检测,标注精度必须达到95%以上才能“好用、管用”。“每天卫星拍下海量影像,人工标注几无可能,必须用AI自动初筛再人工精修。”她说。
产教融合打通“最后一公里”
正是这些真实痛点,催生了大赛的“真题真做”模式。5家链主企业把最难的场景、产线上的真实数据、最稀缺的样本,毫无保留地开放给全国青年学子。
“我们希望通过大赛,把生产中的实际问题贡献出来,与高校结合,获得更多科产融合的机会。”中信数字科技集团战略发展部总经理钱卫说。
产教融合在赛场内外同时发生。北京传世博润科技有限公司高级副总裁袁立飞分享了一个细节:有个医院团队原本多人组队,为符合大赛人数限制,拆分成3支,临床、信息科、同位素科各一队。他建议三队保持交流,“高质量数据集不是单一科室能完成的,需要多方智慧。”
更直观的成果是人才对接。袁立飞说,大赛期间已有企业向优秀学生发出实习和参与国家级项目的邀请。“学生拿了实习就业的机会,这是大赛最实在的价值。”
玄武区委书记闵一峰在致辞中表示,玄武区正全力建设国家级数据产业集聚区核心区,江苏国际数据港一、二期超50万平方米产业空间已投用,人工智能产业母基金落地,青年人才房票和超千套人才公寓为数据工匠“创业无忧、创新有成”提供保障。
“持久战”已进入攻坚阶段
什么数据最“值钱”?南京市创新投资集团人工智能部投资总监张苏荣从资本视角给出了判断标准。“私域数据不出场、不出域,别人拿不到的最值钱。其次是场景数据,如电子病历沉淀的诊疗记录对医药研发有极高价值。还有能形成数据飞轮的高质量标注数据,以及刚需领域的科学数据。”
他用一个形象的比喻解释高质量数据集的价值层次:“从原始数据到可训练的语料,中间经过清洗、标注、校验多道工序。如果数据泛化性好,就能从一次性买卖变成可重复使用的资产。”
大赛虽已收官,高质量数据集的建设远未结束。“这场大赛的举办,恰逢其时。”国家数据发展研究院副院长袁军透露,国家数据局管理的国家数据集管理服务平台将于4月29日试运行,未来将持续完善标准与评测体系,构建行业基准模型与测试数据集。
“数据奔涌千帆竞,智创未来万象新。”闵一峰向全国数据英才发出邀约。而李忠福的期待更具体:“我们渴望建立工程机械核心部件从全新到失效的全生命周期数据集,让每一台设备都能‘预知’自己的健康度,让客户从买设备转向买服务。”
高质量数据集的建设是一场持久战。这场大赛,让产业界、学术界、资本界看到:真正的攻坚,已在产线上、在病房里、在卫星遥感赛道悄然展开。
免责声明:所有平台仅提供服务对接功能,资讯信息、数据资料来源于第三方,其中发布的文章、视频、数据仅代表内容发布者个人的观点,并不代表泡财经平台的观点,不构成任何投资建议,仅供参考,用户需独立做出投资决策,自行承担因信赖或使用第三方信息而导致的任何损失。投资有风险,入市需谨慎。

迁址公告
古东管家APP
关于我们
请先登录后发表评论