探索WAIC2024:机器人与AI的多样化应用生态

零、引子

周四的时候无意间在百度头条发现了WAIC,点进官网看到了个人比较感兴趣的无介质全息投影和大量人形机器人应用项目。周四我又看了大会开幕式和几场专家论坛会议,带着一部分对AI发展的好奇心光速下单买门票、车票。希望能够亲身接触下这些前沿科技的应用情况,并了解它们的未来发展形态。

WAIC(世界人工智能大会)作为全球人工智能领域的顶级盛会,自2018年举办以来,便汇聚了全球顶尖的科学家、企业家及创新者,共同探讨人工智能技术的最新进展与未来趋势。它不仅是一个展示AI前沿成果的舞台,更是推动人工智能与实体经济深度融合、促进全球科技合作与交流的重要平台。

WAIC 2024WAIC 2024

因为了解的比较晚了,没有预约到会议门票,最后买了展会参观票。周六一大早坐高铁去上海,10点多到达了世博展览馆。(Ps:门口全是黄牛大爷大妈在兜售门票,路上看到俩小哥跟黄牛从200一张票砍到260两张,笑死)

展会入口展会入口

一、展会分布

本次展览共两层,1F主要汇聚了大型厂商,左半区是车企、机器人厂商展台(如:特斯拉、极越);右半区主要是互联网厂商(如:阿里、腾旭、百度)。

2F是初创型公司的展台和几个小型交流会议区,2楼的展台大部分是AI应用,例如数字人、视觉识别、脑电波控制、AI游戏开发等领域;还有一小部分的硬件如机械手掌、做菜机器人(这个后面会说,很有意思)。

二、个人重点关注方向

2.1 无介质全息投影

早几年看到的全息投影技术,大致是利用干涉和衍射原理记录并再现物体真实的三维图像。主要在三角体(通常是四面锥体)结构中,通过四个视频源在锥体上或下投射到特殊棱镜上,根据光学原理,这些光线汇集到一起后形成具有真实维度空间的立体影像。(效果可以参考这个视频:3D全息影像技术在复原古建筑场景中的应用

全息投影装置全息投影装置

但我在WAIC大会的展览网页上看到某公司的产品是这样的(左一),看着有点像虚空投影,而且他们还有一个产品叫做无介质全息数字人显示交互终端(右一),看着完全就是无介质虚空投影啊!这一下子就给我兴趣提起来了。

所以到了展会我第一个就奔去看全息投影,结果这实际效果有点惨不忍睹….

2.2 人形机器人

做人形机器人的厂家非常多,下图是从展会官网上收集的人形机器人厂家名单。基本都在1F的左半区,我每家都去逛了逛。

公司名称 产品名称
上海开普勒探索机器人有限公司 开普勒人形机器人
乐聚(深圳)机器人技术有限公司 KUAVO高动态人形机器人
四川天链机器人股份有限公司 天链人形机器人T1
中国中信集团有限公司 人形机器人
达闼机器人股份有限公司 达闼双足人形机器人XR4
上海卓益得机器人有限公司 X02-lite轻体力双足仿人机器人
上海宇宙畅游机器人有限公司 小八人形机器人
松延动力(北京)科技有限公司 人形机器人Dora

大部分机器人都挂在展架上大部分机器人都挂在展架上

虽然左半区展出了大量人形机器人,但大多都是挂在展架上展示或者原地做一下动作,真正做了实机运动展示的我只见到卓益得一家,他们演示了X02-lite机器人的地面行走能力,可以看到人形机器人这一领域的发展潜力仍是巨大。

2.3 AI

作为本次大会的核心内容,AI领域的应用几乎占到了展览馆的**65%**以上。根据从展会上了解的情况看,近期发展主要分为以下几个方向:

  1. 对话问答:以文心一言、通义千问、腾讯元宝为代表的AI大模型问答厂商;
  2. 辅助编码:还是以百度、阿里为主的辅助编码工具(AI写工具类没问题,写业务有点牵强了);
  3. 视觉分析:通过摄像头捕捉画面,在复杂环境下识别出物体、内容(现场演示是在一个浑浊的鱼缸里,鱼群运动的情况下识别出远处二维码内容);
  4. 视觉捕捉:通过实时捕获摄像头画面,来分析统计现场人数、性别、衣着特征等(如果能识别年龄、衣物、面向性格等特征来分析用户身家,辅助其他业务开展活动,那对商场是重大利好啊);
  5. 数字人短视频/直播:以人物模型为基础,通过TTS(文本转语音)生成短视频为主,再往上层发展就是数字人直播、数字人客服,因为成本原因做的厂商相对较少;
  6. 漫画转动漫:在B站展台看到的,可以将漫画实时转成动漫视频,画面及场景衔接也还算可以(如果这不是提前做好的视频,那这技术方向确实不错);
  7. 文本转UI:通过AI对话生成UI设计稿,可以针对元素进行深度调优(这个实现程度比较高,利好小型公司/独立开发者,对于初级UI同学影响比较大);
  8. 图生3D模型:只需要提供一张图片,就可以绘制出图片中建筑的3D模型;
  9. 聚合应用:汇集市面上大多数AI工具,通过SDK集成形式聚合到网站里(在互联网上很多,展会里只见到了一家);
  10. 药物研究:只在几个小展台见过,可能因为门槛高导致竞争相对较小;

视觉捕捉:分析现场人数和人物特征视觉捕捉:分析现场人数和人物特征

一张图生成3D模型一张图生成3D模型

B站AI产品:漫画转动漫B站AI产品:漫画转动漫

三、其他亮点应用

3.1 无人灶(炒菜机器人)

只需放入洗好的食材,就可以在APP端一键点菜。机器可以实现自动切菜、融肉、焯水、腌制、调味,相比市面上的炒菜机器人已经先进一个档位了。想像下这个场景:下班回来洗菜,然后预约早上自动炒菜,上班前拿着热腾腾的菜去单位,在与开发团队沟通后得知下一代产品有计划实现食物冷藏(提前预存食材),到时候就真是懒人福音了。

NONO无人灶(现场售价4000 定金2000 年底可发货)NONO无人灶(现场售价4000 定金2000 年底可发货)

无人灶 宣传材料无人灶 宣传材料

3.2 脑控康复轮椅

通过视觉注意力注视屏幕的上下左右四个角,再结合脑电信号的分析结果,控制轮椅前后左右移动(优点是无需在脑部植入芯片,通过一个特殊的帽子链接即可进行数据采集分析)。

和展商聊了下,当前这个版本必须依赖视觉,对于视障患者或者盲人不太友好。新一代研发中的产品将不需要视觉注意力,以纯脑电波的方式进行控制移动(emmm,也就是意念控制?)

产品介绍产品介绍

四、总结

随着近几年因为ChatGPT引发的人工智能热潮,大模型的涌现和各类AI应用的爆发,AI时代已经到来。在这次大会上,我看到了一些AI技术的实际落地应用,从医疗诊断到智能制造,从智能助手到自动驾驶,AI的多样性应用正在逐渐展开。

然而,尽管大模型在处理复杂问题时展现出了惊人的能力,我们也应该认识到并非所有问题都需要大模型来解决。那些专注于垂直领域中特定任务、更为精准和高效的小模型可能会提供更加惊人且专业的能力。

另一方面,从人形机器人在本届大会上的表现来看。它们还存在着巨大的发展潜力,期待之后的展会能看到更多的实机演示,而非冷冰冰的将产品挂在展台。同时,我觉得机器人的设计形态不应执着于模仿人类形态,还是要以满足实际需求为主,基于功能和效率去实现最佳性能和视觉体验。

今年的WAIC结束了,返程高铁上拍到的夕阳余晖如同AI技术带给我们的希望和幻想、


评论区