https://www.bilibili.com/video/BV11a411v7nD

曹先彬 博士,北京航空航天大学教授

空基态势感知技术及应用

  1. 桥隧检测
  2. 施工监控
  3. 公路巡检
  4. 交通巡管

一个专用飞行平台–临空平台,系留平台

  1. 临近大范围与空域机动抵达多尺度观测
  2. 大规模多种类目标的共同检测
  3. 复杂环境下多源传感器的协调

多元信息的数据融合–雷达,视觉。

王 亮 博士,中国科学院自动化所研究员

面向复杂视觉任务的多模态深度学习

多模态学习:人们通过视觉、触觉、听觉、嗅觉等多种感官认识这个世界,不同的感官可以从不同的侧面去反映同一个事物的内在属性。这里的“视觉信息、听觉信息、触觉信息”都属于一种模态,人脑可以同时捕捉多种模态的信息并进行加工整合,以完成认知和执行任务。

多模态数据库:Microsoft coco。。。

不同模态数据关联在一起?

数据有限,

1.图文比配–度量跨模态的相似度,去除冗余

语义概念(目标属性quickly、行为run)的关键区域,局部相似度,全局相似度。

语义的顺序,谁追逐谁

2.小样本图像检索

小样本单词多次出现,图像信息杂乱

3.时间行为定位

视频中查找某一句描述的时间段

语义概念的学习

强化学习实现动态跳转–

4.原型网络

行为与背景的区分,不同行为的区分

多模态transform,robot

?特征的信息–表征能力,上下文,人脑?

小样本–模型的普适性,模型的泛化能力,知识转移

多模态特征融合方式

卢策吾 博士,上海交通大学教授

行为理解与具身智能

行为理解:语噪比

图像空间–原语空间–语义空间

实例行为标注(手的动作)数据集HAKE

行为原语+规则搜索

神经认知

机器认知语义与神经认知的联系

某项行为对应的神经回路的影响

姿态识别:AlphaPose

小鼠社会等级行为的神经回路

具身智能

机器人第一人称自主感知世界,与世界交互

具身智能–非具身智能