CCFCV112

曹先彬博士，北京航空航天大学教授

空基态势感知技术及应用

一个专用飞行平台–临空平台，系留平台

多元信息的数据融合–雷达，视觉。

王亮博士，中国科学院自动化所研究员

面向复杂视觉任务的多模态深度学习

多模态学习：人们通过视觉、触觉、听觉、嗅觉等多种感官认识这个世界，不同的感官可以从不同的侧面去反映同一个事物的内在属性。这里的“视觉信息、听觉信息、触觉信息”都属于一种模态，人脑可以同时捕捉多种模态的信息并进行加工整合，以完成认知和执行任务。

多模态数据库：Microsoft coco。。。

不同模态数据关联在一起？

数据有限，

1.图文比配–度量跨模态的相似度，去除冗余

语义概念（目标属性quickly、行为run）的关键区域，局部相似度，全局相似度。

语义的顺序，谁追逐谁

2.小样本图像检索

小样本单词多次出现，图像信息杂乱

3.时间行为定位

视频中查找某一句描述的时间段

语义概念的学习

强化学习实现动态跳转–

4.原型网络

行为与背景的区分，不同行为的区分

–

多模态transform，robot

?特征的信息–表征能力，上下文，人脑？

小样本–模型的普适性，模型的泛化能力，知识转移

多模态特征融合方式

卢策吾博士，上海交通大学教授

行为理解与具身智能

行为理解：语噪比

图像空间–原语空间–语义空间

实例行为标注（手的动作）数据集HAKE

行为原语+规则搜索

神经认知

机器认知语义与神经认知的联系

某项行为对应的神经回路的影响

姿态识别：AlphaPose

小鼠社会等级行为的神经回路

具身智能

机器人第一人称自主感知世界，与世界交互

具身智能–非具身智能

Contents