CCFCV112
Contents
https://www.bilibili.com/video/BV11a411v7nD
曹先彬 博士,北京航空航天大学教授
空基态势感知技术及应用
- 桥隧检测
- 施工监控
- 公路巡检
- 交通巡管
一个专用飞行平台–临空平台,系留平台
- 临近大范围与空域机动抵达多尺度观测
- 大规模多种类目标的共同检测
- 复杂环境下多源传感器的协调
多元信息的数据融合–雷达,视觉。
王 亮 博士,中国科学院自动化所研究员
面向复杂视觉任务的多模态深度学习
多模态学习:人们通过视觉、触觉、听觉、嗅觉等多种感官认识这个世界,不同的感官可以从不同的侧面去反映同一个事物的内在属性。这里的“视觉信息、听觉信息、触觉信息”都属于一种模态,人脑可以同时捕捉多种模态的信息并进行加工整合,以完成认知和执行任务。
多模态数据库:Microsoft coco。。。
不同模态数据关联在一起?
数据有限,
1.图文比配–度量跨模态的相似度,去除冗余
语义概念(目标属性quickly、行为run)的关键区域,局部相似度,全局相似度。
语义的顺序,谁追逐谁
2.小样本图像检索
小样本单词多次出现,图像信息杂乱
3.时间行为定位
视频中查找某一句描述的时间段
语义概念的学习
强化学习实现动态跳转–
4.原型网络
行为与背景的区分,不同行为的区分
–
多模态transform,robot
?特征的信息–表征能力,上下文,人脑?
小样本–模型的普适性,模型的泛化能力,知识转移
多模态特征融合方式
卢策吾 博士,上海交通大学教授
行为理解与具身智能
行为理解:语噪比
图像空间–原语空间–语义空间
实例行为标注(手的动作)数据集HAKE
行为原语+规则搜索
神经认知
机器认知语义与神经认知的联系
某项行为对应的神经回路的影响
姿态识别:AlphaPose
小鼠社会等级行为的神经回路
具身智能
机器人第一人称自主感知世界,与世界交互
具身智能–非具身智能
Author kong
LastMod 2022-04-20