awesome human object interaction
Contents
Intro
HoI 是 visual relation 的一个子任务,它对 human body 和 object understanding 的依赖性很强
Transformer based
QPIC: query-based pairwise human-object interaction detection with image-wide contextual information
- 这篇是基于 DETR 做的, 它有什么改进或区别吗?
- 推理是什么做的?
Mining the benefits of two-stage and one-stage HOI detection
HOTR: end-to-end human-object interaction detection with transformers
One-stage
Glance and Gaze: Inferring Action-aware Points for One-Stage Human-Object Interaction Detection
{PPDM:} Parallel Point Detection and Matching for Real-Time Human-Object Interaction Detection
将 human/object/interaction 的中心点进行预测,学习的时候将 point 的预测转换成 key-point heatmap 的预测。检测到 point 后,对于每个 interaction point, 匹配其对应的 human/object point, 做法是,对 ground truth 中的每个 interaction point, 学习它相对于 human 和 object point 的位移。这样对于预测的 interaction point, 也能够得到它相对于 human 和 object 的偏移,这样再根据这个偏移,找到与之最接近的 human 和 object point.
Mining the Benefits of Two-stage and One-stage {HOI} Detection
Graph
图的方法,为什么要考虑用图?
Learning Human-Object Interactions by Graph Parsing Neural Networks
Relation Parsing Neural Network for Human-Object Interaction Detection
ConsNet: Learning Consistency Graph for Zero-Shot Human-Object Interaction Detection
图建模标签依赖关系
- 这篇的 motivation 和 Learning graph embeddings for compositional zero-shot learning 有点像。对于这种带有组合性质的标签,标签之间的依赖是一个有用的信息。将标签的语义(包括 word embedding 和 visual semantic)放到图里进行传播,将 seen 或者 head category 的 label 信息传递到 unseen/tail category 上。不过他们这个图要复杂一些,除了对结点用 word embedding, 还用了视觉的语义信息。那篇文章的方法能不能用这篇文章的来增强呢?
Learning to Detect Human-Object Interactions With Knowledge
主要针对 HOI 中的长尾问题,这里认为 HOI 中的 verb 存在长尾分布问题,因此将 verb 和 object 的类别放到一个图中,利用已有的 HOI 标注,建立 verb/object 之间的依赖关系,然后通过消息传播,将 head verb 类别的信息传递到 tail verb 类别中。
Spatially Conditioned Graphs for Detecting Human-Object Interactions
这篇沿着 GPNN 来做的,我的理解是在图的结点和边的表示中加入了位置信息,感觉创新性上不是很高,但他们的效果调得很好。
Zero-shot/Composition
Interaction compass: multi-label zero-shot learning of human-object interactions via spatial relations
Scaling Human-Object Interaction Recognition Through Zero-Shot Learning
Scene graph related
Scene graph 的工作和 Hoi 比较相近,暂时也将他们放到这里
Bipartite Graph Network with Adaptive Message Passing for Unbiased Scene Graph Generation
Author Li Xunsong
LastMod 2022-01-12