Research

Selected Publications

For a complete list, see my Google Scholar and ResearchGate.

2026
A Unified 3D Object Perception Framework for Real-Time Outside-In Multi-Camera Systems

Yizhou Wang*, Sameer Pusegaonkar*, Yuxing Wang, Anqi Li, Vishal Kumar, Chetan Sethi, Ganapathy Aiyer, Yun He, Kartikay Thakkar, Swapnil Rathi, Bhushan Rupde, Zheng Tang, Sujit Biswas

arXiv preprint

* Equal contribution
- arXiv
2025
MCBLT: Multi-Camera Multi-Object 3D Tracking in Long Videos

Yizhou Wang*, Tim Meinhardt*, Orcun Cetintas, Cheng-Yen Yang, Sameer Satish Pusegaonkar, Benjamin Missaoui, Sujit Biswas, Zheng Tang, Laura Leal-Taixé

ICCV Workshops

* Equal contribution
- PDF
- arXiv
2024
Ego3DT: Tracking Every 3D Object in Ego-centric Videos

Shengyu Hao, Wenhao Chai, Zhonghan Zhao, Meiqi Sun, Wendi Hu, Jieyang Zhou, Yixian Zhao, Qi Li, Yizhou Wang, Xi Li, Gaoang Wang

ACM Multimedia
- arXiv
- DOI
2024
Vision meets mmWave Radar: 3D Object Perception Benchmark for Autonomous Driving

Yizhou Wang, Jen-Hao Cheng, Jui-Te Huang, Sheng-Yao Kuan, Qiqian Fu, Chiming Ni, Shengyu Hao, Gaoang Wang, Jenq-Neng Hwang

IEEE Intelligent Vehicles Symposium (IV)
- arXiv
2023
Split and Connect: A Universal Tracklet Booster for Multi-Object Tracking

Gaoang Wang, Yizhou Wang, Renshu Gu, Weijie Hu, Jenq-Neng Hwang

IEEE Transactions on Multimedia
- arXiv
2022
Multi-Target Multi-Camera Tracking of Vehicles by Graph Auto-Encoder and Self-Supervised Camera Link Model

Hung-Min Hsu, Yizhou Wang, Jiarui Cai, Jenq-Neng Hwang

WACV Workshops
- PDF
2022
LUNA: Localizing Unfamiliarity Near Acquaintance for Open-set Long-Tailed Recognition

Jiarui Cai, Yizhou Wang, Hung-Min Hsu, Jenq-Neng Hwang, Kelsey Magrane, Craig Rose

AAAI
- PDF
- DOI
2022
GaitTAKE: Gait Recognition by Temporal Attention and Keypoint-Guided Embedding

Hung-Min Hsu, Yizhou Wang, Cheng-Yen Yang, Jenq-Neng Hwang, Hoang Le Uyen Thuc, Kwang-Ju Kim

IEEE ICIP
- arXiv
2021
ACE: Ally Complementary Experts for Solving Long-Tailed Recognition in One-Shot

Jiarui Cai, Yizhou Wang, Jenq-Neng Hwang

ICCV
- PDF
2021
Multi-Target Multi-Camera Tracking of Vehicles using Metadata-Aided Re-ID and Trajectory-Based Camera Link Model

Hung-Min Hsu, Jiarui Cai, Yizhou Wang, Jenq-Neng Hwang, Kwang-Ju Kim

IEEE Transactions on Image Processing (TIP)
- arXiv
- DOI
2021
RODNet: A Real-Time Radar Object Detection Network Cross-Supervised by Camera-Radar Fused Object 3D Localization

Yizhou Wang, Zhongyu Jiang, Yudong Li, Jenq-Neng Hwang, Guanbin Xing, Hui Liu

IEEE Journal of Selected Topics in Signal Processing (J-STSP)
- IEEE
- arXiv
2021
Rethinking of Radar's Role: A Camera-Radar Dataset and Systematic Annotator via Coordinate Alignment

Yizhou Wang, Gaoang Wang, Hung-Min Hsu, Hui Liu, Jenq-Neng Hwang

CVPR Workshops (WAD)
- PDF
- Video
- Poster
2021
RODNet: Radar Object Detection Using Cross-Modal Supervision

Yizhou Wang, Zhongyu Jiang, Xiangyu Gao, Jenq-Neng Hwang, Guanbin Xing, Hui Liu

WACV
- PDF
- Code
- Dataset
2021
ROD2021 Challenge: A Summary for Radar Object Detection Challenge for Autonomous Driving Applications

Yizhou Wang, Jenq-Neng Hwang, Gaoang Wang, Hui Liu, Kwang-Ju Kim, Hung-Min Hsu, Jiarui Cai, Haotian Zhang, Zhongyu Jiang, Renshu Gu

ACM ICMR
- PDF
2020
Traffic-Aware Multi-Camera Tracking of Vehicles Based on ReID and Camera Link Model

Hung-Min Hsu, Yizhou Wang, Jenq-Neng Hwang

ACM Multimedia
- arXiv
- DOI
2019
Monocular Visual Object 3D Localization in Road Scenes

Yizhou Wang, Yen-Ting Huang, Jenq-Neng Hwang

ACM Multimedia (Long Oral)
- DOI
- Project
- Video
2019
Exploit the Connectivity: Multi-Object Tracking with TrackletNet

Gaoang Wang, Yizhou Wang, Haotian Zhang, Renshu Gu, Jenq-Neng Hwang

ACM Multimedia (Oral)
- arXiv
- Code

Projects

RODNet — Radar Object Detection

Yizhou Wang, Zhongyu Jiang, Xiangyu Gao, Jenq-Neng Hwang, Guanbin Xing, Hui Liu

A deep radar object detection network (RODNet) that detects objects purely from processed radar frequency data (range-azimuth heatmaps). Instead of burdensome human labels, RODNet is trained with annotations generated automatically via a camera-radar fusion (CRF) strategy, achieving strong detection without a camera at inference time. Released alongside the CRUW dataset and the ROD2021 Challenge.

Monocular Visual Object 3D Localization in Road ScenesACM MM'19 Long Oral

Yizhou Wang, Yen-Ting Huang, Jenq-Neng Hwang

A robust method for 3D localization of monocular visual objects in road scenes, jointly integrating depth estimation, adaptive ground-plane estimation, and multi-object tracking. Important for autonomous driving and advanced driver-assistance systems (ADAS) where 3D cues are hard to obtain from a single camera.

GIF Super-Resolution

Yizhou Wang, Liangliang Cao

A super-resolution approach for GIFs that uses two high-resolution frames (first and last) together with the low-resolution sequence to reconstruct a high-resolution GIF. Paired with GIFSR, the first dataset devoted to GIF super-resolution. Significantly outperforms popular video SR baselines while achieving at least 80x speedup on CPU.

Temporal Action Localization (TAL) in Videos

Yizhou Wang, Zheng Shou, Shih-Fu Chang

Web-based snippet-level and frame-level demonstrations for the temporal action localization problem, built around Segment-CNN and CDC networks. Developed in the DVMM Lab at Columbia University and presented at NYC Media Lab 2017.

Datasets

AI City Challenge Dataset

Annual large-scale benchmarks advancing computer vision for intelligent transportation and smart spaces — including multi-camera 3D perception, multi-target multi-camera tracking, and synthetic-to-real (Sim2Real) generalization.

Visit →

CRUW Dataset

A public camera-radar dataset for autonomous driving, with FMCW radar in the form of radio-frequency (RF) tensors synchronized and calibrated with camera frames. It underpins the RODNet work and the ROD2021 Challenge.

Visit →