Enhancing 2D Hand Pose Estimation And Tracking in Surgical Videos By Attention Mechanism DS201.M11: Deep Learning Trong Khoa học Dữ Liệu GVHD: TS. Đỗ Trọng Hợp Thầy Lưu Thanh Sơn Thầy Nguyễn Thành Luân Sinh viên thực hiện: Nguyễn Quang Đại Bùi Anh Thuận Nhóm 18 19521306 19521001 1 Bố cục 1. Dataset 2. Tiền xử lí 3. Mô hình 4. Kết quả 5. Kết luận và hướng phát triển 2 Lí do chọn đề tài Computer Vision đang dần được ứng dụng nhiều vào lĩnh vực y tế Diabetic retinopathy classification Tumor segmentation Tool detection and tracking Hand pose tracking chưa được ứng dụng nhiều ở môi trường phòng phẫu thuật Hand pose detection and tracking trong phòng mổ được kỳ vọng có tính ứng dụng cao 3 Dataset Surgical Hands Overview Hand Pose Anntotations Dataset Statistics 4 Dataset Surgical Hands: Overview Dataset đầu tiên hỗ trợ tác vụ hand pose detection và tracking trong phòng phẫu thuật Video được thu thập từ YouTube và các websources khác. Được gán nhãn trên crowd-sourcing platform Amazon Mechanical Turk 5 Dataset Surgical Hands: Hand Pose Annotations Bounding box annotation Left Class label Right Joint's 2Dcoordinate Joint Annotation Tracking ID Visibility: visible, occluded, notavailable 6 Dataset Surgical Hands: Hand Pose Annotations Bounding box annotation Left Class label Right Joint's 2Dcoordinate Joint Annotation Tracking ID Visibility: visible, occluded, notavailable 7 Dataset Dataset Surgical StatisticsHands: Statistics 76 clips (8 fps) 2,838 annotated frames 8,178 hand annotations 2.88 hands/frame 8 Dataset Surgical Hands: Demo https://youtu.be/9C5fx0ryBNo 9 Dataset CMU Panoptic Hands with Manual Keypoint Annotations (2758 annotations) Mixed Hands Dataset (17019 annotations) Hands from Synthetic Data (14261 annotations) 10 Dataset CMU Panoptic 11 Tiền xử lí Để bàn tay nằm giữa bounding box reshape 12 Mô hình: Baseline Sử dụng Backbone ResNet-152 cùng với các lớp Deconvolution Attention Block được xây dựng từ các lớp Convolution (ℎ′ , 𝑤 ′ , 21) 𝑂𝑢𝑡𝑝𝑢𝑡𝑡−1 (ℎ, 𝑤, 3) (ℎ′ , 𝑤′, 21) 𝑂𝑢𝑡𝑝𝑢𝑡𝑡 Louis, N., Zhou, L., Yule, S.J., Dias, R.D., Manojlovich, M., Pagani, F.D., Likosky, D.S., Corso, J.J.: Temporally guided articulated hand pose tracking in surgical videos (2021) 13 Mô hình: Our model 1 Thay thế CNN-based Attention Block trong Baseline bằng Attention Augmented Block Santavas, N., Kansizoglou, I., Bampis, L., Karakasis, E., Gasteratos, A.: Attention! a lightweight 2d hand pose estimation approach (2020) 14 Mô hình: Our model 2 Thay thế CNN-based Attention Block trong Baseline bằng lớp Conv và Attention Augmented Block => Attention Augmented+ Santavas, N., Kansizoglou, I., Bampis, L., Karakasis, E., Gasteratos, A.: Attention! a lightweight 2d hand pose estimation approach (2020) 15 Mô hình: Our model 3 Thay thế Bottleneck Block trong Baseline bởi Squeeze-andExcitation Bottleneck Block Hu, J., Shen, L., Albanie, S., Sun, G., Wu, E.: Squeeze-and-excitation networks (2019) 16 Mô hình: Our model 4 Cải tiến model 3 bằng cách thêm Squeeze-and-Excitation Block phía sau Attention Block Hu, J., Shen, L., Albanie, S., Sun, G., Wu, E.: Squeeze-and-excitation networks (2019) 17 Mô hình: Huấn luyện Do thời gian huấn luyện chậm (1 epoch ~ 1 giờ) Pre-train trên CMU Panoptic: Epochs: 30 Batch size: 16 Optimizer: Adam (1e−3 + decay) Fine-tune trên Surgical Hands: Epochs: 10 Batch size: 12 Optimizer: Adam (8e−5) 18 Mô hình: Huấn luyện Hướng của bàn tay trong lúc phẫu thuật (fine-tune dataset) có thể xuất phát từ nhiều góc trong hình. Pre-train dataset: bàn tay thường hướng xuống hoặc ngang. Pre-train Fine-tune 19 Mô hình: Ước lượng hướng của bàn tay trong ảnh Baseline: [-40, 40] Ours: [-180, 180] 20 Kết quả: estimation 21 Tracking Làm sao biết bboxes của frame hiện tại và frame trước đó là của cùng 1 bàn tay? Xây dựng ma trận Cost chứa thông tin về mối liên hệ giữa bbox ở frame t và t-1 Sử dụng thuật toán Hugarian để giải ma trận 22 Tracking (offline) Có 2 cách xây dựng ma trận cost L2 distance IoU 23 Kết quả: tracking 24 Kết quả trực quan 25 Kết quả trực quan: Demo https://youtu.be/k8ioKqLlSms 26 Kết luận và hướng phát triển Kết luận Các kĩ thuật attention có thể giúp cải thiện kết quả Data augmentation ảnh hưởng đến khả năng generalization Hướng phát triển Pre-train trên bộ dữ liệu góc nhìn thứ nhất Sử dụng color augmentation Cải thiện chất lượng của bounding box và keyjoints Sử dụng Siamese Network cho tracking 27 Tài liệu tham khảo Louis, N., Zhou, L., Yule, S.J., Dias, R.D., Manojlovich, M., Pagani, F.D.,Likosky, D.S., Corso, J.J.: Temporally Guided Articulated Hand PoseTracking in Surgical Videos (2021) Hu, J., Shen, L., Sun, G.: Squeeze-and-excitation networks. In: 2018IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp.7132–7141 (2018) Santavas, N., Kansizoglou, I., Bampis, L., Karakasis, E., Gasteratos, A.:Attention! A Lightweight 2D Hand Pose Estimation Approach (2020) Xiao, B., Wu, H., Wei, Y.: Simple Baselines for Human Pose Estimation and Tracking (2018) Simon, T., Joo, H., Matthews, I., Sheikh, Y.: Hand Keypoint Detection inSingle Images using Multiview Bootstrapping (2017) 28 Tết Nhâm Dần 2022 Nhóm 18 xin cảm ơn thầy vì đã đồng hành cùng chúng em đến tận những giờ phút cuối của năm cũ. Nhân dịp một mùa xuân mới lại về, chúng em xin kính chúc thầy và gia đình một năm mới dồi dào sức khỏe, một mùa xuân sum vầy sau bao tháng ngày giãn cách, sạc đầy năng lượng để dìu dắt sinh viên chúng em ở những môn học tiếp theo.