Subido por quangdaist01

nhom18 NguyenQuangDai BuiAnhThuan slide

Anuncio
Enhancing
2D Hand Pose Estimation And Tracking
in Surgical Videos By Attention Mechanism
DS201.M11: Deep Learning
Trong Khoa học Dữ Liệu
GVHD: TS. Đỗ Trọng Hợp
Thầy Lưu Thanh Sơn
Thầy Nguyễn Thành Luân
Sinh viên thực hiện:
Nguyễn Quang Đại
Bùi Anh Thuận
Nhóm 18
19521306
19521001
1
Bố cục

1. Dataset

2. Tiền xử lí

3. Mô hình

4. Kết quả

5. Kết luận và hướng phát triển
2
Lí do chọn đề tài
Computer Vision đang dần được ứng dụng nhiều vào lĩnh vực y tế
Diabetic retinopathy
classification
Tumor segmentation
Tool detection and tracking
Hand pose tracking chưa được ứng dụng nhiều ở môi trường phòng phẫu
thuật
Hand pose detection and tracking trong phòng mổ được kỳ vọng có tính ứng
dụng cao
3
Dataset Surgical Hands
Overview
Hand Pose
Anntotations
Dataset Statistics
4
Dataset Surgical Hands: Overview

Dataset đầu tiên hỗ trợ tác vụ hand pose detection và
tracking trong phòng phẫu thuật

Video được thu thập từ YouTube và các websources
khác.

Được gán nhãn trên crowd-sourcing platform Amazon
Mechanical Turk
5
Dataset Surgical Hands: Hand Pose Annotations
Bounding box
annotation
Left
Class label
Right
Joint's 2Dcoordinate
Joint Annotation
Tracking ID
Visibility: visible,
occluded, notavailable
6
Dataset Surgical Hands: Hand Pose Annotations
Bounding box
annotation
Left
Class label
Right
Joint's 2Dcoordinate
Joint Annotation
Tracking ID
Visibility: visible,
occluded, notavailable
7
Dataset
Dataset Surgical
StatisticsHands: Statistics
76 clips (8 fps)
2,838 annotated frames
8,178 hand annotations
2.88 hands/frame
8
Dataset Surgical Hands: Demo
https://youtu.be/9C5fx0ryBNo
9
Dataset CMU Panoptic
Hands with
Manual
Keypoint
Annotations
(2758
annotations)
Mixed
Hands Dataset
(17019
annotations)
Hands from
Synthetic
Data (14261
annotations)
10
Dataset CMU Panoptic
11
Tiền xử lí

Để bàn tay nằm giữa bounding box
reshape
12
Mô hình: Baseline

Sử dụng Backbone ResNet-152
cùng với các lớp Deconvolution

Attention Block được xây dựng từ
các lớp Convolution
(ℎ′ , 𝑤 ′ , 21)
𝑂𝑢𝑡𝑝𝑢𝑡𝑡−1
(ℎ, 𝑤, 3)
(ℎ′ , 𝑤′, 21)
𝑂𝑢𝑡𝑝𝑢𝑡𝑡
Louis, N., Zhou, L., Yule, S.J., Dias, R.D., Manojlovich, M., Pagani, F.D., Likosky, D.S., Corso, J.J.:
Temporally guided articulated hand pose tracking in surgical videos (2021)
13
Mô hình: Our model 1

Thay thế CNN-based Attention Block trong Baseline bằng
Attention Augmented Block
Santavas, N., Kansizoglou, I., Bampis, L., Karakasis, E., Gasteratos, A.:
Attention! a lightweight 2d hand pose estimation approach (2020)
14
Mô hình: Our model 2

Thay thế CNN-based Attention Block trong Baseline bằng lớp
Conv và Attention Augmented Block => Attention Augmented+
Santavas, N., Kansizoglou, I., Bampis, L., Karakasis, E., Gasteratos, A.:
Attention! a lightweight 2d hand pose estimation approach (2020)
15
Mô hình: Our model 3

Thay thế Bottleneck Block trong Baseline bởi Squeeze-andExcitation Bottleneck Block
Hu, J., Shen, L., Albanie, S., Sun, G., Wu, E.: Squeeze-and-excitation networks (2019)
16
Mô hình: Our model 4

Cải tiến model 3 bằng cách thêm Squeeze-and-Excitation
Block phía sau Attention Block
Hu, J., Shen, L., Albanie, S., Sun, G., Wu, E.: Squeeze-and-excitation networks (2019)
17
Mô hình: Huấn luyện

Do thời gian huấn luyện chậm (1 epoch ~ 1 giờ)
 Pre-train trên CMU Panoptic:
 Epochs: 30
 Batch size: 16
 Optimizer: Adam (1e−3 + decay)
 Fine-tune trên Surgical Hands:
 Epochs: 10
 Batch size: 12
 Optimizer: Adam (8e−5)
18
Mô hình: Huấn luyện

Hướng của bàn tay trong lúc phẫu thuật (fine-tune dataset)
có thể xuất phát từ nhiều góc trong hình.

Pre-train dataset: bàn tay thường hướng xuống hoặc ngang.
Pre-train
Fine-tune
19
Mô hình:

Ước lượng hướng của bàn tay trong ảnh
Baseline: [-40, 40]
Ours: [-180, 180]
20
Kết quả: estimation
21
Tracking

Làm sao biết bboxes của frame hiện tại và frame trước đó
là của cùng 1 bàn tay?
Xây dựng ma trận Cost
chứa thông tin về mối liên hệ
giữa bbox ở frame t và t-1
 Sử dụng thuật toán
Hugarian để giải ma trận

22
Tracking (offline)

Có 2 cách xây dựng ma trận cost
L2 distance
IoU
23
Kết quả: tracking
24
Kết quả trực quan
25
Kết quả trực quan: Demo
https://youtu.be/k8ioKqLlSms
26
Kết luận và hướng phát triển

Kết luận
 Các kĩ thuật attention có thể giúp cải thiện kết quả
 Data augmentation ảnh hưởng đến khả năng generalization

Hướng phát triển
 Pre-train trên bộ dữ liệu góc nhìn thứ nhất
 Sử dụng color augmentation
 Cải thiện chất lượng của bounding box và keyjoints
 Sử dụng Siamese Network cho tracking
27
Tài liệu tham khảo
Louis, N., Zhou, L., Yule, S.J., Dias, R.D., Manojlovich, M., Pagani,
F.D.,Likosky, D.S., Corso, J.J.: Temporally Guided Articulated Hand
PoseTracking in Surgical Videos (2021)
 Hu, J., Shen, L., Sun, G.: Squeeze-and-excitation networks. In:
2018IEEE/CVF Conference on Computer Vision and Pattern
Recognition, pp.7132–7141 (2018)
 Santavas, N., Kansizoglou, I., Bampis, L., Karakasis, E., Gasteratos,
A.:Attention! A Lightweight 2D Hand Pose Estimation Approach
(2020)
 Xiao, B., Wu, H., Wei, Y.: Simple Baselines for Human Pose
Estimation and Tracking (2018)
 Simon, T., Joo, H., Matthews, I., Sheikh, Y.: Hand Keypoint
Detection inSingle Images using Multiview Bootstrapping (2017)

28
Tết Nhâm Dần 2022
Nhóm 18 xin cảm ơn thầy vì đã đồng hành cùng chúng
em đến tận những giờ phút cuối của năm cũ. Nhân
dịp một mùa xuân mới lại về, chúng em xin kính chúc
thầy và gia đình một năm mới dồi dào sức khỏe, một
mùa xuân sum vầy sau bao tháng ngày giãn cách,
sạc đầy năng lượng để dìu dắt sinh viên chúng em ở
những môn học tiếp theo.
Descargar