+1

Tập hợp các câu hỏi phỏng vấn trong cuốn DEEP LEARNING INTERVIEWS (ví dụ Dịch bệnh Ebola)

REAL-WORLD DEEP LEARNING INTERVIEW

Muốn cuốn sách khá hay cho a.e ôn luyện các thuật toán deep learning 😀

PROBLEMS & SOLUTIONS

  • Logistic Regression
  • Information Theory
  • Calculus
  • Algorithmic Differentiation
  • Bayesian Deep Learning
  • Probabilistic Programming
  • Ensemble Learning
  • CNN Feature Extraction
  • Deep Learning: Expanded Chapter second edition

https://arxiv.org/pdf/2201.00650

Ví dụ 1 bài toán, PRB-56 CH.PRB- 3.27.

Dịch bệnh Ebola ở Tây Phi năm 2014 (Hình 9.10) đã trở thành đợt bùng phát lớn nhất và lan rộng nhanh nhất của căn bệnh này trong lịch sử hiện đại [2] với số ca tử vong vượt xa tất cả các đợt bùng phát trước đây cộng lại. Ebola (được đặt tên theo sông Ebola ở Zaire) lần đầu tiên xuất hiện vào năm 1976 ở Sudan và Zaire và đã lây nhiễm cho hơn 284 người với tỷ lệ tử vong là 53%.

HÌNH 3.9: Virus Ebola.

Đợt bùng phát hiếm hoi này nhấn mạnh thách thức mà các đội ngũ y tế đang đối mặt trong việc ngăn chặn dịch bệnh. Một nhà khoa học dữ liệu cấp thấp tại Trung tâm Kiểm soát Dịch bệnh (CDC) đã mô hình hóa khả năng lây lan và kiểm soát virus Ebola bằng một mô phỏng số. Anh ta biết rằng trong một quần thể gồm k người (số lần thử), có x người mang virus (thành công theo thuật ngữ thống kê). Anh ta tin rằng khả năng mẫu của virus trong quần thể tuân theo phân phối Nhị thức:

L(γy)=(ny)γy(1γ)ny,γ[0,1],y=1,2,...,nL(\gamma | y) = \binom{n}{y} \gamma^y (1-\gamma)^{n-y}, \gamma \in [0,1], y = 1,2,...,n

Là nhà nghiên cứu cấp cao trong nhóm, bạn hướng dẫn anh ta rằng tham số quan tâm là γ, tỷ lệ người bị nhiễm bệnh trong toàn bộ dân số. Kỳ vọng và phương sai của phân phối nhị thức là:

E(yγ,n)=nγ,V(yγ,n)=nγ(1γ)E(y|\gamma, n) = n\gamma, V(y|\gamma, n) = n\gamma(1-\gamma)

Trả lời các câu hỏi sau đây; cho hàm hợp lý dạng Lx(γ):

  1. Tìm hàm log-hợp lý lx(γ) = ln Lx(γ).
  2. Tìm gradient của lx(γ).
  3. Tìm ma trận Hessian H(γ).
  4. Tìm thông tin Fisher I(γ).
  5. Trong quần thể bao gồm 10.000 cá nhân, 300 người đã bị nhiễm Ebola. Tìm MLE cho γ và sai số chuẩn liên quan đến nó.

Câu trả lời:

Tôi sẽ giải quyết từng bước bài toán về mô hình hóa dịch bệnh Ebola sử dụng ước lượng hợp lý cực đại.

1. Tìm hàm log-hợp lý lx(γ)=lnLx(γ)l_x(\gamma) = \ln L_x(\gamma)

Bắt đầu với hàm hợp lý nhị thức:

L(γy)=(ny)γy(1γ)nyL(\gamma | y) = \binom{n}{y} \gamma^y (1-\gamma)^{n-y}

Lấy logarit tự nhiên:

lx(γ)=ln(ny)+yln(γ)+(ny)ln(1γ)l_x(\gamma) = \ln\binom{n}{y} + y\ln(\gamma) + (n-y)\ln(1-\gamma)

Lưu ý rằng ln(ny)\ln\binom{n}{y} là hằng số đối với γ\gamma, vì vậy khi tìm MLE, ta có thể làm việc với:

lx(γ)yln(γ)+(ny)ln(1γ)l_x(\gamma) \propto y\ln(\gamma) + (n-y)\ln(1-\gamma)

2. Tìm gradient của lx(γ)l_x(\gamma)

Lấy đạo hàm của lx(γ)l_x(\gamma) theo γ\gamma:

dlx(γ)dγ=yγny1γ\frac{dl_x(\gamma)}{d\gamma} = \frac{y}{\gamma} - \frac{n-y}{1-\gamma}

3. Tìm ma trận Hessian H(γ)H(\gamma)

γ\gamma là tham số vô hướng, Hessian chỉ là đạo hàm bậc hai:

H(γ)=d2lx(γ)dγ2=yγ2ny(1γ)2H(\gamma) = \frac{d^2l_x(\gamma)}{d\gamma^2} = -\frac{y}{\gamma^2} - \frac{n-y}{(1-\gamma)^2}

4. Tìm thông tin Fisher I(γ)I(\gamma)

Thông tin Fisher là giá trị kỳ vọng âm của Hessian:

I(γ)=E[H(γ)]=E[yγ2+ny(1γ)2]I(\gamma) = -E[H(\gamma)] = E\left[\frac{y}{\gamma^2} + \frac{n-y}{(1-\gamma)^2}\right]

E(y)=nγE(y) = n\gamma, ta có:

I(γ)=nγγ2+nnγ(1γ)2=nγ+n(1γ)(1γ)2=nγ+n1γ=nγ(1γ)I(\gamma) = \frac{n\gamma}{\gamma^2} + \frac{n-n\gamma}{(1-\gamma)^2} = \frac{n}{\gamma} + \frac{n(1-\gamma)}{(1-\gamma)^2} = \frac{n}{\gamma} + \frac{n}{1-\gamma} = \frac{n}{\gamma(1-\gamma)}

5. Tìm MLE cho γ\gamma và sai số chuẩn

Để tìm MLE, ta đặt gradient bằng không và giải phương trình cho γ\gamma:

yγny1γ=0\frac{y}{\gamma} - \frac{n-y}{1-\gamma} = 0

Nhân cả hai vế với γ(1γ)\gamma(1-\gamma):

y(1γ)(ny)γ=0y(1-\gamma) - (n-y)\gamma = 0

yyγnγ+yγ=0y - y\gamma - n\gamma + y\gamma = 0

ynγ=0y - n\gamma = 0

γ=yn\gamma = \frac{y}{n}

Với thông tin 300 trong số 10.000 người bị nhiễm bệnh:

γ^MLE=30010.000=0,03\hat{\gamma}_{MLE} = \frac{300}{10.000} = 0,03

Sai số chuẩn được tính bằng cách sử dụng thông tin Fisher:

SE(γ^)=1I(γ^)=γ^(1γ^)n=0,03×0,9710.0000,00171SE(\hat{\gamma}) = \sqrt{\frac{1}{I(\hat{\gamma})}} = \sqrt{\frac{\hat{\gamma}(1-\hat{\gamma})}{n}} = \sqrt{\frac{0,03 \times 0,97}{10.000}} \approx 0,00171

Do đó, MLE cho tỷ lệ cá nhân bị nhiễm bệnh là 0,03 (3%) với sai số chuẩn khoảng 0,00171.


All rights reserved

Viblo
Hãy đăng ký một tài khoản Viblo để nhận được nhiều bài viết thú vị hơn.
Đăng kí