(8)감염자를 양성 판정할 확률, 양성 판정 때 실제 감염자일 확률…두 문장, 완전히 다르다

2020.09.25 06:00 입력 2020.09.25 10:16 수정
이종필 교수

코로나 진단키트와 베이지안

[전문가의 세계 - 이종필의 과학자의 발상법](8)감염자를 양성 판정할 확률, 양성 판정 때 실제 감염자일 확률…두 문장, 완전히 다르다

첫번째 문장은 ‘진양성’, 두번째 문장은 ‘양성예측도’ 나타내
민감도 100%인 진단키트로 양성을 받았을 경우
여기엔 실제로 감염 안 됐지만 양성인 ‘위양성’도 포함

코로나19 바이러스가 유례없이 전 세계를 휩쓸고 있는 지금, 한국이 방역 선진국으로 우뚝 선 데에는 진단키트를 빨리 개발해 광범위하고 집요하게 추적검사를 시행한 것이 큰 역할을 했다. 상식적으로 생각해봤을 때 진단키트의 성능은 감염자를 감염자로 판정하고 비감염자를 비감염자로 판별하는 능력일 것이다. 이는 코로나19뿐만 아니라 다른 모든 질병에 대해서도 마찬가지이다. 이를 일반화해 다음과 같은 표로 표현할 수 있다.

질병이 있는 사람을 검사해 양성의 결과가 나왔다면 이는 좋은 결과이다. 이를 진양성(TP)이라 한다. 한편 질병이 없는 사람을 검사해 음성의 결과가 나와도 좋은 결과이다. 이를 진음성(TN)이라 한다. 반면 질병이 있음에도 음성으로 판정(위음성·FN)하거나, 질병이 없음에도 양성으로 판정(위양성·FP)한다면 이는 좋지 않은 결과이다.

[전문가의 세계 - 이종필의 과학자의 발상법](8)감염자를 양성 판정할 확률, 양성 판정 때 실제 감염자일 확률…두 문장, 완전히 다르다

위의 표에서 알 수 있듯이 진양성과 위음성의 수를 더하면 질병이 있는 사람의 총수(=TP+FN), 즉 환자의 총수가 된다. 실제 환자들 중에서 얼마나 많은 사람을 양성으로 판정할 것인가는 모든 진단체계에서 중요한 지표가 될 것이다. 이 표현을 수식으로 옮기면 fs=TP/(TP+FN)이 된다. 이 값을 민감도(sensitivity)라 한다. 이와 비슷하게, 질병이 없는 사람들 중에서 얼마나 많은 수를 음성으로 판정할 것인가도 중요한 지표이다. 이 말은 fp=TN/(FP+TN)으로 표현할 수 있다. 이 값을 특이도(specificity)라 한다. 한편, 환자(=TP+FN)와 건강한 사람(=FP+TN) 전체(N=TP+FN+FP+TN)에 대해 질병이 있는 사람을 양성으로 판정하고 질병이 없는 사람을 음성으로 판정하는 능력도 하나의 지표로 만들 수 있다. 이 값, fa=(TP+TN)/N을 정확도(accuracy)라고 부른다.

진단키트를 개발했거나 어느 기구의 승인을 받았다는 기사를 보면 보통 민감도와 특이도, 정확도의 정보가 나와 있다. 얼마 전 내가 본 기사에 따르면 R사에서 올봄에 개발한 항체진단키트의 민감도는 100%, 특이도는 99.8%였다. 민감도가 100%라는 말은 코로나19 바이러스에 감염된 사람은 모두 양성으로 판정한다는 얘기다. 여기서 말을 슬쩍 바꾸어보자. 바이러스 감염 여부를 전혀 모르는 사람이 이 진단키트로 양성 판정을 받았을 때, 이 사람이 진짜 바이러스에 감염되었을 확률은 얼마일까?

우리 일상 언어로는 그 말이 그 말 같다. 그러나 감염된 사람을 양성으로 판정할 확률과, 양성으로 판정됐을 때 실제 감염됐을 확률은 엄연히 다르다. 전자는 앞서 말했던 민감도로서, 위 표의 ‘질병 있음’ 가로줄에서 TP+FN에 대한 TP의 비율이다. 반면 후자는 위 표에서 ‘검사결과 양성’의 세로줄에서 TP+FP에 대한 TP의 비율이다. 이 값을 양성예측도(positive predictive value·ppv)라 한다. 즉, ppv=TP/(TP+FP)이다. 한마디로 말하자면 이렇다. 진단키트로 양성 판정을 받았을 때, 여기에는 실제로는 감염되지 않았으나 양성으로 판정되는 경우(FP)까지 포함된다는 뜻이다.

R사의 진단키트로 지금 우리 상황에서 양성예측도를 계산해보자. 중앙방역대책본부에 따르면 2020년 9월1일 기준으로 코로나19 누적 확진율이 1.1%이다. 편의상 이 값을 전체 인구 N에 대한 감염자의 비율, 즉 유병률(prevalence) fv라 하자(실제 값은 다를 수도 있다). 이 정의에 따라 fv=(TP+FN)/N임을 쉽게 알 수 있다. 위 표에서 진양성자의 수는 실제 감염자 중에서 양성으로 판정받은 수이므로 실제 감염자 수인 N·fv(=TP+FN)에 민감도 fs를 곱하면 된다. 각 변수의 정의를 대입하면 그 결과가 TP임을 쉽게 알 수 있다. 한편 위양성(FP)은 실제로는 감염되지 않았으나 양성으로 판정된 사람의 수이다. 실제 감염된 사람의 비율이 fv이므로 감염되지 않은 사람의 수는 (1-fv)·N이다. 이들이 감염되지 않았다고 올바르게 판정할 확률이 특이도 fp이므로 이들이 감염되었다고 잘못 판정할 확률은 1-fp이다. 따라서 위양성 FP는 FP=(1-fp)(1-fv)N이 됨을 알 수 있다. 여기서 내가 한 일이라고는 일상의 언어를 그냥 기호를 써서 정의에 따라 표현했을 뿐이다. 곱하기와 나누기 정도 산수 실력만 있으면 각 변수의 정의로부터 위 결과를 간단하게 유도할 수도 있다.

이 값들을 모두 대입하면 양성예측도는 ppv=fsfv/{fsfv+(1-fp)(1-fv)}임을 쉽게 알 수 있다. 다소 복잡해 보이지만 그 뜻은 명확하다. fsfv는 감염자를 양성으로 판정할 확률이다. (1-fp)(1-fv)는 비감염자를 비음성, 즉 양성으로 판정할 확률이다. 일단 진단키트로 양성 판정을 받았다면, 감염됐는데 양성으로 판정됐을 경우와 감염되지 않았으나 양성으로 판정됐을 경우를 모두 고려해야 한다. 그 두 가지 경우에 대해 내가 실제 감염됐을 확률이 양성예측도이니까 위의 결과가 나온다. 실제 숫자를 대입하면 그 결과는 약 84.8%임을 알 수 있다.

민감도 100% 키트 검사, 왜 실제 감염 확률은 100%가 아닐까?
비감염자를 음성으로 판정할 확률 ‘특이도’가 100%가 아니기 때문

100%의 민감도를 가진 진단키트로 검사했는데 왜 실제 감염됐을 확률은 100%가 아닐까? 그 이유는 진단키트가 비감염자를 양성으로 판정할 확률이 0이 아니기 때문이다. 달리 말하자면 특이도, 즉 비감염자를 음성으로 판정할 확률이 100%가 아니기 때문이다. 만약 비감염자를 100%의 확률로 음성으로 판정한다면 특이도 fp=1이 되고 위 식의 ppv에서 분모의 둘째 항이 사라진다. 그 결과 양성예측도는 1이다. 말로 풀어보면 이렇다. 특이도가 1이면 비감염자는 100% 음성으로 판정되므로, 양성으로 판정된 사람은 모두 감염자에서 나올 수밖에 없다. 따라서 이 경우 양성 판정을 받았을 때 실제 감염됐을 확률은 당연히 100%이다.

ppv의 식을 보면 이 값이 1이 되는 또 다른 경우가 있다. 즉 유병률 fv=1일 때이다. 이 경우에는 모든 인구가 감염된 상황이니까 자명한 결과이다.

위 식을 잘 살펴보면 유병률이 낮을수록 양성예측도가 감소함을 알 수 있다. 유병률이 낮다는 말은 감염자 수가 적다는 말이고 따라서 비감염자의 수가 많다. 그렇다면 비감염자를 양성으로 오판할 확률(1-fp)이 극히 낮다 하더라도 0이 아닌 이상 비감염자의 숫자가 충분히 크다면 ppv의 분모의 둘째 항이 상당히 커질 수 있다. 그 결과 전체 비율은 작아진다.

‘조건부 확률’의 대표적 사례 양성예측도
‘베이즈 공식’ 통해 ‘가능도’ 도출…인공지능 등에 유용한 알고리즘

양성예측도는 수학에서 말하는 이른바 조건부 확률의 대표적인 사례이다. 조건부 확률이란 특정한 사건이 일어났다는 제한조건하에서 따지는 확률이다. 앞선 예에서는 양성 판정을 받았다는 사실이 제한조건으로 들어간다. 양성 판정을 받은 사건을 A, 바이러스에 감염된 사건을 V라 하고 각각의 사건이 일어날 확률을 각각 P(A), P(V)라 하자. 이때 양성예측도는 A가 일어났다는 조건하에서 V가 일어날 확률로서 보통 P(V|A)로 표기한다. 정의에 따라 이 값은 (V와 A가 동시에 일어날 확률)/(A가 일어날 확률)로 쓸 수 있다. 교집합 기호를 써서 사건 V와 A가 동시에 일어난 사건을 V∩A라 하면 P(V|A)=P(V∩A)/P(A)로 쓸 수 있다.

이제 P(V|A)에서 V와 A의 역할을 바꾸면, P(A|V)=P(A∩V)/P(V)로 쓸 수 있다. 그런데 A와 V가 동시에 일어날 확률은 V와 A가 동시에 일어날 확률과 같으므로 P(A∩V)=P(A|V)·P(V)=P(V∩A)로 쓸 수 있다. 따라서 양성예측도는 P(V|A)=P(V∩A)/P(A)=P(A|V)P(V)/P(A)가 된다.

분자의 P(A|V)는 감염됐다는 조건(V)하에서 양성으로 판정(A)할 확률이므로 이는 정확히 민감도의 정의 fs와 똑같다. P(V)는 감염될 확률이니까 유병률 fv와 같다. 한편 분모의 P(A)는 양성으로 판정할 확률이므로, 감염자를 양성으로 판정할 확률과 비감염자를 양성으로 판정할 확률을 더해야 한다. 따라서 P(A)=fsfv+(1-fp)(1-fv)이고 결과적으로 P(V|A)=ppv임을 알 수 있다.

조건부 확률에 관한 위의 공식은 그 유명한 베이즈 공식으로 알려져 있다. 토머스 베이즈는 18세기 영국의 목사이자 수학자였다. 베이즈 공식으로 표현된 양성예측도를 다시 살펴보자. 우변의 P(V)는 감염될 확률이다. 좌변의 P(V|A)는 양성으로 판정되었을 때 실제 감염되었을 확률이다. 따라서 P(V|A)는 P(V)와 비교했을 때 A라는 사건이 개입된 차이가 있다. 달리 말하자면 P(V|A)는 A를 통한 P(V)의 업데이트라고도 할 수 있다. 즉, 베이즈 공식을 통해 우리는 사건 V가 일어날 확률이 사건 A가 개입됐을 때 어떻게 ‘진화’할 것인지를 알 수 있다. 그 연결고리는 P(A|V)로서, 이를 가능도(likelihood)라 한다. 이런 방식의 알고리즘은 인공지능 등에 유용하게 쓰일 수 있다.

▶이종필 교수

[전문가의 세계 - 이종필의 과학자의 발상법](8)감염자를 양성 판정할 확률, 양성 판정 때 실제 감염자일 확률…두 문장, 완전히 다르다


1971년 부산에서 태어났다. 1990년 서울대학교 물리학과에 입학했으며 2001년 입자물리학으로 박사학위를 받았다. 이후 연세대, 고등과학원 등에서 연구원으로, 고려대에서 연구교수로 재직했다. 2016년부터 건국대 상허교양대학에서 조교수로 재직 중이다. 저서로 <신의 입자를 찾아서> <대통령을 위한 과학 에세이> <물리학 클래식> <이종필 교수의 인터스텔라> <빛의 속도로 이해하는 상대성이론> 등이 있고, <최종이론의 꿈> <블랙홀 전쟁> <물리의 정석> <스티븐 호킹의 블랙홀> 등을 우리글로 옮겼다.


추천기사

바로가기 링크 설명

화제의 추천 정보

    오늘의 인기 정보

      추천 이슈

      이 시각 포토 정보

      내 뉴스플리에 저장