일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 데이터분석
- CNN
- 빅분기
- Python
- 데이터EDA
- 빅데이터분석기사
- 빅분기실기
- machinelearning
- Deeplearning
- 텐서플로우
- 데이터분석가
- 의학논문
- 데이터모델링
- 머신러닝
- 컴퓨터비전
- Keras
- 딥러닝
- 데이터전처리
- 데이터사이언스
- 코딩테스트
- ComputerVision
- 인공지능
- 파이썬
- 통계
- 의학통계
- resnet
- TensorFlow
- mnist
- 케라스
- AI
- Today
- Total
Be Brave, Be Humble
논문 revision) Sample size와 Power 그리고 팁 본문
전 회사 연구원이 도움을 요청하여 생각난 김에 간략히 작성하는 글^^ㅠ
논문 리비전 시 샘플 사이즈 혹은 검정력을 기술하라는 의견을 받는 경우가 많은데, 개념이 생소한 연구자를 위해 간략히 설명합니다. 책 요약이 아닌 필드에서 직접 겪은 경험을 기반으로 작성했기 때문에 실제 리비전에서 활용하시기 좋을 것이라 생각합니다.
1. Sample size calculation
표본 수 계산은 IRB 심사를 위한 '연구계획서 작성 단계'에서 레퍼런스 논문을 참고하여 산출합니다. '이전 연구에서는 nn명으로 임상시험을 진행했으니 우리 연구에서는 대략 xx명을 사용하면 믿을만한 결과를 얻을 수 있을 것 같다'고 명시하는 과정이기에 꼭 데이터 수집 전 계획단계!!에서 진행해야 합니다.
통계 책 보니까 30명이면 된다는데?라고 생각하는 분들이 많은데 아닙니다. 30명으로 효과차이를 밝힐 수 있으면 충분한 거고 밝힐 수 없으면 더 모집해야 합니다. 샘플 사이즈에 절대적인 기준은 없습니다.
(참고로 30명은 CLT를 근거로 제시되는 숫자인데, CLT는 동일한 모집단으로부터 크기 n 표본을 >반복적<으로 추출했을 때 각 표본 평균들이 이루는 분포가 정규분포에 근사해진다는 이론입니다. 즉, 쉽게 말하면 n=30으로 30번(혹은 100번, 200번) 실험하면 표본평균분포가 정규분포에 가까워진다는 이론이기 때문에 따지고보면 900명이 필요한 셈입니다..)
2. Power (검정력, beta)
연구가 끝난 후, 직접 수집한 데이터로 수행합니다.
'우리 데이터는 nn명으로 xx방법론을 사용하여 분석하였더니 85%만큼 정확하더라~ 그러니 우리 연구는 믿을만해!' 하고 주장하는 것입니다. 통상적으로 80% 이상이면 충분하다고 봅니다.
사실 샘플 수와 검정력을 구하는 식은 똑같습니다. 다만 어떤 목적을 가지고 어떤 프로세스에서 사용하느냐에 따라 해석과 사용할 데이터가 달라질 뿐입니다.
정리하면,
* sample size => 연구시작 전, 레퍼런스 논문에서 가져온 값으로, "기존 논문은 xx명으로 테스트 해서 유의한 결과를 얻었으며 이를 토대로 계산해본 결과 우리 연구에서는 nn명이면 충분할 것 같다."
* power => 연구 끝난 후, "우리 연구에서는 nn명으로 independent t-test를 사용하였으며, 약 80%의 검정력을 얻었으므로 우리 결과는 믿을만하다."
3. 방법
- 변수와 방법론 선택
연구자가 이 논문에서 메인으로 입증하고 싶어하는 primary-endpoint(1차 유효 평가변수)를 사용하며, 그 주장을 입증하기 위해 사용할 메인 분석 방법론을 통해 산출합니다. 간혹 세컨더리까지 제시하는 분들도 있습니다.
- 기준
통상적으로 유의수준(significant level, alpha)는 0.05, 검정력(beta, power)는 80%입니다. Drop-out rate는 데이터 분석가가 정하는 게 아닙니다. 연구자 재량 하에 중도 탈락할 환자가 많아보이면 drop out rate를 늘려서 계산된 수보다 환자를 더 많이 모집해야 하고, 잘 모집될 것 같다 싶으면 10~20% 내외로 사용합니다.
- tool
무료로는 G*power가 있으며, 유로 프로그램으로는 PASS가 있습니다. PASS는 더 많은 방법론을 지원합니다.
구체적인 과정은 검색하면 많은 자료가 있으니 생략하겠습니다.
4. 팁과 그간 받아온 질문들
- "레퍼런스 논문은 어떤 걸 사용하나요?"
제일 중요한 팁!*** 무조건 유의한 결과가 나온 걸로 사용하셔야 합니다. 예를들어 p-value=0.08 (이런 논문은 퍼블리시 되기도 어렵겠지만)인 레퍼런스로 계산하면 터무니 없이 많은 수가 산출 됩니다.
- "아니 우리 연구 다 끝났는데 리뷰어가 샘플사이즈를 계산해오라는데요?"
상기에 기술한 내용처럼 식이 같습니다. 그래서 간혹 power가 아니라 sample size를 요청하는 리뷰어가 있는데, 정확히는 power를 요구해야 맞는 겁니다. 이런 경우는 선생님께서 수집한 데이터로 역으로 sample size를 구하고, "우리 데이터로 샘플 사이즈를 구한 결과 군 당 30명이 나왔는데 우리는 40명을 사용했다. 또한, actual power가 87%이니 해당 연구는 믿을만하다."고 주장하시면 되겠습니다.
- "복잡한 방법론을 썼는데 이거 어떻게 산출해요?"
사실.. multiple logistic 이상으로 복잡한 방법론은 다른 변수(공변량)를 처리하기가 까다롭습니다. 공변량은 0으로 놓고 메인 변수만 1로 놓아라. 연속형 변수는 평균값을 써라. 하는 자료가 있긴한데 까다롭죠.. 또한 mixed model 급으로 넘어가면 도대체가 이 parameter가 뭘 의미하는지도 어떻게 계산하는지도 모르겠는데 정확한 레퍼런스도 없어 막막할 겁니다.
이런 경우, 편법이긴 합니다만.. 우선 기초통계 값으로 계산해서 제시해보는 방법이 있습니다.
어떤 논문이든간에 Baseline Characteristics와 t-test 같은 간단한 분석을 제시합니다. 저는 주로 t-test를 사용하길 권해드립니다. 여튼 이 값들로 계산하고 "우리가 생존분석을 쓰긴 했지만 t-test도 중요하게 보는 방법론이니 이걸로 계산했어~" 하는 거죠. 어차피 t-test에서 크게 유의하면 regression에서도 차이가 나고, t-test에서 유의하지 않으면 regression도 유의하지 않은 경우가 대부분이기 때문입니다. 이렇게 해서 통과 못하신 분은 한번도 못 봤습니다.
- "power가 너무 낮게 나오는데요?"
제일 답 없는 경우죠. 샘플을 늘리는 게 정석이나 연구비, 시간 등의 문제로 어려운 경우가 대부분입니다. 어쩔 수 없이 해당 연구는 '파일럿 연구'라고 기술하셔야 합니다.. 일단 파일럿 연구라는 말이 들어가면 샘플 사이즈나 파워로 시비 걸리진 않습니다. 하지만 그렇게 기술하기를 꺼려하시는데 그럼 데이터를 더 수집하시면 됩니다! 이건 통계로 어떻게 할 수가 없어요~
- "drop out rate가 너무 높다는데요?"
이걸로 식약처에서 코멘트 받아온 교수님 딱 한분 뵀습니다. 30%로 잡았다고 하더라구요.
이런 경우 환자를 많이 모집했다는 뜻이기 때문에 디펜스는 쉽습니다. 전술한 내용처럼 '중도탈락할 가능성이 높은 연구이기 때문에 통상적으로 사용하는 10~20%보다 조금 높게 잡았다.'고 답변하시면 됩니다.
'Statistics > Medical and Bio' 카테고리의 다른 글
논문 작성) p-value가 0.05보다 클 경우 주의할 점 (동등성 검정) (1) | 2022.08.02 |
---|---|
논문 작성) 모수/ 비모수 방법론 선택 (정규성 검토가 전부는 아니다) (0) | 2022.08.01 |
논문 작성) 통계적 방법론 선정 (Linear regression, Logistic regression, Survival analysis, mixed model 등) (0) | 2022.08.01 |