일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 텐서플로우
- 데이터분석가
- 딥러닝
- 파이썬
- 머신러닝
- 케라스
- Deeplearning
- machinelearning
- 의학논문
- 빅분기실기
- 데이터EDA
- 의학통계
- 코딩테스트
- Keras
- 빅분기
- CNN
- ComputerVision
- Python
- 컴퓨터비전
- 데이터전처리
- TensorFlow
- 데이터모델링
- 빅데이터분석기사
- AI
- 데이터분석
- 통계
- 데이터사이언스
- 인공지능
- resnet
- mnist
- Today
- Total
Be Brave, Be Humble
논문 작성) 통계적 방법론 선정 (Linear regression, Logistic regression, Survival analysis, mixed model 등) 본문
논문 작성) 통계적 방법론 선정 (Linear regression, Logistic regression, Survival analysis, mixed model 등)
해쨔니 2022. 8. 1. 18:43데이터는 모았고 연구 주제도 정했는데 방법론을 선택하지 못한 연구자들이 많습니다. 저 또한 분석 방법에 대한 질문을 정말 많이 받았습니다. 생각나는대로 간략히 정리해보겠습니다.
"도대체 어떤 방법론을 써야하나요?", "통계 너무 어려워요.. 선생님께서 적절한 방법으로 해주세요", "이 논문에선 이렇게 했는데 왜 저는 안 되나요?", "생존분석이 제일 좋은 거 아니에요?" ... 등등
- "도대체 어떤 방법론을 써야하나요?"
세운 가설에 따라 다릅니다만, 가장 쉬운 방법은 해석을 생각하면 되겠습니다. 가장 많이 쓰이는 방법론만 간략히 소개합니다. (통계 전공자이기 때문에 예시가 적절하지 않을수도 있으나 데이터의 유형에 초점을 맞춰 봐주세요)
a. Linear regression(선형 회귀)
종속변수가 연속형이며, '나이가 한 살 증가할수록 헤모글로빈 수치는 평균적으로 xxg만큼 증가한다.'와 같이
독립변수에 따라 달라지는 종속변수의 평균 변화량을 설명할 때 사용합니다.
b. Logistic regression(로지스틱 회귀)
종속변수가 이분형이며, '남자에 비해 여자가 암에 걸릴 위험이 xx배이다.' 와 같이
처리를 했을 때에 비해 하지 않았을 때의 위험도(odds ratio, 가능성)를 설명할 때 사용합니다.
c. Repeated measure anova(반복측정 분산분석), Mixed model(혼합 모형), GEE, GLMM 등등
종속변수를 여러번 관찰한 경우 사용합니다. 각 분석의 차이에 대해서는 추가 포스팅 하겠습니다만
포인트는 독립변수(설명변수)가 아닌 종속변수(결과변수)를 여러번 측정했을 경우이며, 이 측정 시점을 전부 다 반영하고 싶을 경우 사용합니다.
병원에 4번 방문 하였으나, 우리는 2번째 시점만 사용하고 싶다 하시면 linear나 logistic을 사용합니다.
d. Survival analysis (생존분석)
종속변수는 사망/생존, 발병/발병x와 같이 이분형입니다. Logisitc과 다른 점은 '시간'을 반영하는 분석입니다.
사망여부 뿐아니라 사망까지 걸린 시간도 중요하게 여길 때 사용합니다.
즉, event가 발생하기까지의 기간을 고려하여 생존함수 혹은 생존확률을 추정할 때 사용합니다.
생존 분석에도 많은 방법론이 있기에 추가 포스팅 하겠습니다.
- "이 논문에선 이렇게 했는데 왜 저는 안 되나요?"
백이면 백! 데이터 수집에 문제가 있습니다. 생존분석을 하고싶은데 event 발생까지 걸린 시간을 측정하지 않았다거나, 연속형으로 측정해야 하는데 이분형으로 측정한 경우 등..
제발 연구 시작 전에 사내 통계팀에 문의하여 데이터 수집에 관해 문의를 먼저 해보시길 바랍니다.
- "생존분석이 제일 좋은 거 아니에요?"
복잡하고 어려운 모델일수록 고차원의 분석이라 생각하는 연구자가 간혹 있는데 더 좋은 모델이란 건 없습니다.
나의 주장, 나의 데이터에 적합한 모델이 베스트 모델입니다.
예를들어, 모든 환자를 5년간 추적하여 총 8번의 시점에 걸쳐 관찰한 경우를 생각해 봅시다.
a) 이 8번동안 환자들이 어떻게 변화하였는지 알고싶다 => repeated measure anova, mixed mode, gee, glmm 등을 사용합니다.
b) event 발생여부와 그 때까지 걸린 시간이 중요하다 => 생존분석
c) 다 필요없고 event 발생했는지가 중요하다 => logsitc
d) 매 시점 각각의 event 발생 여부가 중요하다 => logisitc
이처럼 같은 데이터로 분석할 수 있는 방향은 무궁무진합니다. 주장하고자 하는 바에 따라 적절한 분석법 선택하시면 됩니다.
'Statistics > Medical and Bio' 카테고리의 다른 글
논문 작성) p-value가 0.05보다 클 경우 주의할 점 (동등성 검정) (1) | 2022.08.02 |
---|---|
논문 작성) 모수/ 비모수 방법론 선택 (정규성 검토가 전부는 아니다) (0) | 2022.08.01 |
논문 revision) Sample size와 Power 그리고 팁 (0) | 2022.08.01 |