:: 게시판
:: 이전 게시판
|
이전 질문 게시판은 새 글 쓰기를 막았습니다. [질문 게시판]을 이용바랍니다.
통합규정 1.3 이용안내 인용"Pgr은 '명문화된 삭제규정'이 반드시 필요하지 않은 분을 환영합니다.법 없이도 사는 사람, 남에게 상처를 주지 않으면서 같이 이야기 나눌 수 있는 분이면 좋겠습니다."
10/05/31 18:26
음...제가 잘 못 알고 있나요?
1에 가까워야 하는거 아닌가? 0.486 이면 별 상관 관계가 없는 것 같은데... 최소 0.7 이상은 아닌가요?
10/05/31 18:50
아 다시해야 되려나요 ㅜ 근데 이 자료가 흡연자와 폐암 환자의 상관관계인데 왜 이렇게 값이 작게 나오는건지 ㅜ
답변주신분들 감사합니다
10/05/31 19:16
옛날에 저도 이 문제 때문에 고민한적 있어서 교수님 한테 여러번 여쭤봤었는데 특정한 기준점을 두고 판단할 필요는 없답니다. 0.486이면 충분하다고 생각합니다.
10/05/31 19:27
일단 직관적으로는 여부가 없이 알자승 값이 높아야 될 것 같은 경우도 사실 수많은 요인들이 복합적으로 영향을 미치고 자료베이스의 선정문제등으로 인해 정말 깔끔하게 뽑아내기는 힘들수도 있다고 하네요
10/05/31 19:40
질문하신 분이나 답변하신 분들이나 R-Squared 값의 수학적 도출과정과 그 정의를 한번 보시는게 도움이 될 것 같습니다.
간단하게 말씀드리면 target variable 이 모델에 의해서 설명되는 비율입니다. 올바른 분석방법을 택했다는 가정하에 모델끼리의 fitness 정도를 비교할 수는 있어도, 모든 경우에 유니버설하게 통용될 수 있다는 R-Squared 값같은건 없다고 봅니다. 값이 낮게 나오는 것은 여러가지 이유가 있겠지만 그것 자체가 말해주는건 별로 없습니다. 흡연여부와 폐암발병여부라면 당연히 통계적으로 유의하다고 나오긴 했을 것 같구요~ 설명변수가 하나밖에 없는것이 낮은 R 값의 가장 큰 이유겠구요. 더군다나 하나밖에 없는 설명변수가 dummy variable 이라면 더더욱 그렇겠죠 제 생각으로는 올바른 regression 방법을 선택하지 않은 것도 또 하나의 이유일 것 같네요. 설명변수만 dummy 가 아니라 target 마저 binary response 니까 Probit 같은 binary-response model 을 쓰는 것이 맞을 것 같습니다만, 배우지 않은 부분이라면 그냥 0/1 변수를 가지고 0/1 변수를 예측하는 것에 한계가 있다는 정도만 알고 계시면 될 것 같습니다.
|