:: 게시판
:: 이전 게시판
|
- PGR21 관련된 질문 및 건의는 [건의 게시판]을 이용바랍니다.
- (2013년 3월 이전) 오래된 질문글은 [이전 질문 게시판]에 있습니다. 통합 규정을 준수해 주십시오. (2015.12.25.)
통합규정 1.3 이용안내 인용"Pgr은 '명문화된 삭제규정'이 반드시 필요하지 않은 분을 환영합니다.법 없이도 사는 사람, 남에게 상처를 주지 않으면서 같이 이야기 나눌 수 있는 분이면 좋겠습니다."
16/05/24 15:07
네이버 지식인에서 본 구절을 인용하자면
"p값은 영어로 probability value 즉, '확률값' 다른말로는 관측된 유의수준입니다. 한마디로 정말 극단적인 값이 나올확률쯤으로 보시면 이해가 빠른데 보통 0.05를 많이 사용합니다. p값이 0.05라는건 극단적인 값이 나올 확률이 0.05 즉 5%밖에 안된다 그러니 95%는 믿을만하다고 볼수있고 5%정도의 오차정도는 감수할수있다라는 표현입니다." 라고 되어있는데요.. 제가 회귀분석에 사용한 관측 수가 29,938 개로 많기는 합니다. 따라서 "이 많은 관측 수 내에 회귀분석 수식값을 심각하게 벗어나는 데이터가 하나도 없었다" 면 0값도 가능은 한 것이고, 해당 분석 모델도 사용할수 있다고 볼 수 있는것인지요?
16/05/24 15:14
어느 소프트웨어를 사용하셨는지에 따라 디폴트로 정해진 digits이 달라서 확답은 어렵지만,
0값은 자주 관측되긴 합니다. 다만 이경우는 의아하긴 하네요. 경험적으로 비추어 보자면 모델도 설명력이 좋지않은데 p값은 0이군요. 그리고 F통계량이 0이라고요?? 그럼 모형의 설명력이 0이 된다는 얘긴데 이게 수리적으로 불가능해요. 어찌됐든 아주 작은값이라도 나올텐데 이부분 역시 소숫점버림에 의한 결과인가요?
16/05/24 15:17
P값이 0인 건 좀 의아하네요. 결정계수가 0.5도 안되는데 P값이 상당히 작게 나오는 것도 의아하지만 결정계수가 아무리 높다 한들 P값이 0으로 딱 떨어져서 나오는 게 불가능합니다. 주어진 정보가 적어서 판단하기가 어렵지만 일단 뭔가 문제가 있는 게 아닐까 하는 느낌이 듭니다.
16/05/24 15:27
네 저도 짧은 지식에 혼자서 검증해 본다고 1~10(1단위)을 독립변수로 100~1000(100단위)을 종속변수로 넣어서 돌렸는데도 P값과 F값이 0이 안나오더라구요
뭐가 문제인걸까요..
16/05/24 15:46
우선 소수점 자리수가 몇개로 되있는지 확인해 보시는게 어떨까 싶네요. 정말로 0.0000인지...
0.4라고 해도 정수로 표현하면 반올림해서 0이니까요. 그리고 x와 y로 점을 찍은 그래프를 올려주시면 정말로 0인지 알수 있습니다.
16/05/24 15:50
0인것은 확인했습니다.
0이 아니면 표시형식을 "일반"으로 두었을때 'E-00'형태로 출력될텐데.. 그냥 0으로 나옵니다. 말씀대로 그래프를 그려서 올려볼게요~
16/05/24 15:49
0이 아니라 0.000001정도일거고, 이 수치는 유의값 왼쪽의 t통계량 혹은 f통계량에 의해 결정됩니다. 보통 t통계량 기준 2.5만 넘어도 p값은 0.05이하로 내려가는데 이경우 두 t통계량이 100이 넘어가므로 p값은 매우 작은값이 나오게됩니다. 통계데이터 개수가 엄청 많다면 저런 사례도 자주보게 됩니다.
16/05/24 16:01
엑셀이 가지고있는 한계때문일 겁니다. T통계량과 자유도를 알고있다면 이 수치로 p값을 구하는게 가능한데, 0에 매우 가까운 아주 작은값이라 (컴터를 쓸수있다면 계산도 해드릴수있는데 지금 밖이군요...) 엑셀에서 계산을 안했을 가능성이 높습니다.
결론만 말하면 강력한 설명력을 가지고있지는 않으나 p값 문제는 없습니다.
16/05/24 16:04
앗 그렇다면 해당 회귀분석 모델은..
독립변수의 종속변수 설명력은 49.5%대로 낮은걸 감안했을때, 해당 모델의 신뢰성이 매우 높은 수준이라고 보아도 되는걸까요~?
16/05/24 16:30
제가 궁금한건 n 수개 어마어마한데 그에 맞는 변수들을 같이 회귀 분석을 돌렸는지 궁금합니다. 예를 들어 n 이 10만이면 서로 통계적으로 연관관계 없는 변수 최소 30-40가지 이상를 다항 회귀를 하여야 믿을만한 통계가 나오고, 그렇지 않으면 type 1 error 가 거의 무조건 나올 수 밖에 없습니다. 최근 의학 연구에서도 n 수가 수만 수십만 단위의.빅데이터가 나오고 있는데 type 1 error 가 너무 심해서 (거의 무조건 p 가 0.0000... 이렇게 나옵니다. ) 학계에서도 받아들이지 않는 분위기입니다. N 수가 많아지면 confounding factor 에 의한 변화가 감별이 너무 어렵습니다.
16/05/24 16:34
음 제가 무식쟁이라 정확히 이해는 못하였으나,, 독립변수와 종속변수의 매칭을 말씀하시는거죠~?
독립변수는 근속년수, 종속변수는 연봉으로 매칭했습니다. 물론 고용형태가 달라 근속년수와 연봉이 조금씩 다르게 매칭될 수도 있을것 같긴하나, 변수간의 연관관계는 어느정도 있다고 볼수 있을것 같습니다.
16/05/24 16:42
딱 두 변수를 놓고 상관관계를 회귀분석하면 n수가 많아지면 p는 무조건 작게 나옵니다. 정말 상관 없어보이는 것을 분석하더라도요. 교란 변수 (confounding factor) 를 공부하시면 이해가 좀 더 되실 겁니다. 적어도 인간이 개입된 사회현상에서는 교란 변수가 없을 수 없고, 회귀 분석을 할 때 이 교란 변수를 같이 넣고 돌리지 않는다면 독립적인 인자인지 확인이 되지 않습니다. 현재 얼리신 통계 는 univariate regression analysis 인데, n 수가아주 적은 경우에만 어쩔 수 없이 이 결과를 채용한다고 하더라도, n 수가 상당한 경우에는 반드시 여러 독립인자를 포함한 multivariate analysis 를 해야 믿을만한 자료가 나옵니다.
16/05/24 16:48
모바일이라 길게 적기가 어려운데, 예를 들어 건강에 어려움이 있는 사람들은 고려한다면, 건강이 좋지 않은 것이 근속 연수와 연봉에 각각 개별적으로 상관관계가 있다고 가정할 때 건강이라는 요인이 교란 변수가 되는 겁니다. X 와 Y 가 독립적으로 상관이 없는데 교란 요인 Z 가 X 와 Y 와 각각 상관 관계가 있다면 Z 의 교란으로 인해 X 와 Y 를 단순 통계를 돌리면 상관관계가 있는것처럼 나옵니다. 특히 n 수가 많아지면 이 현상이 더욱 심해지고요. 교란 여인을 보정하기 위해 다양한 독립적인 변수로 multivariate regressio 을 해야하는 것이고, n 수에 따라 적절한 변수의 수가 달라집니다.
16/05/24 17:05
쉽게 풀어 말씀해 주셔서 무슨말씀이신지 이해했습니다. 감사드립니다.
다만, 인사 유형이다 보니, 정규직, 계약직, 사업의 유형, 직무형태, 직급 및 직책 등 많은 교란 변수가 있을것으로 예상되나, 이들은 숫자로 표현될수 있는 성질의 변수들이 아니다 보니.. 제가 무식쟁이라 왜 안될것 같다고 생각하는지 정확히 표현하긴 힘드나.. 예를 들어 직급의 경우 부장은 1, 차장은 2, 과장은 3... 이런 형태로 변환해서 다중회귀분석을 한다고 해도 직급간 초임의 격차가 있고, 해당 격차가 다 동일하지 않을테니.. 단순 1,2,3으로 변환하는 것이 교란 변수를 명확하게 정의할수 없을것 같아서요.. 이런 논리를 확정하면 정규직인지 계약직인지, 공채출신인지 수시채용 출신인지, 사업조직이 어디인지등을 숫자로 표현해서 돌리는 것이 큰 의미가 없어질것 같아서 교란변수를 넣을수가 없을것 같습니다. 만약 교란변수를 최소화 하기 위해 변수값이 같은 애들끼리만 뭉쳐 회귀분석을 한다 하여도.. 총 변수 구분만 10~15개는 되는데 연봉이라는 복잡한 구조를 가진 녀석을 변수별로 뭉쳐 다 따로 회귀분석을 한들 해석에 어려움이 있을것 같아서요.. 이를 어찌해야 할지 모르겠습니다.
16/05/24 17:14
말씀하신 변수들을 독립변수로 하여서 돌리시면 됩니다. 통계 프로그램을 이용하면 yes or no 변수나 그룹이 나뉘는 변수 (말씀하신 차장, 과장... 급) 다 같이 넣고 돌릴 수 있습니다. 그리고 지금 샘플 같은 경우에는 일반적으로 나이/성별은 다항 회귀 분석에서 반드시 포함되어야 합니다. 학술적인 목적이라먼 n 수를 고려하여 15-20 개의 독립 변수는 필요할 것 같고 학술이 아니라면 그보다 적게 하고 대략적인 개관을 볼 수는 있겠습니다. 다만 이경우 통계의 설득력은 상대적으로 떨어지긴 하지만 단순 상관관계 분석보다는 훨씬 설득력이 있습니다.
16/05/24 17:58
그렇군요 통계 프로그램을 이용하면 해당 변수들을 다 같이 넣고 돌릴수 있는지 몰랐습니다.
통계 프로그램에 대해서 좀 공부를 해 보아야겠습니다 자세하고 알기 쉽게 설명해 주셔서 도움이 많이 되었습니다. 귀중한 시간 내어주셔서 정말 감사합니다. 좋은 하루 보내세요~~
16/05/24 17:07
일단 질문한 부분에 대해서는 충분히 답변이 되었고, 나아가 더 많이 배웠습니다.
많은 분들께서 생판 모르는 사람을 위해 이렇게 까지나 전문지식을 풀어 공유해 주셔서 너무너무 감사드립니다.
16/05/24 21:22
혹시나 도움이 더 필요하시다면 개인적인 쪽지 주세요.
이게 p값이 0이고 아니고를 떠나서, F통계량값이 0이 나온다는게 상당히 넌센스한 상황인지라 정교한 분석을 원하시면 분석방법에 대한 절차를 좀더 알아야 할것 같네요. 정말 간단하게 말씀드리면, F= sum ( )^2 / sum ( )^2 이런 구성인데 F가 0이려면 분자가 0이거나 분모가 상당히 커야겠죠. 그런데 exact하게 0이라 하신걸 봐서는 후자는 아닌것으로 보이는데, 일반적인 euclidean metric을 사용한 squared loss function하에서 분자가 0이 나올수가 없습니다. 이상해도 상당히 이상한 결과군요.
|