:: 게시판
:: 이전 게시판
|
- PGR21 관련된 질문 및 건의는 [건의 게시판]을 이용바랍니다.
- (2013년 3월 이전) 오래된 질문글은 [이전 질문 게시판]에 있습니다. 통합 규정을 준수해 주십시오. (2015.12.25.)
통합규정 1.3 이용안내 인용"Pgr은 '명문화된 삭제규정'이 반드시 필요하지 않은 분을 환영합니다.법 없이도 사는 사람, 남에게 상처를 주지 않으면서 같이 이야기 나눌 수 있는 분이면 좋겠습니다."
14/04/01 17:08
단순선형회귀 같은데 2번은 그냥최소제곱법으로 추정하시면 됩니다. 엑셀로도 가능하고요.
34는 당연히0이고요. 5번은 최소제곱으로 추정하는과정에서 기울기에 관해 편미분과정에서 간단히 유도됩니다.
14/04/01 17:13
오오 적어주신게 바로 교수님이 설명하셨던 바로 그거네요. 막 편미분 나오고 혼자서 2시간 내내 설명해주시던!
근데 2번은 구하라는게 그냥 아무 숫자 구해서 뺀 뒤 그 합 최소로 하는 식을 엑셀에 적으란 건가요?
14/04/01 17:19
제가 지금 모바일이라 작성이 힘든데
y=b0+b1x+eps 에서 eps=y-b0-b1x입니다. 이를 제곱한 합인 편차제곱합을 최소화하는 방법이 최소제곱추정법인데요. 제곱합을 최소화하는 건 당연히 미분값이 0이되도록하는 값이라 b0 b1에 각각 편미분하신 후 연립하여 추정량을 구하는 거라고 생각하시면 됩니다. 직접계산해보시면 아시겠지만 b0hat=ybar-b1hat*xbar 이고 b1hat=sxy/sxx 입니다. 엑셀기능에 회귀분석이있을텐데 자동으로 계산해줍니다. 아니면 통계패키지같은걸 이용하셔도 되고요. 데이터가 적으니 손이나 계산기로도 가능은 할것 같군요..
14/04/03 18:12
친절한 답변 적어주셔서 감사합니다. 지금 이 댓글 폰으로 쓰면서도 답답한데 저 글을 어떻게 적어주셨는지! 과제 마무리 하느라 인사가 늦었는데 편차랑 잔차 차이를 결국 이해못하고 적어냈습니다 ㅜ
14/04/03 19:01
도움이 되셨다니 다행이네요.
확인하실진 모르겠지만 궁금하신 부분에 몇가지 적어보면.. 우선 단순성형회귀에 관해 말씀드리면 데이터는 당연히 선형식을 따르지 않습니다. 위에 주어진 데이터 6개의 dimension이 6이라면 이를 적합시키기 위해선 당연히 6차 다항식이 필요하죠. 그런데 선형회귀에선 이 데이터를 단순히 1차 다항식인 직선으로 적합시키려고 하는 것입니다. 즉 우리의 데이터가 선형식을 따른다고 가정하고 출발하는 것이죠. 여기서 문제가 생깁니다. 각각의 데이터가 완전한 선형이 아니기 때문에 가정한 모형에서의 오차가 생기겠죠. 이렇게 생긴 랜덤오차를 ε(편차)라고 부릅니다. 단순선형회귀의 ε 는 표준정규분포를 따른다는 가정을 아마 수업시간에 배우셨을텐데요. y=b0+b1x+ε라는 식에서 b0(intersep)와 b1(slope)로 데이터를 설명 할 수 없는 부분은 편차인 ε때문이라고 가정하는 것이죠. 그 다음 과정이 바로 b0와 b1을 추정하는 부분입니다. 직선식으로 적합을 시켰으니 그 직선식이 무엇인지를 알아야겠죠. 그리고 추정하는 과정은 위에 댓글에 적은 부분과 같고요. http://en.wikipedia.org/wiki/Simple_linear_regression 를 보시면 아시겠지만 b0hat과 b1hat은 우리가 얻은 data인 Yi 들과 Xi들의 식으로 표현됩니다. 즉 데이터를 가장 잘 설명하는 추정량을 구하는 것이죠. 이제 이렇게 얻은 추정량(계수)들을 이용하여 처음에 가정한 모형식인 y=b0+b1x+ε에서 b0와 b1자리에 추정량을 넣어줍니다. 결국 이러한 데이터 분석의 목적은 예측을 하기 위해서인데 모형을 세우고 계수를 찾는데서 끝난다면 아무 의미 없겠죠? 그러니 추정량을 통해 추정식을 구하고 이를 통해 새로운 관측값(예를들어 지금 경우엔 1996년의 가처분소득(X))을 얻었을때 1996년의 가계소비지출(Y)을 예측하는 것이죠. 그럼 다시 돌아가서 추정식 yhat = b0hat + b1hat * x 을 얻었는데 사실 생각해보면 데이터는 처음에 말했지만 당연히 완전한 선형식을 이루기 힘듭니다. 그렇다면 1996년의 가처분소득(X)가 주어졌을때 위 추정식의 X자리에 넣어주면 1996년의 가계소비지출(Y)을 예측한 값인 yhat값이 나올텐데요. 실제 1996년의 가계소비지출(Y)와 추정한 모형을 통해 예측한 값인 1996년의 가계소비지출(Yhat)값이 같을까요? 운이좋아 같을 수도 있지만 당연히 같지가 않겠죠? 이렇게 생긴 (y-yhat)을 잔차라고 부르는 것입니다. 정리하자면 편차는 가정한 모형에서 생긴 오차의 개념으로 우리가 관측할 수 없는 값입니다. 모형을 세우며 생긴 어쩔수 없는(?) 오차인 셈이죠. 하지만 잔차는 관측할 수 있는 값입니다. 실제값-추정값이기 때문이죠. 이렇게 오차를 관측할 수 없기 때문에 모형의 평가에 있어선 잔차를 이용 할 수 밖에 없겠고요. SST=SSR+SSE인 관계식도 아마 보셨을텐데 여기서 SSE가 잔차제곱합이라고 배우셨죠? 그럼 총변동 SST는 일정한데 SSE가 작은 값일수록 모형에서 오차에 의한 비율은 작고 가정한 모형식에 의해 설명되는 부분인 SSR, 즉 회귀제곱합이 크다가 되는 것이고 그럼 우리가 세운 선형식이 데이터를 잘 설명한다고 볼 수 있겠죠. 사실 회귀식을 세우고 계수를 추정하고 이런건 중요하진 않습니다. 모형의 평가와 진단부분이 훨씬 더 중요한 부분이죠.. 적다보니 뭔가 길어진 것 같은데.. 혹시 더 궁금하신 부분 있으시면 제가 아는 한 답변드리겠습니다.
|