:: 게시판
:: 이전 게시판
|
- PGR21 관련된 질문 및 건의는 [건의 게시판]을 이용바랍니다.
- (2013년 3월 이전) 오래된 질문글은 [이전 질문 게시판]에 있습니다. 통합 규정을 준수해 주십시오. (2015.12.25.)
통합규정 1.3 이용안내 인용"Pgr은 '명문화된 삭제규정'이 반드시 필요하지 않은 분을 환영합니다.법 없이도 사는 사람, 남에게 상처를 주지 않으면서 같이 이야기 나눌 수 있는 분이면 좋겠습니다."
16/03/08 17:41
데이터가 얼마나 많냐에 따라 다르긴 할텐데, 원본 데이터가 정규분포를 따르고 + 엄청 많을 경우(수만개이상) 30개이상 임의의 데이터를 표본으로 뽑아 z-test를 수행해보는 것도 방법이지 않을까 싶습니다. 표본집단이 모집단의 특성을 얼마나 잘 반영하는지 확인할 수 있는데, 이걸 다르게 해석하면 데이터가 얼마나 이쁘게 잘 퍼져있는지도 볼 수 있거든요.
16/03/08 17:53
z-test에 대해 모르니 찾아봐야겠네요. 찾아보니 t-test, f-test, ... ㅜ.ㅜ 어렵군요.. 감사합니다. 좀 더 읽어볼께요 ^^;
16/03/08 18:04
z-test는 두 집단간의 평균차이를 검정하고, t-test는 z-test와 비슷하지만 집단의 분산을 알기 어렵고 표본의 크기가 30개 미만일 때 사용합니다. f-test는 변인이 3개 이상(ex: 20대 vs. 30대 vs. 40대)일 때 사용합니다.
평균, 표준편차, 분산 같은 데이터에 대한 모든 것을 알고 있고 바로 계산하실 수 있으니, z-test를 응용해 원본 데이터와 임의로 뽑은 표본 집단간에 수행해보시고 유의미한 수준에서 평균이 같은지 확인하면 최소한 데이터가 고르게 의도한대로 퍼져있는지는 알 수 있지 않을까..하는 생각이 들었습니다. '유의미한 수준에서 평균이 같은지'는 엑셀등의 툴에서 z-test 수행시 유의수준을 지정할 수 있게 되어 있으니 관련 레퍼런스 읽어보시면 바로 이해 되실거 같아요.
16/03/08 18:07
그런 자료 해석은 통계학보다는 현재 속해 있는 학문의 연구자로서 견해가 들어가야할 자리인것 같습니다.
특히나 평균값의 경우에는 더더욱 연구자의 해석이 중요한데, 가령 시험점수의 평균이 90점이라는 '통계'는 평균값을 제시할 뿐 아무런 해석을 할수가 없습니다. 교육자가 시험의 난이도 등을 고려하여 이 정도면 높은 평균이다, 낮은 평균이다 라고 해석을 하는 것 뿐이죠. 표준편차의 경우에도 비교할 대상이 없는 경우에는 오히려 표준편차보다 분위를 나누어 생각해보는 것이 좋은 해석이 나올수도 있을것 같네요. 시험점수의 평균은 90점이고, median은 97점일 경우 평균이 극히 위로 치솟고 중위권이상의 변별력은 없으며 공부를 전혀 못하는 학생들만 판정해 낼 수 있는 시험이었으므로 이 시험은 난이도 조절에 실패한 시험이다. 이렇게 결과를 낼수 있구요, 또한 상위 10% 25%, 50%등의 분포를 보니 고르게 분포되어 있어서 학생들 간 실력차를 적절하게 반영한 시험이었다. 이렇게 해석을 할수도 있는 겁니다. 중요 요지는 통계는 결과를 제시할 뿐 그에대한 평가는 해당 연구를 시행하는 연구자가 하는 것입니다. 주저리주저리 쓰긴 했는데 질문자분께서 하는 질문을 제가 제대로 이해했는지가 의문이긴 하네요 ^^;
16/03/09 09:18
네 통계 잘 하시는 분들이 해석이 중요하다고 하시는 이야기는 저도 자주 들었는데... 전 통계를 모르니 해석보다 일단 해석을 하기 위한 도구가 필요한데, 그 도구가 적절한 게 없는지 찾는 과정이구요, 아무 것도 모르니 도구를 어디가서 찾아야 하는지도 모르는거죠 ^^; 도움 말씀 감사합니다.
16/03/08 19:26
변동계수를 써보세요.
스케일이 다른 산포도를 구하는데는 최곱니다. 공식은 표준편차/평균 그리고 평균은 t-test로 검정하시면 될겁니다.
|