:: 게시판
:: 이전 게시판
|
- PGR21 관련된 질문 및 건의는 [건의 게시판]을 이용바랍니다.
- (2013년 3월 이전) 오래된 질문글은 [이전 질문 게시판]에 있습니다. 통합 규정을 준수해 주십시오. (2015.12.25.)
통합규정 1.3 이용안내 인용"Pgr은 '명문화된 삭제규정'이 반드시 필요하지 않은 분을 환영합니다.법 없이도 사는 사람, 남에게 상처를 주지 않으면서 같이 이야기 나눌 수 있는 분이면 좋겠습니다."
23/04/04 00:52
제품별로 만드는 기간이 다를텐데 한꺼번에 분석해서 그런 것 아닐까요? 만드는 데 걸리는 시간이라는 게 생산에 걸리는 시간인지, 아니면, 개발에 걸리는 시간인지를 파악해야 하는데, 개발 시간은 선형 비례하지 않을 테니, 당연히 상관관계가 없을 테고요. 최종적으로 무슨 결과를 도출하는지가 중요합니다. 그리고, 동일한 제품을 연도별로 생산하는데 시간이 증가하고 있다면, 회사에 문제가 있다고 볼수 있겠네요. ^^
23/04/04 01:16
제가 조금 애매하게 설명했네요..
올린 그래프는 예시로 5개중에 같은 제품 데이터인 1개만 보여준 것입니다. 저런 그래프가 각 제품별로 4개 더 있습니다. 그리고 제품 개발 말고, 생산에 걸리는 시간만 파악하려고 하고있습니다. 만약 각 연도별 평균값으로 분석한다면 시간이 증가하고 있다(회사에 문제가 있다)는 결론이 나오는데, 평균값이 아니라 첫번째 방법으로 분석한다면 R2값이 낮아서 이런 결론을 내리기 힘들 것 같아서요. 연도별 평균값으로 분석해도 의미있는 분석이 될지 궁금해서 질문 드렸습니다..
23/04/04 03:40
분석 방법, X, Y가 뭔지 알수 없어 도움을 드릴수 있는데에 한계가 있습니다만... 원론적으로 몇가지 말씀 드리자면:
1. 혹시나 통계에 익숙하지 않으시다면, 상관계수(r)와 결정계수(R^2)를 헷갈린게 아닌지 확인할 필요가 있습니다. 이거 두개 헷갈리는 경우 은근 많거든요. 상관계수가 낮은건 통계적으로 유의미 하지 않을수 있지만, 결정계수가 낮은건 한계가 있을지언정 유의미할수 있습니다. 2. 숫자 말고 이론적인 측면도 중요합니다. 오리지날 raw data를 이용하는 대신 연도별로 평균값을 낸 수치를 이용할때, '더 잘 맞아 떨어져서' 말고 평균 내서 묶을만한 합리적인 이유가 필요해 보입니다. 가장쉽게 합리화 할수 있는 방법은 '선행연구(분석)중에 이런 방식으로 한게 있다' 입니다. 3. 결과에 영향을 미칠만한 제3의 변수가 없는지 잘 체크하고 컨트롤 해야 할듯 합니다. 예를 들어, 10년 사이 회사 시스템이 크게 변한적이 있다면 그 변화 전/후를 따로 (또는 비교) 분석해야 의미 있는 분석이 될수 있습니다. 전/후 비교 분석엔 Regression discontinuity 또는 Difference in differences 같은 기법이 유용합니다.
23/04/04 04:38
X는 날짜이고, Y는 기간입니다. 그리고 분석 방법이라고 말씀 드릴만한게 없습니다.. ㅜㅜ
1. 상관계수와 결정계수를 헷갈린게 맞네요.. 이것부터 공부해야겠습니다. 2. 선행연구나 분석이 없어서 이 방법은 못 쓸것 같은데.. 어떤 방법이 적절한지 더 고민해봐야겠네요. 3. 이 부분도 한번 더 봐야겠네요. 이 답변을 보니 제 생각보다 훨씬 더 많은 배경 지식이 필요하군요.. 답변 너무 감사합니다!
23/04/04 07:46
대댓글 감사합니다, 이제 살짝 감이 오네요. 보통 상관관계 파악은 통계 다루는 분야 석/박사 한 사람이 다중회귀분석 정도는 돌려야 되는건데... 통계에 익숙치 않은 분께 이런 업무가 주어지다니, 고생 하시네요.
전문 소프트웨어 없이 엑셀 정도로 할만한 방법 권고해 드리겠습니다. 물론 지금부터 권고해 드리는건 제가 앉은 자리에서 즉흥적으로 '나라면 어떻게 분석할까'를 나열하는것 뿐이니, 참고는 하시되... 본인 판단에 따라, 말이 안된다 생각되는 부분은 인터넷 키보드 워리어의 헛소리라 생각하고 무시해 주셔도 됩니다. 편의상 반말 미리 죄송합니다: 1-1. 위의 나온 1번 그래프를 만든 방법을 다시 시도하되, 선형 그래프 말고 log나 다른 형태의 그래프 중 높은 R2를 보여주는 그래프가 있는지 확인한다. (눈대중으로 대충 보기엔 다른 모양이 선형보다 딱히 나을 가능성은 적어 보이긴 함) 1-2. 선형 그래프를 그대로 유지하게 될 경우, 위에 1번 그래프를 토대로 일단 결론을 한번 정리한다. 대략 '전반적으론 봤을때 시간이 지날수록 생산기간이 길어짐이 보인다. 다만, R2값이 낮아 이 분석을 액면가 그대로 받아 들이는데엔 한계가 있으며, 추가 분석이 필요하다' 정도의 결론 가능. 2-1. 연도별로 생산기간을 정리하고, 연도별 평균을 보여준다. 위에 나온 2번 그래프만으론 유의미한 분석이 되기 어려울수 있지만, 생산기간이 오르는 해도 있고 떨어지는 해도 있음을 보여주기 위함. 2-2. 연도 두개씩 짝지어 (2010년vs2011년, 그 다음 2011년vs2012년, 2012년vs2013년...) t-test 또는 fishers exact test를 돌려, 두 해의 생산기간 평균이 통계적으로 유의미하게 다른지 p-value를 구해 알아본다. 2-3. 유의미한 p-value가 나온 경우를 보고하고, 그 시기에 일어난 회사 내/외적인 변화를 정리해 가능한 원인(가설?)으로 제시한다. 대략 '2012->2013년 넘어갈때 통계적으로 유의미한 생산기간 하락이 있었는데, 그 시기엔 AAA, BBB 일들이 있었고, 이것들이 하락에 영향을 줬을수 있다. 2013->2014년, 2014->2015년 사이엔 통계적으로 유의미한 차이가 발견되지 않았다. 2015->2016년 넘어갈땐 통계적으로 유의미한 샌산기간 성장이 있었고, 그 시기엔 CCC, DDD 일들이 성장에 영향을 줬을수 있다. 추후에 AAA, BBB, CCC, DDD를 포함한 데이타가 주어진다면, 그들을 변수로 넣어 회귀분석을 돌리고 더 정확한 원인 파악이 가능하다'정도의 결론 가능. 제가 글 실력이 부족해, 이해하기 좀 난해하게 쓰인듯 합니다만... 아무쪼록 도움이 됐으면 합니다.
23/04/04 12:58
댓글 정말 감사합니다. 리포트의 방향이 조금 잡혀가는 것 같아서 조금 마음이 놓입니다.. 댓글 주신것들 차근차근 공부해가면서 분석해봐야겠네요.
23/04/04 09:15
1. 연도별로 생산한 제품의 갯수가 많이 다르다면 연도별 평균값을 낸 후에 그래프를 그리는 분석이 완전히 틀렸다고 볼수 있는데 올려주신 데이터는 그래 보이지는 않습니다. 1번 데이터만 봐도 약간의 증가 트렌드는 있어 보이네요.
2. 추가로 분석을 해보시고 싶으시다면 다른 feature들을 1번 데이터에 결합한 후 그 축을 포함한 3차원 그래프를 그려보세요. 가령 제품의 크기라던지, 무게, 생산 계절, 품질 등등..... 그러면 뭐가 원인이었는지, 혹은 원인이 아니었는지에 대한 추가적인 정보를 얻고 가설을 세운 후 검증해볼 수 있겠죠.
23/04/04 09:50
1. 정보가 많이 부족하긴 한데, 1번 그래프를 보면 다른 점들 대비 유독 튀는 값들이 몇 개 있어서 추세선이 살짝 올라간 듯 보이네요. 저 튀는 값들을 결측 처리할지 검토해보고 데이터를 정비할 필요가 있어 보입니다. 근데 좌측 하단을 보면 바닥에 깔린? 점들이 계속 있어서 눈에 띄네요. 특정 연도 시점 기준으로는 그렇게 바닥에 깔리는 점들이 줄어들었는데, 이러한 특징과 + 튀는 값의 조합으로 약하지만 상관성이 나타난 걸로 보입니다.
2. 저도 윗분 말씀처럼 생산 수량, 생산 제품의 종류, 계절, 품질, 투입 인력, 투입 시간, 투입 일자 등 고려할 수 있는 변수가 정말 많을 것 같아요. 변량 분석이나 중다회귀 등 여러 변수를 투입하고 조건별 하위 그래프, 테이블을 뽑아보면서 유의미한 지점을 찾아내는 탐색 작업이 필요하겠네요.
23/04/04 13:10
1. 저 튀는 값을 어떻게 처리할지 계속 고민중에 있습니다. 단순 상/하위 몇% 데이터를 빼는게 맞는지, 표준편차를 이용해서 걸러내는게 맞는지... 별로 어렵지 않을거라 생각하고 시작했는데, 생각보다 복잡하네요..
2. 생각 안해본 다른 변수들도 고려해보겠습니다. 도움이 되었습니다. 답변 감사합니다!
|