안녕하세요. 오늘은 모처럼 일하고 있는 이슬먹고살죠입니다.
변수 A, B, C가 있습니다. 변수들은 서로 독립적이며, Binary합니다. 간단하게 이진법으로 생각해도 될 것 같아요. 맞으면 1, 틀리면 0으로...
저는 이 변수를 가지고 있는 수많은 표본을 가지고 있습니다.
이를테면 표본 746은 (not A, B, not C)이고, 표본 566은 (A, not B, not C) 인거죠. 간단하게 표본 746(0,1,0), 표본 566(1,0,0)으로 표현합시다.
자 이제, 저는 이 표본집단의 평균 일치율을 보고자 합니다. 여기서 일치율이란 1이 나온 경우를 말해요.
표본집단 1,000명 중 700명이 A, 300명이 not A가 나왔기 때문에 A의 일치율은 0.7입니다. 나머지도 비슷하게 계산했더니...
일치율 A = 0.7
일치율 B = 0.9
일치율 C = 0.7
로 나왔습니다. 그러나 제가 구하고자 하는 일치율의 중요도 비중이 B가 가장 높아요. 비율로 따지면 2:6:2 정도죠.
[저는 이 모델의 일치율이 0.82라고 봅니다.] 단순하게 비중 곱해서 더했을 때 나오는 값이죠. 즉 (0.7*0.2)+(0.9*0.6)+(0.7*0.2)=0.82 로요.
이제 질문이 있습니다.
[1. 제가 마지막에 0.82를 구하는 비중 곱해서 더하는 방법은 이런 모델을 다룰 때 옳은가요?]
[2. 만약 옳다면, 이러한 "비율간의 가중치를 고려해 가중평균을 내리는 방법론"을 뭐라고 부르죠?]