애​옹​ [800274] · MS 2018 (수정됨) · 쪽지

2021-12-23 12:22:54
조회수 43,695

표본분석 글 하나로 정리하기

게시글 주소: https://snu.orbi.kr/00042115932

1. 표본분석이 무엇인가요?


표본 분석은 말 그대로 표본을 분석해서 합/불합을 예측하는 방법입니다.


일부 합격예측사이트에서 지원하려는 학교와 과에서 내 위에 사람들의표본을 볼 수 있는데, 이 표본을 분석하는 것입니다.


이 표본을 보고 내가 합격할 수 있을지를 예측하는 방법입니다.




2. 표본분석은 언제부터 해야하나요?


표본분석을 시작해야하는 시기는 수시모집이 끝날때쯤 해도 늦지 않다고 생각합니다.


수시가 거의 끝나갈때쯤에야 모의지원 사이트에 표본들이 제대로 지원하기 시작하는 느낌이 살짝 들어서입니다.


그렇지만 분석만 제대로 한다면, 표본 입력과 분석에 걸리는 정말 많은 시간을 긴 기간동안 분산시킬 수 있어 빨리할수록 시간적 여유가 더 생기기에 빨리할수록 좋은것같습니다.




3. 표본분석은 어느 구간까지 가능한가요?


아래에도 서술하겠지만, 모의지원 사이트를 사용하지 않고 지원하는 사람들이 존재합니다.


즉, 우리가 분석한 표본에 없는 실지원자가 생깁니다.


이 사람들은 대학 급간이 낮아질수록, 누적되어 증가하고, 성적이 낮을수록  모의지원 사이트를 이용하는 수도 줄어들기 때문에 건동홍 라인 아래는 표본분석을 해도 예측 확률을 높힐 순 있겠지만 불확실성이 너무 커져 표본분석이 그렇게 중요하지 않다고 개인적으로 생각합니다.




4. 표본분석은 어떻게 하나요?


정시원서는 3장이기때문에, 보통 3장을 쓰고 세곳에 붙으면 나머지 두곳은 합격해도 입학 포기하게 됩니다.


그래서 '빠진다'라는 현상이 발생하고, 추합이 도는 것입니다.


내 윗 등수 표본들이 다른학과에 합격해서 가면, 추합이 한명 더 도는것입니다.


표본분석은 앞사람들 점수와 지원한 대학을 보고, 내 윗 등수중 몇명이나 빠질지를 계산하는 방법입니다.




그럼 이제 표본분석이 뭔지는 알겠는데 어떻게 하는지는 잘 모르시겠다는 분들을 위해 정말 상세하게 표본분석 방식을 설명하겠습니다.


제가 작성한 양식 설명 글을 조금 수정한거라 설명은 좀 건너뛰시고 분석하는 방법부분을 읽으시면 됩니다.


원본은 네이버 블로그에 있습니다


------------------------------------------------------------------------------------------------------------------


표본분석을 위해 표본을 제공해주는 사이트에서 볼수잇는 표본이 필요합니다.


표본분석을 새로 시작하는 것으로 가정하고 설명해보겠습니다.

입력된 숫자들은 임의로 작성한 숫자와 정보로, 실제 표본이 아닙니다.


1. 우선 표본분석양식 시트를 우클릭해 복사

표본분석을 할 학과만큼 시트를 복사합니다. 시트 하나당 한 학과를 분석할 수 있습니다.




2. 제목란의 학교/학과란을 작성

3. 전년도 결과 등 입력




4. 표본 성적 입력

이젠 표본을 긁어와야할 차례입니다.

표본의 대학 환산점수, 수능 선택과목과 성적, 실제 지원 대학들을 엑셀에 한 줄씩 입력해 줍니다. 자기보다 앞등수는 모두 입력해줍니다.





5. 지원 대학/학과 입력

앞 등수들이 지원하려는 대학과 학과를 적습니다.




6. 성적표 인증 여부

T/F 중 하나의 텍스트만 입력해 줍니다.




7. 확률변수표

여기까지 입력하였으면, 이제 오른쪽표에 계산된 값이 나옵니다.

각각 확률은 왼쪽 위, 제목 아래 있는 확률 변수에 따라 계산됩니다. 저 왼쪽 위의 확률 표를 수정하면 전체 확률도 다시 계산되므로, 임의로 수정하면서 기준을 짜게잡거나, 널럴하게 잡을 수 있습니다.

확률표를 수정하면 전체 계산이 달라집니다.







8. 수동 확률란

수동 확률란에는 앞서 변수로 계산한 확률과 표본의 점수대, 지원대학 우선순위, 성적표 인증 여부 등을 파악해 수동으로 직접 그 표본이 빠질 확률을 적습니다.

수동 확률란을 써야하는 이유는 사람들이 1 2 3 지망을 명확하게 썼다는 보장이 없기 때문입니다. 또한 표본이 허수인지도 고려해야합니다.


표본을 1등부터 분석해봅시다.


1등 표본은 연대식 713이면 지거국의대도 가능한 성적인데 그 성적으로 1순위가 연대 전전이므로 의심을 해볼만 합니다. 진짜 공대에 뜻이 있어 공대를 갈 수 있다고 가정을 해봐도 가군엔 서강기계가 아닌 서강 전자 또는 성대 반도체를 썼어야 될 것이라고 생각이 됩니다. 또 성적표도 인증되지 않았습니다. 허수 표본이라고 판단을 하여, 빠질 확률을 99%로 예측한다고 했을때, 확률 수동 란에 99%를 적습니다. 비고란은 메모처럼 쓰시면 되는데 허수 의심 표본이라 허수 라고 적었습니다.


2등 표본은, 성반시공을연전전보다 우선순위로 놓았는데, 다군 계명의도 최초합 성적입니다. 과연 저 표본은 의대와 연대를 붙고도 성반시공에 갈까? 라는 의심을 하며 빠질 확률(= 계명의 or 성반시공에 갈 확률)을 50퍼로 예측한다고 가정하면, 확률 수동 란에 50%를 적습니다.


3등 표본은 1순위가 설전정이고 2순위가 연전전 입니다. 3순위가 인하의지만 지금 보이는 바로는 모두 불합으로 보여, 원서를 저렇게 쓰면 거의 설떨 의떨 연전전이 될것으로 예상됩니다. 빠질 확률(=설전정에 붙어서 가거나, 인하의에 붙어서 갈 확률)은 2%정도로 예측하여 확률 수동 란에 2%를 적습니다.


4등 표본은 1순위, 2순위가 모두 의대이고, 합격권으로 예상되어 빠질 확률(=앞순위 의대에 붙어서 갈 확률)을 99%예측해 확률 수동 란에 적습니다.



이런 식으로 모두 분석해 확률을 적어주면 됩니다. 수동 확률도 수동으로 입력한 전체 표본의 빠질 확률을 모두 더한 값(=예측되는 빠지는 인원 수)이 맨 위에 나옵니다.





9. 수동 in/out

수동 확률란과 같은 방법인데, 좀더 rough하게 어느정도 빠질 것 같은 사람은 out, 거의 안 빠질 것 같은 사람은 in을 표기하고, 애매한건 비워둡니다. 나중에 비워둔 부분을 한번 더 보는 식으로 여러번 분석할 때 편합니다.

이전 년도의 표본분석기에서 수동 확률, in out count 란을 각각 한개씩 더 추가했습니다. 한번 더 분석 기준 강도를 다르게 해서 비교하실 수 있습니다.


.



10. 날짜 별 변동

표본분석에서 정말 중요합니다. 표본이 업데이트될때마다 새로 생긴 표본을 추가하고, 빠진 표본을 체크해야합니다.

오른쪽 날짜란이 있습니다. 20번의 변동 분석이 가능합니다.

우선 표본분석 첫날은 날짜별 등수가 표본 전체의 등수와 같기때문에, 표본의 등수들을 그대로 날짜1 표에 적어줍니다.

첫날은 변동이란게 없기때문에 여기서 끝입니다.




다음날 표본이 업데이트가 된 경우

(1) 점수와 지원한 대학/학과를 보고, 표본이 지원 대학/학과 및 우선순위를 바꿨는지 확인합니다.

앞 등수 지원자들을 하나 하나 확인합니다. 바뀐 경우 엑셀의 표본을 수정합니다. 이때 앞 등수 중 없어진 표본은 빠졌다고 엑셀에서 지우거나 하시면 안됩니다.



(2) 우선 새로운 표본이 등장하였을때, 엑셀에 표본을 추가합니다.

추가하는 방법은 다음과 같습니다.

새로운 표본의 등수는 그날의 등수가 아닌 대학별 환산점수를 보고 전체 점수에 맞는 란에 넣어야 합니다. 점수의 위치가 9등이라고 하면, 9등이 있는 행의 왼쪽 행번호 버튼을 우클릭하여 삽입을 눌러줍니다


생긴 행에 표본의 점수, 성적, 우선순위를 입력하고 분석을 해줍니다. 제일 좌측 전체등수는 자동으로 바뀝니다.



(3) 분석이 끝나면, 두번째 분석이니 두번째 날짜 란에 다시 합격예측 리포트를 키고 앞등수 지원자들 점수를 보고 그날의 표본들 등수를 적습니다.

위와 같이 앞에 전체 9등이 새로 들어왔지만, 위에서 3명이 나가 다음날 등수는 11등이라고 가정합시다.

점수를 보고 다음처럼 앞 표본들의 등수를 적으면 됩니다.



어느 표본이 빠졌는지는 점수를 보고 그 표본의 그날 등수만 적으면 전날과 비교하여 어떤 표본이 나가고 어떤 표본이 들어왔는지 알 수 있습니다.


날짜란에 등수를 적으면, 전날 표본과 비교하여 변동 란에 나갔는지, 들어왔는지가 표시됩니다. 날짜별 상단의 표는는, 그날 들어와 있는 표본들로만 계산된 자동, 수동1, 수동2 예측 통계, 성적표 미인증자 수, 전날 대비 표본의 변동을 보여줍니다.


날짜별 좌측의 표는 지금까지의 날짜별로 계산된 표본들의 평균을 보여줍니다.


표본 분석을 여러 일에 걸쳐서 하는 이유가, 매일 변동되는 표본들 중 들어갔다 나감이 잦거나 한 표본들이 이 학과에 지원할 가능성도 고려해야하기 때문입니다.


표본이 업데이트 될때마다 위 (1),(2),(3)을 반복하면 표본이 쌓입니다.




이제 쌓인 표본을 가지고 자주 변동되는 표본, 허수 의심 표본, 미인증 표본, 매일 매일의 예측값들 변화 등을 보면서, 원서지원 전 최종적인 예측을 하면 됩니다.







표본분석에서 고려해야될 부분은 크게 다음과 같습니다.


1. 구할 수 없는 표본

표본을 제공해주는 사이트를 사용하지 않고 지원하는 사람들이 있습니다. 즉, 분석한 표본에 없는 실지원자가 생깁니다. 대학 급간이 낮아질수록, 이런 표본에 없는 실지원자가 누적되어 증가하고, 성적이 낮을수록 표본을 등록하는 수도 줄어들기 때문에표본분석의 효용이 떨어집니다.


2. 허수 표본

수시합격자지만 수시합격을 밝히지 않고 수능 성적을 가지고 지원하는 척 하는 경우, 성적표를 허위로 입력해 지원하는 척 하는 경우, 이외에도 알 수 없는 이상한 허수 표본들이 존재합니다.


3. 지원자의 지원 우선순위

3개의 학과를 정해서 실지원은 하지만, 그 세 학과들간의 우선순위는 막 입력한 표본이 존재합니다. 예를들면, 제가 표본분석을 할때 다른군에 지원한 의대는 합격권인데 연전전을 1순위로 놓은 표본들이 상당히 있었는데, 이 표본들 적어도 두명중 한명은 연전전에 지원하지 않을거라는 생각으로 수동 확률을 약 50%로 잡았습니다.


4. 표본분석을 한 다른 표본

표본분석을 하는 사람들이 많아지면, 표본분석을 통한 예측이 어려울 수 있습니다. 표본분석으로 비슷한 예측을 한 사람들이 생기고, 그 사람들이 같은 생각으로 같은 곳을 지원하게 되면 오히려 폭이 나버리는 상황이 발생할 수 있습니다.





표본 분석은 표본을 입력하는것부터 분석까지 정말 정말 정말 정말 많은 시간이 드는 일입니다. 그렇기에 표본분석을 알아도 제대로 안하는 사람이 많습니다. 표본분석을 하는 사람이 많지 않기에, 표본분석을 하는게, 안하는 사람들과 유의미한 차이를 만들 수 있다고 생각합니다.

입시예측이라는게 정말 많은 변수와 불확실성이 있습니다. 표본 분석을 한다고 무조건 폭은 피할수 있다, 스나이핑 성공할 수 있다 같은건 당연히 불가능 합니다. 그러나 예측이 성공할 확률을 높이는 방향으로, 표본분석은 상당한 효용이 있다고 생각합니다.

이 글에는 표본분석을 하는 정말 구체적인 방향이 제시되어 있으니, 잘 참고하셔서 어려운 정시 입시 꼭 성공하시면 좋겠습니다. ??




0 XDK (+10)

  1. 10