본문 바로가기
데이터분석 준전문가(ADsP)

[ADsP] 데이터분석 준전문가 39회 기출 문제 복원

by 꾸찌뽕잎 2024. 5. 4.

39회 ADsP 기출 복원

* 기억에 의존해 만든 자료로 잘못된 내용이 반영 되어 있을 수 있으니 공부차원에서 한번 더 확인 바랍니다. 틀린 내용이 있으면 댓글 부탁 드립니다.

데이터분석 준전문가(ADsP) 1과목 : 데이터 이해

1번) 데이터 베이스에 대한 설명으로 틀린 것은?

① 통합된 데이터로 데이터베이스 내에 동일한 내용이 중복될 수 있다.
② 실시간 접근이 가능하다.
③ 저장된 데이터 간에는 연관성이 있다.
④ 모든 응용 시스템들이 데이터베이스를 공용할 수 있다.

 

답: ①
해설: 데이터베이스는 데이터 중복을 최소화하여 데이터의 일관성과 무결성을 유지하는 것이 목적이므로, 동일한 내용이 중복되어서는 안 된다.

 

2번) 암묵지-형식지 상호작용에 대한 용어와 설명이 잘 연결된 것은?

① 표출화 : 암묵지가 형식지로 전환되는 과정
② 연결화 : 형식지가 상호결합하면서 새로운 형식지를 창출하는 과정
③ 학습화 : 형식지가 개인의 지식 기반 속에서 체화되는 과정
④ 내면화 : 개인과 개인 간의 상호작용을 통해 암묵지가 전파되는 과정

답: ②
해설: 연결화는 형식지가 상호결합하면서 새로운 형식지를 창출하는 과정을 의미한다. 표출화는 암묵지가 형식지로 전환되는 과정, 학습화는 형식지가 개인의 지식 기반 속에서 체화되는 과정, 내면화는 개인과 개인 간의 상호작용을 통해 암묵지가 전파되는 과정이다.

3번) 빅데이터 가치 패러다임 변화 단계를 순서대로 나열한 것은?

① Agency -> Connection -> Digitalization
② Connection -> Agency -> Digitalization
③ Digitalization -> Connection -> Agency
④ Connection -> Digitalization -> Agency

답: ③
해설: 빅데이터 가치 패러다임 변화 단계는 Digitalization(디지털화) -> Connection(연결) -> Agency(능동적 활용)의 순서로 이루어진다.

4번) 데이터 사이언티스트에 대한 설명으로 틀린 것은?

① 데이터 사이언티스트는 커뮤니케이션 기술은 중요하지 않다.
② 데이터에 대한 호기심과 탐구 능력이 필요하다.
③ 데이터 사이언스 프로젝트를 주도적으로 이끌어가는 역할을 한다.
④ 데이터 분석 결과를 비즈니스 의사결정에 활용할 수 있도록 해야 한다.

답: ①
해설: 데이터 사이언티스트는 데이터 분석 결과를 비즈니스 의사결정에 활용할 수 있도록 커뮤니케이션 기술이 중요하다. 데이터에 대한 호기심과 탐구 능력, 프로젝트를 주도적으로 이끌어가는 역할, 분석 결과의 비즈니스 활용 능력 등이 필요하다.

5번) 빅데이터 위기 요인과 통제 방안이 잘못 연결된 것을 모두 고른 것은?

① 프라이버시 침해 - 투명성
② 부정확한 분석 - 전문성
③ 책임원칙 - 알고리즘
④ 데이터오용 - 정보 선택 옵션
답: ③, ④

해설: 책임원칙은 데이터오용의 통제 방안이며, 알고리즘은 부정확한 분석의 통제 방안이다. 프라이버시 침해-투명성, 부정확한 분석-전문성은 올바르게 연결되었다.

6번) 빅데이터 출현 배경으로 틀린 것은?

① 데이터의 폭발적 증가
② 데이터 처리 및 분석 기술의 발전
③ 중앙 집중 처리 방식의 특성
④ 사물인터넷(IoT)의 확산
답: ③

해설: 빅데이터는 분산 처리 방식의 특성을 가지고 있다. 데이터의 폭발적 증가, 데이터 처리 및 분석 기술의 발전, 사물인터넷(IoT)의 확산 등은 빅데이터 출현의 배경이 된다.

7번) 데이터의 가공 및 처리를 통해 의미가 부여된 데이터는?

① 데이터
② 정보
③ 지식
④ 지혜

답: ②
해설: 데이터에 가공 및 처리를 통해 의미를 부여하면 정보가 된다. 정보에 경험과 노하우 등을 결합하면 지식이 되고, 지식을 활용하여 미래를 예측하고 대응할 수 있는 수준이 되면 지혜가 된다.

8번) 데이터 사이언티스트에게 필요한 역량으로 가장 적절한 것은?

① 하드 스킬로 데이터 수집 및 전처리 능력
② 하드 스킬로 데이터 시각화 능력
③ 소프트 스킬로 통찰력 있는 분석 능력
④ 소프트 스킬로 데이터 분석 도구 활용 능력

답: ③
해설: 데이터 사이언티스트에게는 하드 스킬(데이터 수집, 전처리, 시각화 등의 기술적 능력)과 함께 소프트 스킬(통찰력, 커뮤니케이션 능력 등)이 필요하다. 특히 통찰력 있는 분석 능력은 데이터 사이언티스트에게 필수적인 소프트 스킬이다.

단1) ㉠과 ㉡에 들어갈 용어를 쓰시오.

㉠ 원인이 되는 변수의 변화로 인해 결과로서의 변수가 변화하는 것을 말한다

㉡ 는 두 변수가 함께 변화하는 정도를 나타내는 것으로, 양(+)의 상관관계와 음(-)의 상관관계로 구분된다.

 

답 : ㉠ : 인과관계 / ㉡ : 상관관계

해설 : 인과관계(Causality)는 한 변수의 변화가 다른 변수의 변화를 직접적으로 초래하는 관계를 의미한다. 즉, 원인이 되는 변수의 변화로 인해 결과로서의 변수가 변화하는 것을 말한다. 인과관계를 파악하기 위해서는 실험 설계 등을 통한 엄격한 통제가 필요하다.
상관관계(Correlation)는 두 변수 간에 상호 연관성이 있음을 나타내는 관계이다. 상관관계는 한 변수의 변화에 따라 다른 변수가 같이 변화하는 경향이 있음을 의미하지만, 그 변화의 방향과 크기가 항상 일정하지는 않다. 상관관계는 인과관계와 달리 두 변수 간의 직접적인 영향 관계를 의미하지는 않는다. 상관관계는 두 변수가 함께 변화하는 정도를 나타내는 것으로, 양(+)의 상관관계와 음(-)의 상관관계로 구분된다.

 

단2) 고객 관계 관리를 의미하는 용어를 쓰시오.


답 : CRM(Customer Relationship Management)

데이터분석 준전문가(ADsP)  2과목 : 데이터 분석

9번) 위협 대응 계획을 수립할 때 예상되는 위험 대응 방법으로 틀린 것은?

① 수용
② 회피
③ 전가
④ 관리

답: ④
해설: 위협 대응 계획 수립 시 예상되는 위험 대응 방법에는 수용(위험을 받아들이고 감수), 회피(위험이 발생하지 않도록 회피), 전가(위험을 제3자에게 이전)가 있다. 관리는 위험 대응 방법이 아니라 위험 관리 활동 자체를 의미한다.

10번) 데이터 거버넌스의 구성 요소로 틀린 것은?

① 조직
② 정책
③ 프로세스
④ 분석 방법

답: ④
해설: 데이터 거버넌스의 구성 요소에는 조직, 정책, 프로세스가 포함된다. 조직은 데이터 관리 체계를 구축하고 역할을 정의하는 것, 정책은 데이터 관리를 위한 원칙과 기준을 수립하는 것, 프로세스는 데이터 관리 활동의 절차와 방법을 정의하는 것이다. 분석 방법은 데이터 거버넌스의 구성 요소가 아니다.

11번) 데이터 분석의 우선순위를 평가할 때 고려해야 할 요소 중 틀린 것은?

① 비즈니스 영향도
② 실현 가능성
③ 위험도
④ 분석 기술 능력

답: ④
해설: 데이터 분석의 우선순위 평가 시 고려 요소로는 비즈니스 영향도(분석 결과가 비즈니스에 미치는 영향), 실현 가능성(분석 수행의 현실적 가능성), 위험도(분석 수행의 위험 정도) 등이 있다. 분석 기술 능력은 우선순위 평가의 고려 요소가 아니라, 분석 수행을 위해 필요한 역량이다.

12번) 분석 방법론은 알고 있으나 분석 대상을 정확하게 모르는 경우는?


① Understanding
② Insight
③ Information
④ Knowledge
답: ②
해설: Insight는 분석 방법론은 알고 있으나 분석 대상을 정확하게 모르는 경우를 의미한다. Understanding은 분석 대상과 방법론 모두 알고 있는 경우, Information은 분석 대상은 알고 있으나 방법론을 모르는 경우, Knowledge는 분석 대상과 방법론 모두 모르는 경우이다.

13번) 분석 과제 관리 프로세스의 내용 중 틀린 것은?

① 분석 과제 발굴 및 평가
② 분석 과제 우선순위 선정
③ 분석 과제 수행 및 모니터링
④ 확정된 과제는 Pool로 관리
답: ④
해설: 분석 과제 관리 프로세스에는 분석 과제 발굴 및 평가, 우선순위 선정, 수행 및 모니터링이 포함된다. 확정된 과제를 Pool로 관리하는 것은 분석 과제 관리 프로세스의 내용이 아니다.

14번) 데이터 분석 조직 구조로 틀린 것은?

① 중앙집중형
② 분산형
③ 하이브리드형
④ 사업구조

답: ④
해설: 데이터 분석 조직은 중앙집중형(데이터 분석 전담 조직이 모든 분석 업무 수행), 분산형(각 부서별로 분석 업무 수행), 하이브리드형(중앙집중형과 분산형의 혼합) 구조로 나눌 수 있다. 사업구조는 데이터 분석 조직 구조가 아니다.

15번) 분석 프로젝트의 영역별 주요 관리 항목으로 틀린 것은?

① 일정(Schedule)
② 위험(Risk)
③ 품질(Quality)
④ 관계(Relationship)

답: ④
해설: 분석 프로젝트의 영역별 주요 관리 항목에는 일정(Schedule), 위험(Risk), 품질(Quality), 자원(Resource), 의사소통(Communication) 등이 있다. 관계(Relationship)는 주요 관리 항목이 아니다.

16번) ROI 관점에서 효과(Return)에 해당하는 요소는?


① Cost
② Revenue
③ Value
④ Investment

답: ③
해설: ROI(Return On Investment)는 투자 대비 효과를 의미하며, 효과(Return)에는 비용 절감, 매출 증대, 생산성 향상 등의 가치(Value)가 포함된다. Cost는 비용, Revenue는 매출, Investment는 투자에 해당한다.

단1) 데이터 분석 방법론 중 요구사항 도출부터 분석 모델 개발까지 반복적으로 수행하는 방법은?

답 : 나선형 모델

단2) 데이터의 발생 지점에서 데이터를 수집하고 처리하는 방식으로, 중앙 집중식 처리의 대안이 되는 방식은?

 

답 : 상향식 접근 방법(Bottom-Up Approach)

 

데이터분석 준전문가(ADsP)  3과목 데이터 분석

17번) chickwts 데이터 가설검정 결과 중 틀린 것은?

① 유의 확률은 4.17e-08이므로 유의수준 5%에서 귀무가설을 기각한다.
② 각 집단의 평균이 같다는 귀무가설을 기각한다.
③ 관측치의 개수는 71이다.
④ 각 집단의 평균은 서로 다르다.

답: ③
해설: chickwts 데이터의 관측치 개수는 71이 아니라 70이다. 유의 확률이 매우 작으므로 귀무가설(각 집단의 평균이 같다)을 기각하고, 각 집단의 평균은 서로 다르다는 대립가설을 채택한다.

18번) 목표변수가 연속형인 회귀나무에서 분류 기준값으로 적절한 것은?


① 엔트로피 지수
② 지니 계수
③ 분산 감소량
④ F통계량

 

답: ③, ④
해설: 회귀나무에서는 목표변수가 연속형이므로, 분산 감소량이나 F통계량을 사용하여 분류 기준을 정한다. 엔트로피 지수와 지니 계수는 목표변수가 범주형인 분류나무에서 사용되는 지표이다.

 

19번) 잔차의 정규성 검토에 대한 설명으로 틀린 것은?


① 잔차의 QQ플롯을 통해 정규성을 확인할 수 있다.
② 잔차의 히스토그램을 통해 정규성을 확인할 수 있다.
③ Shapiro-Wilk 검정을 통해 정규성을 확인할 수 있다.
④ 정규성 가정을 충족하지 못할 경우, 상관계수가 높은 변수를 제거한다.

 

답: ④
해설: 잔차의 정규성 가정을 충족하지 못할 경우, 변수 변환, 이상치 제거 등의 방법을 고려할 수 있다. 상관계수가 높은 변수를 제거하는 것은 다중공선성 문제를 해결하기 위한 방법이지 잔차의 정규성과는 직접적인 관련이 없다.

 

20번) 시계열 분해 시 고려되는 구성요소 중 틀린 것은?

① 추세요인
② 순환요인
③ 계절요인
④ 정상요인

 

답: ④
해설: 시계열 분해의 구성요소에는 추세요인(장기적인 증가/감소 경향), 순환요인(장기적인 파동), 계절요인(계절에 따른 변동)과 함께 불규칙요인(우연적 요인)이 포함된다. 정상요인은 시계열 분해의 구성요소가 아니다.

 

21번) 두 점 (1, 2)와 (5, 6) 사이의 유클리드 거리를 구하시오.

답: 루트 32 (약 5.66)
해설: 유클리드 거리는 두 점 사이의 직선 거리를 의미하며, 두 점 (x1, y1)와 (x2, y2) 사이의 유클리드 거리는 sqrt((x1-x2)^2 + (y1-y2)^2)으로 계산한다. 주어진 두 점 (1, 2)와 (5, 6)을 공식에 대입하면 sqrt((1-5)^2 + (2-6)^2) = sqrt(16+16) = sqrt(32)가 된다.

 

22번) 표본조사의 내용 중 틀린 것은?

① 모집단의 특성을 파악하기 위해 모집단의 일부를 추출하여 조사하는 것이다.
② 표본 추출 시 무작위 추출 방법을 사용하여 표본의 대표성을 확보해야 한다.
③ 표본의 크기가 클수록 표본오차는 작아진다.
④ 표본오차는 정규화로 최소화하거나 없앨 수 있다.

 

답: ④
해설: 표본오차는 표본의 크기를 늘리거나, 표본 추출 방법을 개선하는 등의 방법으로 최소화할 수 있지만 완전히 없앨 수는 없다. 정규화는 데이터의 스케일을 통일하기 위한 방법으로, 표본오차와는 직접적인 관련이 없다.

 

23번) 특이도(Specificity) 계산식으로 적절한 것은?


① (TP+FP) / (TP+FP+FN+TN)
② TP / (TP+FN)
③ TN / (FP+TN)
④ (TN+FN) / (TP+FP+FN+TN)

 

답: ③
해설: 특이도(Specificity)는 실제 Negative인 대상 중 Negative로 예측한 비율을 의미하며, TN / (FP+TN)으로 계산한다. TP는 True Positive, FP는 False Positive, FN은 False Negative, TN은 True Negative를 의미한다.

 

24번) 위치 모수에 대한 내용 중 틀린 것은?


① 중앙값은 전체 데이터를 크기 순으로 정렬했을 때 가운데에 위치한 값이다.
② 최빈값은 데이터 중 가장 빈번하게 관측되는 값이다.
③ 산술평균은 전체 데이터의 합을 데이터의 개수로 나눈 값이다.
④ p-백분위수는 전체 데이터의 p%가 그 값보다 크거나 같은 값이다.

 

답: ④
해설: p-백분위수는 전체 데이터의 p%가 그 값보다 작거나 같은 값을 의미한다. 예를 들어, 30-백분위수는 전체 데이터의 30%가 그 값보다 작거나 같은 값이다.

 

25번) USArrests 데이터의 주성분 분석 결과, 누적기여율이 80%를 넘기는 주성분의 최소 개수는?

 

① 1개
② 2개
③ 3개
④ 4개

 

답: ②
해설: 주어진 문제에서 정확한 수치가 제시되지 않았으나, 일반적으로 누적기여율이 80~90% 정도가 되는 주성분의 개수를 선택한다. USArrests 데이터의 경우 주성분 2개의 누적기여율이 80%를 넘는 것으로 알려져 있다.

 

26번) 연관분석에 대한 설명으로 가장 적절한 것은?


① 사전에 정의된 집단을 대상으로 새로운 관측값이 어느 집단에 속할 것인지 예측하는 분석이다.
② 데이터 집합을 유사한 특성을 갖는 몇 개의 집단으로 그룹화하는 분석이다.
③ 데이터 간의 유사성을 거리로 측정하여 2차원 공간상에 점으로 표현하는 분석이다.
④ 데이터에 내재된 변수 간의 연관성을 발견하여 패턴을 찾아내는 분석이다.

 

답: ④
해설: 연관분석은 데이터에 내재된 변수 간의 연관규칙을 발견하여 유용한 패턴을 찾아내는 분석 방법이다. ①은 분류분석, ②는 군집분석, ③은 다차원척도법에 대한 설명이다.

 

27번) 이산형 확률변수 X가 확률질량함수 f(x)를 가질 때, X의 기댓값 E(X)를 구하는 식으로 옳은 것은?


① E(X) = ∑(x × P(X=x))
② E(X) = ∑(x × f(x))
③ E(X) = ∑(P(X=x))
④ E(X) = ∑(f(x))

 

답: ②
해설: 이산형 확률변수 X의 기댓값 E(X)는 확률변수가 가질 수 있는 모든 값 x에 대해 x와 확률질량함수 f(x)의 곱을 합한 값으로 계산한다. 즉, E(X) = ∑(x × f(x))이다.

 

28번) nci 데이터의 군집분석 결과에 대한 설명 중 틀린 것은?


① 계층적 군집분석 결과 3개의 군집이 형성되었다.
② 비계층적 군집분석 결과 5개의 군집이 형성되었다.
③ 계층적 군집분석은 덴드로그램을 통해 군집화 과정을 시각적으로 확인할 수 있다.
④ 고립된 군집을 찾기 어렵다.

 

답: ④
해설: nci 데이터는 종양세포의 유전자 발현 데이터로, 군집분석을 통해 유사한 특성을 갖는 종양세포의 그룹을 찾을 수 있다. 일반적으로 군집분석에서는 고립된 군집을 발견하는 것이 중요한 목적 중 하나이다.

 

29번) 연관규칙의 평가지표에 대한 설명으로 틀린 것은?


① 지지도(Support)는 전체 거래 중 특정 품목이 포함된 거래의 비율을 의미한다.
② 신뢰도(Confidence)는 특정 품목을 구매한 경우 다른 특정 품목을 함께 구매할 확률을 의미한다.
③ 향상도(Lift)는 두 품목 간의 실제 동시 구매 비율을 두 품목이 독립적일 때의 기대 동시 구매 비율로 나눈 값이다.
④ 순수도(Purity)는 연관규칙의 규칙 후항 내 서로 다른 클래스 간 비율을 측정한 값이다.

 

답: ④
해설: 순수도(Purity)는 군집분석의 평가지표로, 각 군집 내 서로 다른 클래스 간 비율을 측정한 값이다. 연관규칙의 평가지표로는 지지도, 신뢰도, 향상도 등이 사용된다.

 

30번) 배깅(Bagging) 앙상블 기법에 대한 설명으로 가장 적절한 것은?


① 부스트랩 방법을 사용하므로 한 데이터가 여러 번 선택될 수 있고, 한 데이터는 추출되지 않을 수 있다.
② 약분류기를 순차적으로 학습하여 이전 약분류기의 오차를 보완해 나가는 앙상블 기법이다.
③ 다수의 분류기 중 가장 좋은 성능을 보이는 분류기의 예측값을 최종 예측값으로 선택한다.
④ 데이터의 특성에 따라 가중치를 부여하여 분류기를 학습하는 앙상블 기법이다.

 

답: ①
해설: 배깅(Bagging)은 Bootstrap Aggregating의 약자로, 부트스트랩 샘플링을 사용하여 데이터 셋을 여러 개로 나누어 각각의 데이터 셋으로 분류기를 학습시킨 후, 모든 분류기의 예측값을 결합하여 최종 예측값을 도출하는 앙상블 기법이다. 부트스트랩 샘플링 과정에서 한 데이터가 여러 번 선택되거나, 한 데이터가 선택되지 않을 수 있다. ②는 부스팅(Boosting), ③은 스태킹(Stacking), ④는 에이다부스트(AdaBoost)에 대한 설명이다.

 

31번) 고객의 신용카드 월간 사용액을 예측하기에 적합한 모형은?

① 선형회귀모형
② 다항회귀모형
③ 로지스틱회귀모형
④ 능형회귀모형

 

답: ①
해설: 신용카드 월간 사용액은 연속형 변수이므로, 연속형 변수를 예측하는 데 적합한 선형회귀모형을 사용하는 것이 적절하다. 다항회귀모형은 독립변수와 종속변수 간의 비선형 관계를 모델링하는 데 사용되고, 로지스틱회귀모형은 종속변수가 범주형(이진형)일 때 사용된다. 능형회귀모형은 존재하지 않는 모형이다.

 

32번) K-평균 군집분석의 수행 절차를 순서대로 바르게 나열한 것은?

가. 각 관측치와 가장 가까운 중심에 해당 관측치 할당
나. 임의의 K개 중심(centroid) 설정
다. 클러스터 내 관측치들의 평균으로 새로운 중심 계산
라. 중심의 변화가 충분히 작을 때까지 2~3단계 반복

 

① 가-나-다-라
② 다-나-가-라
③ 나-라-가-다
④ 나-가-다-라

 

답: ④
해설: K-평균 군집분석은 다음의 절차로 수행된다.

  1. 임의의 K개 중심(centroid) 설정
  1. 각 관측치와 가장 가까운 중심에 해당 관측치 할당
  1. 클러스터 내 관측치들의 평균으로 새로운 중심 계산
  1. 중심의 변화가 충분히 작을 때까지 2~3단계 반복

 

33번) K-fold 교차검증에 대한 설명 중 틀린 것은?

① 데이터를 K개의 부분집합으로 나누어 교차검증을 수행한다.
② K-1개의 부분집합으로 모델을 학습하고,나머지 1개의 부분집합으로 모델을 평가한다.
③ 모든 부분집합이 한 번씩 평가 데이터로 사용되도록 K번 반복한다.
④ K=2인 경우를 LOOCV(Leave-One-Out Cross-Validation)라고 한다.

 

답: ④
해설: LOOCV는 K=n(데이터의 개수)인 경우를 의미한다. 즉, 한 개의 데이터를 평가 데이터로 사용하고 나머지 n-1개의 데이터로 모델을 학습하는 과정을 n번 반복하는 방법이다. K=2인 경우는 2-fold 교차검증이라고 한다.

34번) 시계열 데이터 분석에 적합한 모델로 볼 수 없는 것은?

① ARIMA 모델
② GARCH 모델
③ LSTM 모델
④ PCA 모델

답: ④
해설: PCA(Principal Component Analysis)는 고차원 데이터의 차원을 축소하는 데 사용되는 차원 축소 기법으로, 시계열 데이터 분석에 직접적으로 사용되지 않는다. ARIMA(AutoRegressive Integrated Moving Average)와 GARCH(Generalized AutoRegressive Conditional Heteroskedasticity)는 전통적인 시계열 분석 모델이고, LSTM(Long Short-Term Memory)은 순환 신경망(RNN)의 일종으로 시계열 데이터 분석에 사용된다.

35번) 주성분 분석(PCA)에 대한 설명으로 틀린 것은?

① 다변량 데이터의 차원을 축소하는 데 사용되는 기법이다.
② 데이터의 분산을 최대한 보존하는 방향으로 새로운 축을 정의한다.
③ 첫 번째 주성분은 데이터의 분산을 가장 크게 설명하는 방향이다.
④ 지도학습의 일종이다.

답: ④
해설: 주성분 분석은 지도학습이 아닌 비지도학습에 속한다. 주성분 분석은 레이블이 없는 데이터를 대상으로 데이터의 차원을 축소하고, 주요 특징을 추출하는 데 사용되는 비지도학습 기법이다.

36번) mtcars 데이터를 이용한 회귀분석 결과에 대한 해석으로 틀린 것은?

① wt 변수의 회귀계수는 음수이므로, 차체 무게가 증가할수록 연비는 감소한다.
② hp 변수의 회귀계수는 -0.03177이므로, 마력이 1 증가할 때 연비는 0.03177 감소한다.
③ 수정된 결정계수(Adjusted R-squared)는 0.8066으로, 모델이 mpg 변동성의 80.66%를 설명한다.
④ wt 변수의 변동성 중 98.39%가 다른 독립변수에 의해 설명된다.

답: ④
해설: 회귀분석에서 개별 독립변수의 변동성을 다른 독립변수로 설명할 수 없다. VIF(Variance Inflation Factor)는 독립변수 간 다중공선성을 진단하는 지표로, VIF가 10 이상인 경우 해당 독립변수가 다른 독립변수와 강한 상관관계를 가지고 있음을 의미한다. 하지만 이는 종속변수의 변동성을 설명하는 것과는 무관하다.

37번) 아래 R 코드의 분석 결과에 대한 해석으로 틀린 것은?
model <- lm(mpg ~ disp + hp + wt + am, data = mtcars)
summary(model)

① disp 변수는 유의수준 5%에서 유의하지 않다.
② hp 변수의 p-value는 0.101302이다.
③ wt 변수는 유의수준 1%에서 유의하다.
④ am 변수는 유의수준 5%에서 유의하므로, 변속기 타입에 따라 연비 차이가 있다.

답: ①
해설: disp 변수의 p-value는 0.0776으로, 유의수준 5%에서 유의하다. 즉, disp 변수는 연비에 유의한 영향을 미치는 것으로 해석할 수 있다. hp, wt, am 변수에 대한 해석은 모두 옳다.

38번) SOM(Self-Organizing Map)에 대한 설명으로 틀린 것은?

① 인공신경망 기반의 비지도학습 알고리즘이다.
② 고차원 데이터를 2차원 지도로 시각화하는 데 사용된다.
③ 출력 뉴런들이 경쟁학습을 통해 스스로 조직화된다.
④ 역전파 알고리즘을 기반으로 학습한다.

답: ④
해설: SOM은 경쟁학습을 통해 학습하는 알고리즘으로, 역전파 알고리즘을 사용하지 않는다. SOM은 입력 데이터와 출력 뉴런 간의 유사도를 계산하여, 가장 유사도가 높은 뉴런을 승자 뉴런으로 선정하고, 승자 뉴런과 그 주변 뉴런들의 가중치를 업데이트하는 과정을 반복하며 학습한다.

39번) 동전을 3번 던져 앞면이 1번 이상 나올 확률을 구하시오. (단, 동전의 앞면이 나올 확률은 0.4이다.)

답: 0.784
해설: 동전을 3번 던져 앞면이 1번 이상 나올 확률은 1에서 앞면이 한 번도 나오지 않을 확률을 뺀 값과 같다.
앞면이 나올 확률이 0.4이므로, 뒷면이 나올 확률은 0.6이다.
따라서, 앞면이 한 번도 나오지 않을 확률은 0.6^3 = 0.216이다.
1 - 0.216 = 0.784가 앞면이 1번 이상 나올 확률이다.

40번) ARIMA(p,d,q) 모델에서 차분 차수 d를 결정하는 기준으로 가장 적절한 것은?

① AIC(Akaike's Information Criterion)
② ACF(Autocorrelation Function)
③ PACF(Partial Autocorrelation Function)
④ 시계열의 정상성(Stationarity)

답: ④
해설: ARIMA 모델은 정상 시계열을 가정하므로, 차분 차수 d는 시계열을 정상 시계열로 만드는 데 필요한 차분의 횟수를 의미한다. 일반적으로 시계열 그래프, ACF 그래프 등을 통해 시계열의 정상성을 판단하고, 이를 바탕으로 차분 차수를 결정한다. AIC, ACF, PACF는 주로 AR(p)와 MA(q) 차수를 결정하는 데 사용된다.

단 5번) 실험군에서 발생한 사건과 사건 비발생에 비해 대조군에서 발생한 사건 발생과 사건 비발생의 비를를 나타내는 지표는?


답: 오즈비
해설: 오즈비(Odds Ratio, OR)는 통계학에서 많이 사용되는 개념으로, 특히 의학 관련 논문에서 자주 볼 수 있습니다. 오즈비는 실험군에서 발생한 사건과 사건 비발생에 비해 대조군에서 발생한 사건 발생과 사건 비발생의 비를 나타냅니다.

 

단 6번) 모수의 참값을 하나의 값으로 추정하는 방법은?

답: 점추정(Point Estimation)
해설: 점추정은 모수의 참값을 하나의 값(점추정량)으로 추정하는 방법이다. 반면, 구간추정(Interval Estimation)은 모수의 참값이 포함될 것으로 예상되는 구간을 추정하는 방법이다.

단 7번) 베이지안 최적화에서 사후확률이 0.7, 사전확률이 0.3일 때 우도(Likelihood)는?

답: 약 0.2857
해설: 베이즈 정리에 따라 사후확률은 (우도 × 사전확률) / (우도 × 사전확률 + (1-우도) × (1-사전확률))로 계산할 수 있다.
따라서, 0.7 = (L × 0.3) / (L × 0.3 + (1-L) × 0.7)이다.
이를 L에 대해 풀면, L = 약 0.2857이다.

단 8번) 로지스틱 회귀분석의 적합성을 평가하는 지표로 사용되는 것은?

답: Pseudo R-squared
해설: 로지스틱 회귀분석에서는 종속변수가 범주형이므로, 선형 회귀분석에서 사용되는 결정계수(R-squared)를 직접 사용할 수 없다. 대신, Pseudo R-squared(McFadden's R-squared, Cox-Snell R-squared 등)를 적합성 평가 지표로 사용한다. Pseudo R-squared는 로지스틱 회귀모델의 우도(Likelihood)를 기반으로 계산되며, 모델의 설명력을 나타낸다.

단 9번) 개체들 간의 유사성 또는 비유사성을 거리로 측정하여 2차원 공간상에 점으로 표현하는 방법은?

답: MDS(Multi-Dimensional Scaling, 다차원척도법)
해설: 다차원척도법은 개체들 간의 유사성 또는 비유사성을 거리로 측정하여, 이를 2차원 또는 3차원 공간상에 점으로 표현함으로써 개체들 간의 관계를 시각화하는 방법이다. 개체들 간의 거리가 가까울수록 유사성이 높고, 거리가 멀수록 유사성이 낮다고 해석할 수 있다.

단 10번) 모집단에서 일정한 간격으로 표본을 추출하는 방법은?

답: 계통추출법(Systematic Sampling)
해설: 계통추출법은 모집단에서 일정한 간격(계통 간격)으로 표본을 추출하는 방법이다. 첫 번째 표본을 무작위로 선택한 후, 일정한 간격마다 표본을 추출하여 표본을 구성한다. 계통추출법은 모집단이 명부나 리스트 형태로 정렬되어 있을 때 쉽게 적용할 수 있는 방법이다.

 

ADsP 39회 기출문제 복원.pdf
0.48MB