본문 바로가기
데이터분석 준전문가(ADsP)

데이터분석준전문가[ADsP] 기출 문제 복원(42회)

by 일잘냥 2024. 11. 3.
반응형

데이터분석준전문가[ADsP] 기출 문제 복원(42회)
데이터분석준전문가[ADsP] 기출 문제 복원(42회)

 

안녕하세요! 일잘냥 입니다. 오늘은 제 42회 ADSP [데이터분석 준전문가] 기출문제를 소개해 드리겠습니다. 해당 문제는 기억의 의해 복원/가공 되었음을 참고하시고 활용하시기 바랍니다. 오류가 있으시면 댓글 남겨 주시기 바랍니다. 감사합니다.

데이터분석준전문가 ADSP  1과목 데이터 이해

1. 다음중 데이터의 특성이 다른 하나는?

① 풍량

② 강수량

③ 기상특보

④ 습도

 

정답: ③ 기상특보

해설: 풍량, 강수량, 습도는 모두 정량적(수치화 가능한) 데이터인 반면, 기상특보는 정성적 데이터입니다.

2. DIKW 피라미드 예시 중 맞는 것은?

D(Data): A마트는 100, B마트는 200원에 연필을 판매한다.

I(Information): B마트가 A마트보다 연필이 100원 더 비싸다.

K(Knowledge): B A보다 연필이 더 싸니깐 B에서 사야겠다.

W(Wisdom): 문구류는 전반적으로 A마트가 더 저렴할 것이다.

 

정답: ③ K: B A보다 연필이 더 싸니깐 B에서 사야겠다.

해설: 지식(Knowledge)은 정보에 개인의 경험과 판단이 더해진 것입니다.

 

3. 데이터사이언티스트에게 필요한 역량이 아닌 것은?

① 스토리텔링

② 비즈니스 분석기법

③ 네트워크 구축 역량

④ 통계적 사고능력

정답: ③ 네트워크 구축 역량

해설: 데이터사이언티스트는 데이터 분석과 해석에 집중하며, 네트워크 구축은 IT 인프라 담당자의 역량입니다.

 

4. 데이터베이스의 진행 절차를 올바른 순서대로 나열한 것은?

① 통합 - 저장 - 공유 - 변화

② 저장 - 통합 - 변화 - 공유

③ 공유 - 저장 - 통합 - 변화

④ 변화 - 통합 - 저장 - 공유

정답: ① 통합 - 저장 - 공유 - 변화

 

5. 빅데이터 위기 요인이 아닌 것은?

① 사생활 침해

② 책임원칙훼손

③ 데이터오용

④ 분석기술의 발달

정답: ④ 분석기술의 발달

해설: 분석기술의 발달은 빅데이터의 기회 요인이며, 나머지는 모두 위기 요인입니다.

 

6. 빅데이터가 만들어내는 변화로 옳은 것은?

① 사후조사 사전예측

② 표본조사 전수조사

③ 질적분석 양적분석

④ 인과관계 상관관계

정답: ④ 인과관계 상관관계

 

7. 빅데이터가 미치는 영향이 아닌 것은?

① 고객에게 획일화된 서비스 제공

② 맞춤형 서비스 확대

③ 업무 프로세스 최적화

④ 새로운 가치 창출

정답: ① 고객에게 획일화된 서비스 제공

 

8. 빅데이터의 사생활침해 해결방법은?

① 제공자 동의에서 사용자 책임으로 전환한다

② 데이터 수집 범위를 제한한다

③ 개인정보 비식별화를 강화한다

④ 데이터 보안 시스템을 구축한다

정답: ① 제공자 동의에서 사용자 책임으로 전환한다

 

9. 빅데이터가 발전한 요인이 아닌 것은?

① 정형 데이터의 폭증

② 하둡 등 분산처리 기술의 발전

SNS 등 비정형 데이터의 증가

④ 클라우드 컴퓨팅의 발전

정답: ① 정형 데이터의 폭증

해설: 빅데이터 발전의 주요 요인은 비정형 데이터의 폭증입니다.

 

10. 연결된 상태로 연결을 관리해야할 때를 설명하는 것은?

① 연결성

② 디지털화

③ 에이전시

④ 네트워크 효과

정답: ③ 에이전시

해설: 에이전시는 정보의 비대칭성이 존재하는 상황에서 연결된 상태로 관리해야 하는 개념을 설명합니다.

 

빅데이터분석준전문가[ADsP]  [2과목] 데이터분석 기획

 1. KDD 분석방법론의 올바른 순서는?

Selection(데이터셋 선택) - Preprocessing(데이터 전처리) - Transformation(데이터 변환) - Data Mining(데이터 마이닝) - Interpretation/Evaluation(평가)

Preprocessing - Selection - Transformation - Data Mining - Interpretation/Evaluation

Selection - Transformation - Preprocessing - Data Mining - Interpretation/Evaluation

Preprocessing - Transformation - Selection - Interpretation/Evaluation - Data Mining

 

정답: ① Selection - Preprocessing - Transformation - Data Mining - Interpretation/Evaluation

해설: KDD 프로세스는 데이터 선택부터 평가까지 순차적으로 진행됩니다.

 

2. 전체 학생 중 한명을 뽑았더니 사과를 좋아할 확률은?

 

구분 사과 사과아님 합계
30 20 50
10 40 50
총합 40 60 100

 

4/10

3/5

1/2

3/10

 

정답: ① 4/10

해설: 전체 100명 중 사과를 좋아하는 학생은 40명이므로 확률은 40/100 = 4/10입니다.

 

3. CRISP-DM의 업무이해 단계로 맞는 것은?

① 업무 상황파악 - 데이터 마이닝 목표설정 - 프로젝트 계획 수립

② 데이터 마이닝 목표설정 - 프로젝트 계획 수립 - 업무 상황파악

③ 프로젝트 계획 수립 - 업무 상황파악 - 데이터 마이닝 목표설정

④ 업무 상황파악 - 프로젝트 계획 수립 - 데이터 마이닝 목표설정

정답: ① 업무 상황파악 - 데이터 마이닝 목표설정 - 프로젝트 계획 수립

 

4. 4V에서 비즈니스 효과에 해당하는 것은?

Value

Volume

Velocity

Variety

정답: ① Value

해설: 4V Value는 비즈니스 가치 창출을 의미합니다.

 

5. 프로세스 내재화에 대한 설명 중 분석 결과를 활용하고, 혁신 및 성과 향상에 기여하는 것은?

① 도입

② 활용

③ 확산

④ 최적화

정답: ④ 최적화

해설: 최적화 단계는 분석 결과를 적극 활용하여 프로세스를 개선하고 성과를 향상시키는 단계입니다.

 

6. 상향식 방법론으로 옳지 않은 것은?

① 문제정의를 명확히 할 수 있을 때 사용한다

② 데이터 중심의 접근방식이다

③ 데이터를 통해 인사이트를 도출한다

④ 탐색적 분석이 중심이 된다

정답: ① 문제정의를 명확히 할 수 있을 때 사용한다

해설: 상향식 방법론은 문제정의가 명확하지 않을 때 데이터 탐색을 통해 인사이트를 발견하는 방식입니다.

 

7. 분석과제에서 고려해야할 요소가 아닌 것은?

① 데이터 크기(규모)

② 속도

③ 복잡도

④ 데이터 분류

정답: ④ 데이터 분류

해설: 분석과제 수행 시 주요 고려요소는 데이터의 크기, 처리 속도, 분석 복잡도입니다.

 

8. 시급성이 현재일 때 가장 먼저 고려할 것은?

① 전략적 중요도

② 실현 가능성

③ 데이터 확보 용이성

④ 분석 난이도

 

정답: ① 전략적 중요도

해설: 시급성이 높은 과제는 전략적 중요도를 우선적으로 고려해야 합니다.

 

9. 데이터분석 준비시 고려의 중요도가 가장 낮은 것은?

① 비용

② 분석업무이해

③ 분석문화

④ 분석기법

 

정답: ① 비용

해설: 데이터분석의 성공을 위해서는 업무이해, 조직문화, 분석기법이 비용보다 더 중요한 고려사항입니다.

 

10. 협의의 데이터플랫폼의 구성요소인 것은?

① 분석 어플리케이션

② 분석 서비스 제공 API

③ 분석 라이브러리

④ 분석 서비스 엔진

 

정답: ③ 분석 라이브러리

해설: 협의의 데이터플랫폼은 분석 라이브러리를 핵심 구성요소로 포함합니다.

반응형

빅데이터분석 준전문가 ADSP 3과목 데이터분석  

1. 분석 방법은 알고 대상은 모를 때 사용할 수 있는 방법은?

① 발견

② 통찰

③ 최적화

④ 솔루션

정답: ② 통찰

해설: 통찰은 분석 방법은 알지만 대상이 불명확할 때 사용하는 접근법입니다.

 

2. 회귀모형 선택방법에 대한 설명 중 틀린 것은?

AIC는 모형의 적합도와 복잡성을 고려한다

R-제곱은 설명력을 나타내는 지표이다

③ 조정된 R-제곱은 변수 수를 고려한다

BIC는 베이즈 정리에 기반하여 복잡한 모형에 더 큰 페널티를 부여한다

정답: ④ BIC는 베이즈 정리에 기반하여 복잡한 모형에 더 큰 페널티를 부여한다

 

3. 혼합분포군집에서 사용하는 알고리즘은?

EM 알고리즘

K-means

③ 계층적 군집화

DBSCAN

정답: ① EM 알고리즘

해설: EM(Expectation-Maximization) 알고리즘은 혼합분포모형에서 주로 사용됩니다.

 

4. TV-라디오 R코드 해석 문제

TV-라디오 R 해석

 

TV와 라디오 사이의 교호관계가 있어 통계 모형이 유의하다

TV:radio 통계 모형이 유의하다

TV 1 증가할 때 RADIO와 상관없이 SALES가 오른다

④ 모형의 설명력은 약 67%이다

정답: ③ TV 1 증가할 때 RADIO와 상관없이 SALES가 오른다

 

5. 분해시계열 요인 중 옳지 않은 것은?

① 추세요인

② 계절요인

③ 교호요인

④ 순환요인

정답: ③ 교호요인

해설: 시계열 분해의 주요 요인은 추세, 계절, 순환, 불규칙 요인입니다.

 

6. 다음 중 지도학습이 아닌 것은?

① 로지스틱회귀분석

② 의사결정나무

③ 인공신경망

SOM

정답: ④ SOM

해설: SOM(Self-Organizing Map)은 비지도학습 알고리즘입니다.

 

7. 회귀방정식 탐색방법 중 잘못된 것은?

① 후진선택법은 상수항만 남을때까지 제거한다

② 전진선택법은 변수를 하나씩 추가한다

③ 단계적 선택법은 변수를 추가하거나 제거할 수 있다

④ 모든 가능한 회귀는 모든 조합을 검토한다

정답: ① 후진선택법은 상수항만 남을때까지 제거한다

해설: 후진선택법은 통계적으로 유의하지 않은 변수를 제거하는 방식입니다.

 

8. 앙상블기법이 아닌 것은?

① 시그모이드

② 배깅

③ 부스팅

④ 스태킹

정답: ① 시그모이드

해설: 시그모이드는 활성화함수이며, 나머지는 앙상블 학습 기법입니다.

 

9. 이상치를 이용하기에 가장 적절한 시스템인 것은?

① 부정구매 방지시스템

② 추천시스템

③ 수요예측시스템

④ 고객분류시스템

정답: ① 부정구매 방지시스템

해설: 이상치 탐지는 부정거래 탐지에 효과적으로 활용됩니다.

 

10. 매우만족 - 만족 - 보통 - 불만 - 매우 불만족은 무슨 척도인가?

① 서열척도

② 명목척도

③ 구간척도

④ 비율척도

정답: ① 서열척도

해설: 순서가 있으나 간격이 일정하지 않은 데이터는 서열척도입니다.

 

11. 의사결정트리에서 범주형 변수에서의 분할방법에서 사용하는 것으로 옳지 않은 것은?

① 카이제곱 통계량

② 지니지수

③ 엔트로피지수

④ 분산감소량

정답: ④ 분산감소량

해설: 분산감소량은 연속형 변수의 분할에 사용됩니다.

 

12. 주장하고자 하는 가설이 실제로는 예상보다 이상값이 도출될 확률이 높은 것은?

① 알파

P-value

③ 베타

1-알파

정답: ② P-value

 

13. 다음에서 t통계량을 계산하시오.

T통계량

 

① 2.348 / 0.312 (회귀계수 / 오차)

② 0.312 / 2.348 (오차 / 회귀계수)

③ 2.348 * 0.312 (회귀계수 * 오차)

④ (2.348 + 0.312) / 2

정답: ① 2.348 / 0.312 (회귀계수 / 오차)

여기서 t통계량(t value)은

  • 회귀계수(Estimate) / 표준오차(Std. Error)
  • 즉, 2.348 / 0.312 ≈ 7.526

실제 R 결과에서 볼 수 있듯이, t통계량은 7.526으로 계산됩니다.

 

 14. 다음 표로부터 오분류율을 계산하시오.

오류표

 

① 13/20 = (FP + FN)/전체 = (8 + 5)/20 = 0.65 (정답)

② (TP + TN)/전체 = (2 + 5)/20 = 0.35 (정확도)

③ TP/(TP + FP) = 2/(2 + 8) = 0.2 (정밀도)

④ TN/(TN + FN) = 5/(5 + 5) = 0.5 (특이도)

 

정답: ① 13/20 = (FP + FN)/전체

해설: 오분류율은 잘못 분류된 케이스의 비율입니다.

 

15. 보기의 내용을 통해 도출한 A질병 진단받은 사람 중 A질병 가진 사람 비율은?

[보기]

- 전체 중 A질병 가진사람: 10%

- 전체 중 A질병 진단받은 사람: 20%

- A질병 진단받은 사람 중 A질병을 실제 가진 사람: 90%

1/9

2/9

9/20

9/10

정답: ③ 9/20

 

16. 결측값에 대한 설명 중 틀린 것은?

① 완전연결법은 결측값 데이터를 완전히 삭제한다

② 다중대치법은 여러번 대치하여 여러개의 자료를 도출한다

③ 확률단순선택법은 회귀분석을 사용한다

④ 평균표준편차는 중앙값으로 대체한다

정답: ④ 평균표준편차는 중앙값으로 대체한다

해설: 평균대치법은 결측치를 평균으로 대체하는 방법입니다.

 

17. 군집분석에서 군집수를 결정하는 방법은?

① 엘보우방법

② 상관계수

③ 유클리드거리

④ 맨하탄거리

정답: ① 엘보우방법

해설: 엘보우방법은 군집 내 분산의 감소율이 급격히 줄어드는 지점을 최적 군집수로 결정합니다.

 

18. 모집단이 정규분포를 따를때 신뢰구간 95%가 다음과 같이 계산된다. 이중 틀린 설명은?

0.5 ± 1.96 / √100

① 신뢰구간 99%로 변경시 1.96대신 2.58이다

② 표본평균이 0.5이다

③ 모집단의 평균값이 신뢰구간에 포함되지 않을 수 있다

④ 동일한 모집단에서 같은 방식으로 표본을 추출하고 같은 방식으로 신뢰구간을 추정하면 동일한 값이 나온다

정답: ④ 동일한 모집단에서 같은 방식으로 표본을 추출하고 같은 방식으로 신뢰구간을 추정하면 동일한 값이 나온다

해설: 표본추출이 달라지면 신뢰구간도 달라질 수 있습니다.

 

19. DBSCAN 관련하여 틀린 것은?

① 임의 형태의 군집으로 분류하는데 유용하다

② 밀도기반 군집화 알고리즘이다

③ 초기 군집수 k를 설정해야한다

④ 다차원 자료의 경우 '차원의 저주'로 인해 유용하지않다

정답: ③ 초기 군집수 k를 설정해야한다

해설: DBSCAN은 초기 군집수를 설정할 필요가 없는 알고리즘입니다.

 

20. 인공신경망관련 설명 중 틀린 것은?

① 은닉층이 적으면 과대적합, 은닉층 많으면 과소적합

② 은닉층이 많을수록 복잡한 패턴을 학습할 수 있다

③ 활성화함수는 비선형성을 부여한다

④ 과적합을 방지하기 위해 드롭아웃을 사용할 수 있다

정답: ① 은닉층이 적으면 과대적합, 은닉층 많으면 과소적합

해설: 일반적으로 은닉층이 많으면 과대적합, 적으면 과소적합이 발생할 수 있습니다.

 

21. 신용카드 고객의 파산확률을 yes, no로 예측하기에 적절하지 않은 방법은?

① 선형회귀분석

② 로지스틱 회귀분석

③ 랜덤포레스트

SVM

정답: ① 선형회귀분석

해설: 이진분류 문제에는 선형회귀분석보다 로지스틱 회귀분석이 적합합니다.

 

22. 의사결정트리에서 더이상 세분화하지않고 멈출때 사용하는 기법은?

① 정지규칙

② 가지치기

③ 비용복잡도

④ 교차검증

정답: ① 정지규칙

해설: 정지규칙은 트리의 성장을 멈추는 기준을 정의합니다.

 

23. 다중공선성 해결방법으로 옳지 않은 것은?

① 중요도가 낮으면서 상관계수가 높은 변수를 제거한다

② 구조적 다중공선성의 문제가 있는 경우에는 데이터의 평균 중심을 변화한다

③ 주성분분석을 통해 차원을 축소한다

VIF를 이용하여 다중공선성 유무를 판단한다

정답: ② 구조적 다중공선성의 문제가 있는 경우에는 데이터의 평균 중심을 변화한다

해설: 구조적 다중공선성은 변수 변환이나 차원축소로 해결해야 합니다.

 

24. 다중회귀모형에서 통계적으로 유의함을 판단할때 사용하는 검증은?

F검정

P-VALUE

T통계량

Z통계량

정답: ① F검정

해설: 다중회귀모형의 전체적인 유의성은 F검정으로 판단합니다.

 

25. 데이터 베이스의 특징 중 ( ) 안에 들어갈 내용으로 알맞은 것은?

1. ( )데이터는 동일한 내용이 중복되지않게 함

2. ( )데이터는 컴퓨터가 접근할 수있는 매체에 저장

3. ( )데이터는 여러 사용자가 함께 사용가능

4. ( )데이터는 항상 변화해도 현재의 정확한 데이터를 유지해야함

 

① 공용 - 저장 - 통합 - 변화되는

② 저장 - 통합 - 공용 - 변화되는

③ 통합된 - 저장 - 공용 - 변화되는

④ 통합된 - 공용 - 변화되는 - 저장

 

정답: ③ 통합된 - 저장 - 공용 - 변화되는

 

26. 이상값에 대한 설명 중 틀린 것은?

① 범위의 경우 이상값 존재시 값이 커진다는 단점이 있다

② 평균대치법에는 조건부 평균대치법, 비조건부 평균대치법이 있다

③ 이상값은 데이터의 품질을 저하시킬 수 있다

④ 평균절대편차법은 중앙값이랑 변수 사이의 차이값들로 이루어진 것을 의미한다

정답: ④ 평균절대편차법은 중앙값이랑 변수 사이의 차이값들로 이루어진 것을 의미한다

 

27. 자기상관모형에 대한 설명으로 맞는 것은?

ARIMA는 비정상 시계열에만 사용한다

MA(q)는 과거의 관측값에 의존한다

③ 계절성 ARIMA는 주기성을 고려하지 않는다

AR(1) 1개의 시차, AR(2) 2개의 시차 사용한다

정답: ④ AR(1) 1개의 시차, AR(2) 2개의 시차 사용한다

 

28. 회귀모형의 가정에 대한 설명으로 옳은 것은?

① 잔차는 서로 독립이어야 한다

② 설명변수 간에는 높은 상관관계가 있어야 한다

③ 잔차의 분산은 불균일해야 한다

④ 잔차는 비정규분포를 따라야 한다

정답: ① 잔차는 서로 독립이어야 한다

 

29. A를 선택할 확률 대비 B A를 같이 팔 때 얼마나 더 많이 팔리는가?

① 지지도

② 신뢰도

③ 향상도

④ 재현율

정답: ③ 향상도

해설: 향상도는 두 아이템의 연관성 강도를 나타내는 지표입니다.

 

30. apriori 알고리즘에 대한 설명으로 옳은 것은?

① 순차적 패턴을 찾는데 사용된다

② 군집분석에 주로 활용된다

③ 최소 지지도를 가정으로 한다

④ 연속형 변수에만 적용 가능하다

정답: ③ 최소 지지도를 가정으로 한다

해설: Apriori 알고리즘은 최소 지지도를 기준으로 빈발 항목집합을 찾습니다.

반응형