안녕하세요! 일잘냥 입니다. 오늘은 제 42회 ADSP [데이터분석 준전문가] 기출문제를 소개해 드리겠습니다. 해당 문제는 기억의 의해 복원/가공 되었음을 참고하시고 활용하시기 바랍니다. 오류가 있으시면 댓글 남겨 주시기 바랍니다. 감사합니다.
데이터분석준전문가 ADSP 1과목 데이터 이해
1. 다음중 데이터의 특성이 다른 하나는?
① 풍량
② 강수량
③ 기상특보
④ 습도
정답: ③ 기상특보
해설: 풍량, 강수량, 습도는 모두 정량적(수치화 가능한) 데이터인 반면, 기상특보는 정성적 데이터입니다.
2. DIKW 피라미드 예시 중 맞는 것은?
① D(Data): A마트는 100원, B마트는 200원에 연필을 판매한다.
② I(Information): B마트가 A마트보다 연필이 100원 더 비싸다.
③ K(Knowledge): B가 A보다 연필이 더 싸니깐 B에서 사야겠다.
④ W(Wisdom): 문구류는 전반적으로 A마트가 더 저렴할 것이다.
정답: ③ K: B가 A보다 연필이 더 싸니깐 B에서 사야겠다.
해설: 지식(Knowledge)은 정보에 개인의 경험과 판단이 더해진 것입니다.
3. 데이터사이언티스트에게 필요한 역량이 아닌 것은?
① 스토리텔링
② 비즈니스 분석기법
③ 네트워크 구축 역량
④ 통계적 사고능력
정답: ③ 네트워크 구축 역량
해설: 데이터사이언티스트는 데이터 분석과 해석에 집중하며, 네트워크 구축은 IT 인프라 담당자의 역량입니다.
4. 데이터베이스의 진행 절차를 올바른 순서대로 나열한 것은?
① 통합 - 저장 - 공유 - 변화
② 저장 - 통합 - 변화 - 공유
③ 공유 - 저장 - 통합 - 변화
④ 변화 - 통합 - 저장 - 공유
정답: ① 통합 - 저장 - 공유 - 변화
5. 빅데이터 위기 요인이 아닌 것은?
① 사생활 침해
② 책임원칙훼손
③ 데이터오용
④ 분석기술의 발달
정답: ④ 분석기술의 발달
해설: 분석기술의 발달은 빅데이터의 기회 요인이며, 나머지는 모두 위기 요인입니다.
6. 빅데이터가 만들어내는 변화로 옳은 것은?
① 사후조사 → 사전예측
② 표본조사 → 전수조사
③ 질적분석 → 양적분석
④ 인과관계 → 상관관계
정답: ④ 인과관계 → 상관관계
7. 빅데이터가 미치는 영향이 아닌 것은?
① 고객에게 획일화된 서비스 제공
② 맞춤형 서비스 확대
③ 업무 프로세스 최적화
④ 새로운 가치 창출
정답: ① 고객에게 획일화된 서비스 제공
8. 빅데이터의 사생활침해 해결방법은?
① 제공자 동의에서 사용자 책임으로 전환한다
② 데이터 수집 범위를 제한한다
③ 개인정보 비식별화를 강화한다
④ 데이터 보안 시스템을 구축한다
정답: ① 제공자 동의에서 사용자 책임으로 전환한다
9. 빅데이터가 발전한 요인이 아닌 것은?
① 정형 데이터의 폭증
② 하둡 등 분산처리 기술의 발전
③ SNS 등 비정형 데이터의 증가
④ 클라우드 컴퓨팅의 발전
정답: ① 정형 데이터의 폭증
해설: 빅데이터 발전의 주요 요인은 비정형 데이터의 폭증입니다.
10. 연결된 상태로 연결을 관리해야할 때를 설명하는 것은?
① 연결성
② 디지털화
③ 에이전시
④ 네트워크 효과
정답: ③ 에이전시
해설: 에이전시는 정보의 비대칭성이 존재하는 상황에서 연결된 상태로 관리해야 하는 개념을 설명합니다.
빅데이터분석준전문가[ADsP] [2과목] 데이터분석 기획
1. KDD 분석방법론의 올바른 순서는?
① Selection(데이터셋 선택) - Preprocessing(데이터 전처리) - Transformation(데이터 변환) - Data Mining(데이터 마이닝) - Interpretation/Evaluation(평가)
② Preprocessing - Selection - Transformation - Data Mining - Interpretation/Evaluation
③ Selection - Transformation - Preprocessing - Data Mining - Interpretation/Evaluation
④ Preprocessing - Transformation - Selection - Interpretation/Evaluation - Data Mining
정답: ① Selection - Preprocessing - Transformation - Data Mining - Interpretation/Evaluation
해설: KDD 프로세스는 데이터 선택부터 평가까지 순차적으로 진행됩니다.
2. 전체 학생 중 한명을 뽑았더니 사과를 좋아할 확률은?
구분 | 사과 | 사과아님 | 합계 |
남 | 30 | 20 | 50 |
여 | 10 | 40 | 50 |
총합 | 40 | 60 | 100 |
① 4/10
② 3/5
③ 1/2
④ 3/10
정답: ① 4/10
해설: 전체 100명 중 사과를 좋아하는 학생은 40명이므로 확률은 40/100 = 4/10입니다.
3. CRISP-DM의 업무이해 단계로 맞는 것은?
① 업무 상황파악 - 데이터 마이닝 목표설정 - 프로젝트 계획 수립
② 데이터 마이닝 목표설정 - 프로젝트 계획 수립 - 업무 상황파악
③ 프로젝트 계획 수립 - 업무 상황파악 - 데이터 마이닝 목표설정
④ 업무 상황파악 - 프로젝트 계획 수립 - 데이터 마이닝 목표설정
정답: ① 업무 상황파악 - 데이터 마이닝 목표설정 - 프로젝트 계획 수립
4. 4V에서 비즈니스 효과에 해당하는 것은?
① Value
② Volume
③ Velocity
④ Variety
정답: ① Value
해설: 4V 중 Value는 비즈니스 가치 창출을 의미합니다.
5. 프로세스 내재화에 대한 설명 중 분석 결과를 활용하고, 혁신 및 성과 향상에 기여하는 것은?
① 도입
② 활용
③ 확산
④ 최적화
정답: ④ 최적화
해설: 최적화 단계는 분석 결과를 적극 활용하여 프로세스를 개선하고 성과를 향상시키는 단계입니다.
6. 상향식 방법론으로 옳지 않은 것은?
① 문제정의를 명확히 할 수 있을 때 사용한다
② 데이터 중심의 접근방식이다
③ 데이터를 통해 인사이트를 도출한다
④ 탐색적 분석이 중심이 된다
정답: ① 문제정의를 명확히 할 수 있을 때 사용한다
해설: 상향식 방법론은 문제정의가 명확하지 않을 때 데이터 탐색을 통해 인사이트를 발견하는 방식입니다.
7. 분석과제에서 고려해야할 요소가 아닌 것은?
① 데이터 크기(규모)
② 속도
③ 복잡도
④ 데이터 분류
정답: ④ 데이터 분류
해설: 분석과제 수행 시 주요 고려요소는 데이터의 크기, 처리 속도, 분석 복잡도입니다.
8. 시급성이 현재일 때 가장 먼저 고려할 것은?
① 전략적 중요도
② 실현 가능성
③ 데이터 확보 용이성
④ 분석 난이도
정답: ① 전략적 중요도
해설: 시급성이 높은 과제는 전략적 중요도를 우선적으로 고려해야 합니다.
9. 데이터분석 준비시 고려의 중요도가 가장 낮은 것은?
① 비용
② 분석업무이해
③ 분석문화
④ 분석기법
정답: ① 비용
해설: 데이터분석의 성공을 위해서는 업무이해, 조직문화, 분석기법이 비용보다 더 중요한 고려사항입니다.
10. 협의의 데이터플랫폼의 구성요소인 것은?
① 분석 어플리케이션
② 분석 서비스 제공 API
③ 분석 라이브러리
④ 분석 서비스 엔진
정답: ③ 분석 라이브러리
해설: 협의의 데이터플랫폼은 분석 라이브러리를 핵심 구성요소로 포함합니다.
빅데이터분석 준전문가 ADSP 3과목 데이터분석
1. 분석 방법은 알고 대상은 모를 때 사용할 수 있는 방법은?
① 발견
② 통찰
③ 최적화
④ 솔루션
정답: ② 통찰
해설: 통찰은 분석 방법은 알지만 대상이 불명확할 때 사용하는 접근법입니다.
2. 회귀모형 선택방법에 대한 설명 중 틀린 것은?
① AIC는 모형의 적합도와 복잡성을 고려한다
② R-제곱은 설명력을 나타내는 지표이다
③ 조정된 R-제곱은 변수 수를 고려한다
④ BIC는 베이즈 정리에 기반하여 복잡한 모형에 더 큰 페널티를 부여한다
정답: ④ BIC는 베이즈 정리에 기반하여 복잡한 모형에 더 큰 페널티를 부여한다
3. 혼합분포군집에서 사용하는 알고리즘은?
① EM 알고리즘
② K-means
③ 계층적 군집화
④ DBSCAN
정답: ① EM 알고리즘
해설: EM(Expectation-Maximization) 알고리즘은 혼합분포모형에서 주로 사용됩니다.
4. TV-라디오 R코드 해석 문제
① TV와 라디오 사이의 교호관계가 있어 통계 모형이 유의하다
② TV:radio 통계 모형이 유의하다
③ TV가 1 증가할 때 RADIO와 상관없이 SALES가 오른다
④ 모형의 설명력은 약 67%이다
정답: ③ TV가 1 증가할 때 RADIO와 상관없이 SALES가 오른다
5. 분해시계열 요인 중 옳지 않은 것은?
① 추세요인
② 계절요인
③ 교호요인
④ 순환요인
정답: ③ 교호요인
해설: 시계열 분해의 주요 요인은 추세, 계절, 순환, 불규칙 요인입니다.
6. 다음 중 지도학습이 아닌 것은?
① 로지스틱회귀분석
② 의사결정나무
③ 인공신경망
④ SOM
정답: ④ SOM
해설: SOM(Self-Organizing Map)은 비지도학습 알고리즘입니다.
7. 회귀방정식 탐색방법 중 잘못된 것은?
① 후진선택법은 상수항만 남을때까지 제거한다
② 전진선택법은 변수를 하나씩 추가한다
③ 단계적 선택법은 변수를 추가하거나 제거할 수 있다
④ 모든 가능한 회귀는 모든 조합을 검토한다
정답: ① 후진선택법은 상수항만 남을때까지 제거한다
해설: 후진선택법은 통계적으로 유의하지 않은 변수를 제거하는 방식입니다.
8. 앙상블기법이 아닌 것은?
① 시그모이드
② 배깅
③ 부스팅
④ 스태킹
정답: ① 시그모이드
해설: 시그모이드는 활성화함수이며, 나머지는 앙상블 학습 기법입니다.
9. 이상치를 이용하기에 가장 적절한 시스템인 것은?
① 부정구매 방지시스템
② 추천시스템
③ 수요예측시스템
④ 고객분류시스템
정답: ① 부정구매 방지시스템
해설: 이상치 탐지는 부정거래 탐지에 효과적으로 활용됩니다.
10. 매우만족 - 만족 - 보통 - 불만 - 매우 불만족은 무슨 척도인가?
① 서열척도
② 명목척도
③ 구간척도
④ 비율척도
정답: ① 서열척도
해설: 순서가 있으나 간격이 일정하지 않은 데이터는 서열척도입니다.
11. 의사결정트리에서 범주형 변수에서의 분할방법에서 사용하는 것으로 옳지 않은 것은?
① 카이제곱 통계량
② 지니지수
③ 엔트로피지수
④ 분산감소량
정답: ④ 분산감소량
해설: 분산감소량은 연속형 변수의 분할에 사용됩니다.
12. 주장하고자 하는 가설이 실제로는 예상보다 이상값이 도출될 확률이 높은 것은?
① 알파
② P-value
③ 베타
④ 1-알파
정답: ② P-value
13. 다음에서 t통계량을 계산하시오.
① 2.348 / 0.312 (회귀계수 / 오차)
② 0.312 / 2.348 (오차 / 회귀계수)
③ 2.348 * 0.312 (회귀계수 * 오차)
④ (2.348 + 0.312) / 2
정답: ① 2.348 / 0.312 (회귀계수 / 오차)
여기서 t통계량(t value)은
- 회귀계수(Estimate) / 표준오차(Std. Error)
- 즉, 2.348 / 0.312 ≈ 7.526
실제 R 결과에서 볼 수 있듯이, t통계량은 7.526으로 계산됩니다.
14. 다음 표로부터 오분류율을 계산하시오.
① 13/20 = (FP + FN)/전체 = (8 + 5)/20 = 0.65 (정답)
② (TP + TN)/전체 = (2 + 5)/20 = 0.35 (정확도)
③ TP/(TP + FP) = 2/(2 + 8) = 0.2 (정밀도)
④ TN/(TN + FN) = 5/(5 + 5) = 0.5 (특이도)
정답: ① 13/20 = (FP + FN)/전체
해설: 오분류율은 잘못 분류된 케이스의 비율입니다.
15. 보기의 내용을 통해 도출한 A질병 진단받은 사람 중 A질병 가진 사람 비율은?
[보기]
- 전체 중 A질병 가진사람: 10%
- 전체 중 A질병 진단받은 사람: 20%
- A질병 진단받은 사람 중 A질병을 실제 가진 사람: 90%
① 1/9
② 2/9
③ 9/20
④ 9/10
정답: ③ 9/20
16. 결측값에 대한 설명 중 틀린 것은?
① 완전연결법은 결측값 데이터를 완전히 삭제한다
② 다중대치법은 여러번 대치하여 여러개의 자료를 도출한다
③ 확률단순선택법은 회귀분석을 사용한다
④ 평균표준편차는 중앙값으로 대체한다
정답: ④ 평균표준편차는 중앙값으로 대체한다
해설: 평균대치법은 결측치를 평균으로 대체하는 방법입니다.
17. 군집분석에서 군집수를 결정하는 방법은?
① 엘보우방법
② 상관계수
③ 유클리드거리
④ 맨하탄거리
정답: ① 엘보우방법
해설: 엘보우방법은 군집 내 분산의 감소율이 급격히 줄어드는 지점을 최적 군집수로 결정합니다.
18. 모집단이 정규분포를 따를때 신뢰구간 95%가 다음과 같이 계산된다. 이중 틀린 설명은?
0.5 ± 1.96 / √100
① 신뢰구간 99%로 변경시 1.96대신 2.58이다
② 표본평균이 0.5이다
③ 모집단의 평균값이 신뢰구간에 포함되지 않을 수 있다
④ 동일한 모집단에서 같은 방식으로 표본을 추출하고 같은 방식으로 신뢰구간을 추정하면 동일한 값이 나온다
정답: ④ 동일한 모집단에서 같은 방식으로 표본을 추출하고 같은 방식으로 신뢰구간을 추정하면 동일한 값이 나온다
해설: 표본추출이 달라지면 신뢰구간도 달라질 수 있습니다.
19. DBSCAN 관련하여 틀린 것은?
① 임의 형태의 군집으로 분류하는데 유용하다
② 밀도기반 군집화 알고리즘이다
③ 초기 군집수 k를 설정해야한다
④ 다차원 자료의 경우 '차원의 저주'로 인해 유용하지않다
정답: ③ 초기 군집수 k를 설정해야한다
해설: DBSCAN은 초기 군집수를 설정할 필요가 없는 알고리즘입니다.
20. 인공신경망관련 설명 중 틀린 것은?
① 은닉층이 적으면 과대적합, 은닉층 많으면 과소적합
② 은닉층이 많을수록 복잡한 패턴을 학습할 수 있다
③ 활성화함수는 비선형성을 부여한다
④ 과적합을 방지하기 위해 드롭아웃을 사용할 수 있다
정답: ① 은닉층이 적으면 과대적합, 은닉층 많으면 과소적합
해설: 일반적으로 은닉층이 많으면 과대적합, 적으면 과소적합이 발생할 수 있습니다.
21. 신용카드 고객의 파산확률을 yes, no로 예측하기에 적절하지 않은 방법은?
① 선형회귀분석
② 로지스틱 회귀분석
③ 랜덤포레스트
④ SVM
정답: ① 선형회귀분석
해설: 이진분류 문제에는 선형회귀분석보다 로지스틱 회귀분석이 적합합니다.
22. 의사결정트리에서 더이상 세분화하지않고 멈출때 사용하는 기법은?
① 정지규칙
② 가지치기
③ 비용복잡도
④ 교차검증
정답: ① 정지규칙
해설: 정지규칙은 트리의 성장을 멈추는 기준을 정의합니다.
23. 다중공선성 해결방법으로 옳지 않은 것은?
① 중요도가 낮으면서 상관계수가 높은 변수를 제거한다
② 구조적 다중공선성의 문제가 있는 경우에는 데이터의 평균 중심을 변화한다
③ 주성분분석을 통해 차원을 축소한다
④ VIF를 이용하여 다중공선성 유무를 판단한다
정답: ② 구조적 다중공선성의 문제가 있는 경우에는 데이터의 평균 중심을 변화한다
해설: 구조적 다중공선성은 변수 변환이나 차원축소로 해결해야 합니다.
24. 다중회귀모형에서 통계적으로 유의함을 판단할때 사용하는 검증은?
① F검정
② P-VALUE
③ T통계량
④ Z통계량
정답: ① F검정
해설: 다중회귀모형의 전체적인 유의성은 F검정으로 판단합니다.
25. 데이터 베이스의 특징 중 ( ) 안에 들어갈 내용으로 알맞은 것은?
1. ( )데이터는 동일한 내용이 중복되지않게 함
2. ( )데이터는 컴퓨터가 접근할 수있는 매체에 저장
3. ( )데이터는 여러 사용자가 함께 사용가능
4. ( )데이터는 항상 변화해도 현재의 정확한 데이터를 유지해야함
① 공용 - 저장 - 통합 - 변화되는
② 저장 - 통합 - 공용 - 변화되는
③ 통합된 - 저장 - 공용 - 변화되는
④ 통합된 - 공용 - 변화되는 - 저장
정답: ③ 통합된 - 저장 - 공용 - 변화되는
26. 이상값에 대한 설명 중 틀린 것은?
① 범위의 경우 이상값 존재시 값이 커진다는 단점이 있다
② 평균대치법에는 조건부 평균대치법, 비조건부 평균대치법이 있다
③ 이상값은 데이터의 품질을 저하시킬 수 있다
④ 평균절대편차법은 중앙값이랑 변수 사이의 차이값들로 이루어진 것을 의미한다
정답: ④ 평균절대편차법은 중앙값이랑 변수 사이의 차이값들로 이루어진 것을 의미한다
27. 자기상관모형에 대한 설명으로 맞는 것은?
① ARIMA는 비정상 시계열에만 사용한다
② MA(q)는 과거의 관측값에 의존한다
③ 계절성 ARIMA는 주기성을 고려하지 않는다
④ AR(1)은 1개의 시차, AR(2)는 2개의 시차 사용한다
정답: ④ AR(1)은 1개의 시차, AR(2)는 2개의 시차 사용한다
28. 회귀모형의 가정에 대한 설명으로 옳은 것은?
① 잔차는 서로 독립이어야 한다
② 설명변수 간에는 높은 상관관계가 있어야 한다
③ 잔차의 분산은 불균일해야 한다
④ 잔차는 비정규분포를 따라야 한다
정답: ① 잔차는 서로 독립이어야 한다
29. A를 선택할 확률 대비 B와 A를 같이 팔 때 얼마나 더 많이 팔리는가?
① 지지도
② 신뢰도
③ 향상도
④ 재현율
정답: ③ 향상도
해설: 향상도는 두 아이템의 연관성 강도를 나타내는 지표입니다.
30. apriori 알고리즘에 대한 설명으로 옳은 것은?
① 순차적 패턴을 찾는데 사용된다
② 군집분석에 주로 활용된다
③ 최소 지지도를 가정으로 한다
④ 연속형 변수에만 적용 가능하다
정답: ③ 최소 지지도를 가정으로 한다
해설: Apriori 알고리즘은 최소 지지도를 기준으로 빈발 항목집합을 찾습니다.
'데이터분석 준전문가(ADsP)' 카테고리의 다른 글
데이터분석 준전문가 ADsP 연습문제 [시험 대비 완벽 해설 가이드] (0) | 2025.02.20 |
---|---|
빅데이터의 에이전시(Agency) 개념 완벽 이해하기 - 연결 상태의 지속적 관리 (1) | 2024.11.03 |
빅데이터 발전 요인 : 비정형 데이터와 기술 혁신이 핵심 (0) | 2024.11.02 |
빅데이터 시대의 사생활 침해 해결방안 - 제공자 동의에서 사용자 책임으로의 전환 (1) | 2024.11.02 |
빅데이터가 가져오는 변화 : 인과관계에서 상관관계로 (1) | 2024.11.02 |