본문 바로가기
데이터분석 준전문가(ADsP)

데이터분석 준전문가 ADsP 연습문제 [시험 대비 완벽 해설 가이드]

by 일잘냥 2025. 2. 20.
반응형

데이터분석 준전문가 ADsP 연습문제 [시험 대비 완벽 해설 가이드]
데이터분석 준전문가 ADsP 연습문제 [시험 대비 완벽 해설 가이드]

 

※ 문제 및 보기는 복원 과정에서 일부 변형되었을 수 있으며, 해설 역시 간략화한 내용이 포함됩니다.

데이터분석 준전문가 ADsP [1과목] 데이터이해

1. 기업 내 분산된 데이터베이스를 통합하기 위해 가장 적합한 것은 무엇인가?

  1. DW(Data Warehouse)
  2. OLAP
  3. ODBC
  4. BI

(정답) 1) DW(Data Warehouse)

해설

  • DW는 여러 이질적 시스템의 데이터를 통합·관리하는 저장소로, 기업 내부 분산된 DB 통합에 가장 적합합니다.
  • OLAP은 다차원 분석, ODBC는 DB 접속 표준, BI는 분석 활용 전반을 의미합니다.

2. 빅데이터의 3V 중 해당하지 않는 것은 무엇인가?

  1. 양(Volume)
  2. 다양성(Variety)
  3. 속도(Velocity)
  4. 진실성(Veracity)

(정답) 4) 진실성(Veracity)

 

해설

  • 빅데이터의 3V는 일반적으로 **Volume(양), Variety(다양성), Velocity(속도)**를 말합니다.
  • Veracity(진실성)는 추가로 언급되지만, 전통적인 3V에는 포함되지 않습니다.

빅데이터의 3V
빅데이터의 3V


3. 빅데이터 사용으로 인한 변화에 대해 틀린 설명은 무엇인가?

  1. 데이터 기반 의사결정이 강화된다.
  2. 기존 통계분석을 보완하는 새로운 접근법이 생긴다.
  3. 빅데이터 사용으로 상관관계에서 인과관계로 변화한다.
  4. 실시간 데이터 분석이 가능해진다.

(정답) 3) 빅데이터 사용으로 상관관계에서 인과관계로 변화한다.

해설

  • 빅데이터는 주로 상관관계 중심의 분석에 강점이 있습니다.
  • 인과관계를 입증하려면 실험 설계 등 추가 검증이 필요합니다.

4. 개인정보 보호법에 관한 내용 중 틀린 것은?

  1. 개발 단계에서부터 개인정보 보호 방안을 적용한다.
  2. 개인에게 알고리즘 소유권을 제공한다.
  3. 개인에게 정보 접근권을 부여한다.
  4. 개인에게 선택 옵션을 부여한다.

(정답) 2) 개인에게 알고리즘 소유권을 제공한다.

 

해설

  • 개인정보 보호법은 개인정보의 처리·활용 시 사전 보호 방안을 적용하도록 규정하지만, 알고리즘 소유권을 개인에게 부여한다는 내용은 포함되어 있지 않습니다.

 

5. 표본 크기가 n=71n=71이고 신뢰수준이 90%일 때, 모평균 신뢰구간을 다음 식으로 구한다고 하자. 아래 빈칸에 들어갈 tt-값은 무엇인가?

 

( X‾−빈칸×Sn,  X‾+빈칸×Sn)\Bigl(\,\overline{X} - \text{빈칸} \times \frac{S}{\sqrt{n}},\; \overline{X} + \text{빈칸} \times \frac{S}{\sqrt{n}}\Bigr)

  1. t70, 0.95t_{70,\,0.95}
  2. t71, 0.95t_{71,\,0.95}
  3. t70, 0.90t_{70,\,0.90}
  4. t71, 0.90t_{71,\,0.90}

(정답) 1) t70, 0.95t_{70,\,0.95}

해설

  • 신뢰수준이 90%이므로, α=0.1\alpha = 0.1, 한쪽 꼬리는 0.05입니다.
  • 자유도는 n−1=70 n-1 = 70, 따라서 **t70, 0.95t_{70,\,0.95}**를 사용해야 90% 신뢰구간을 구성할 수 있습니다.

 

6. 빅데이터 가치 패러다임의 변화 단계로 옳은 순서는?

  1. 에이전시(agency) → 연결(connection) → 디지털화(digitalization)
  2. 연결(connection) → 디지털화(digitalization) → 에이전시(agency)
  3. 연결(connection) → 에이전시(agency) → 디지털화(digitalization)
  4. 디지털화(digitalization) → 연결(connection) → 에이전시(agency)

(정답) 4) 디지털화(digitalization) → 연결(connection) → 에이전시(agency)

해설

  • 빅데이터의 가치가 높아지는 과정은 디지털화 → 연결 → 에이전시 순으로 이해할 수 있습니다.
  • 에이전시는 연결된 데이터를 활용해 새로운 가치를 창출하는 단계를 의미합니다.

빅데이터 가치 패러다임의 변화 단계
빅데이터 가치 패러다임의 변화 단계


7. 빅데이터 활용에 대한 설명 중 틀린 것은?

  1. 빅데이터는 다양한 산업 분야에서 활용 가능하다.
  2. 데이터 관리 측면에서 효율성이 높아진다.
  3. 분석 결과로 의사결정 지원이 가능하다.
  4. 택배 차량 배치에 요인 분석을 사용한다.

(정답) 4) 택배 차량 배치에 요인 분석을 사용한다.

해설

  • 택배 차량 배치나 경로 최적화 문제는 최적화 기법(OR) 또는 머신러닝 알고리즘을 주로 사용합니다.
  • 요인분석은 주로 여러 변수 간 잠재 요인을 찾는 데 활용되는 기법입니다.

8. 데이터사이언스에 대한 설명 중 잘못된 것은?

  1. 정보 분석을 중심으로 하는 학문이다.
  2. 분석의 정확도가 가장 우선시된다.
  3. 분석 안정성 확보에는 정확도보다 정밀도가 중요할 수 있다.
  4. 다른 사람들과의 커뮤니케이션이 중요하다.

(정답) 2) 분석의 정확도가 가장 우선시된다.

해설

  • 데이터사이언스는 정확도만큼 활용성, 비즈니스 가치, 커뮤니케이션 등 다양한 측면이 중요합니다.

 

9.  빅데이터 출현 배경으로 옳은 것을 모두 고르시오.

가. 대량의 데이터 축적
나. 휴대폰 및 클라우드의 발전
다. 분석처리기술의 발전

  1. 가, 나
  2. 가, 다
  3. 나, 다
  4. 가, 나, 다

(정답) 4) 가, 나, 다

해설

  • 빅데이터는 방대한 데이터 축적, IT 인프라(클라우드, 모바일) 발전, 분석 기술 진보가 결합되어 나타났습니다.

10. 기업 내 분산된 DB를 통합하고, 분석에 활용하기 위한 대표적 저장소는?

  1. OLAP
  2. DW(Data Warehouse)
  3. DBMS
  4. ETL

(정답) 2) DW(Data Warehouse)

해설

  • DW는 여러 소스의 데이터를 일관된 구조로 모아 통합 관리합니다.
  • OLAP은 분석 툴, ETL은 추출-변환-적재 과정, DBMS는 일반 데이터베이스 관리 시스템입니다.

반응형

데이터분석 준전문가 ADsP [2과목] 데이터분석 기획

 

11. 문제: 다중공선성(Multicollinearity)에 대한 설명 중 옳지 않은 것은?

  1. VIF로 확인하며, 일반적으로 10을 넘으면 의심된다.
  2. 다중공선성을 제거하려면 독립변수를 더 추가해야 한다.
  3. 변수들 간 선형관계로 인해 발생한다.
  4. 회귀계수 추정이 불안정해질 수 있다.

(정답) 2) 다중공선성을 제거하려면 독립변수를 더 추가해야 한다.

해설

  • 다중공선성 문제를 완화하려면 중복되는 변수를 제거하거나 차원축소 기법(주성분분석 등)을 적용합니다.
  • 변수를 더 추가하는 것은 일반적으로 공선성을 더 심화시킬 수 있습니다.

12. 오분류표(Confusion Matrix)에서 F1 스코어를 구하는 목적으로 옳은 것은?

  1. 정확도(Accuracy)만으로는 부족하여, 정밀도와 재현율을 조화롭게 평가하기 위함이다.
  2. 단순히 True Positive만 측정하기 위함이다.
  3. 모델 학습 속도를 높이기 위함이다.
  4. 과적합(overfitting) 여부를 판단하기 위함이다.

(정답) 1) 정확도만으로는 부족하여, 정밀도와 재현율을 조화롭게 평가하기 위함이다.

해설

  • F1 스코어정밀도(Precision)와 재현율(Recall) 간의 조화평균으로, 한쪽만 치우친 모델의 성능을 보완해서 평가하기 위한 지표입니다.

13. 두 벡터 간의 방향적 유사성을 측정하기 위해 각도를 사용하는 방법은?

  1. 자카드 유사도
  2. 피어슨 상관계수
  3. 코사인 유사도
  4. 캔버라 거리

(정답) 3) 코사인 유사도

해설

  • 코사인 유사도는 벡터의 각도를 기반으로 유사도를 측정합니다.
  • 0°에 가까울수록 유사도가 높아지고, 90°에 가까울수록 유사도가 낮아집니다.

14. 아래 그림처럼 S자형 곡선을 나타내는 산점도에 대한 설명으로 옳은 것은?

  1. 완전 선형 관계이다.
  2. 피어슨 상관계수가 1이다.
  3. 상관관계가 전혀 없다.
  4. 스피어만 상관계수가 1이다.

(정답) 4) 스피어만 상관계수가 1이다.

 

해설

  • 데이터가 단조(monotonic) 증가하는 형태라면, 선형성은 낮을 수 있지만 스피어만 상관계수는 1에 가까울 수 있습니다.
  • 피어슨 상관계수는 선형적 관계만 측정하므로 1이 되기 어렵습니다.

15. 분석과 분석 기법의 연결로 옳은 것은?

  1. 분류분석 - 회귀분석
  2. 군집분석 - 의사결정나무
  3. 차원 축소 - 로지스틱 회귀
  4. 연관분석 - 장바구니 분석

(정답) 4) 연관분석 - 장바구니 분석

 

해설

  • 연관분석은 거래 내 품목 간 동시 구매 패턴(장바구니 분석)을 파악할 때 활용합니다.

16.  파생변수에 대한 설명 중 틀린 것은?

  1. 파생변수는 원 데이터와 동일한 값을 갖는다.
  2. 다양한 모델에 공통으로 적용할 수 있다.
  3. 주관적 판단이 개입되므로 논리적 타당성을 확보해야 한다.
  4. 예: 비만도 측정을 위해 몸무게와 키를 사용해 BMI 지수를 계산한다.

(정답) 1) 파생변수는 원 데이터와 동일한 값을 갖는다.

 

해설

  • 파생변수는 기존 변수를 가공·조합하여 새로 생성한 변수입니다. 원 데이터와 동일한 값일 수는 없습니다.

17.  연관분석 관련 설명 중 틀린 것은?

  1. 결과 해석이 비교적 쉽다.
  2. 거래 횟수가 적은 품목에서도 규칙을 쉽게 발견할 수 있다.
  3. 거래량이 충분해야 통계적으로 의미 있는 규칙을 찾기 쉽다.
  4. 데이터를 별도로 변환하지 않고도 적용이 가능하다.

(정답) 2) 거래 횟수가 적은 품목에서도 규칙을 쉽게 발견할 수 있다.

 

해설

  • 거래 횟수(거래량)가 적은 품목은 지지도(support)가 낮아 유의미한 규칙을 발견하기 어렵습니다.

 18. K-평균 군집 분석에 대한 설명 중 가장 적절하지 않은 것은?

  1. 군집 형성 과정에서 한 개체는 여러 군집에 동시에 배정될 수 있다.
  2. 초기 군집 중심을 임의로 선택할 수 있다.
  3. 군집의 수 K는 사전에 정해져야 한다.
  4. 이상치(outlier)에 민감한 특성이 있다.

(정답) 1) 군집 형성 과정에서 한 개체는 여러 군집에 동시에 배정될 수 있다.

 

해설

  • K-평균은 각 개체가 단 하나의 군집에만 배정됩니다.
  • 이상치에 민감하고, K 값을 미리 설정해야 하며, 초기 중심을 어떻게 선택하느냐에 따라 결과가 달라질 수 있습니다.

19.  제1종 오류(Type I error)에 대한 설명으로 가장 적절한 것은?

  1. 귀무가설이 참일 때 귀무가설을 채택한다.
  2. 귀무가설이 참이 아닐 때 귀무가설을 채택한다.
  3. 귀무가설이 참일 때 귀무가설을 기각한다.
  4. 귀무가설이 참이 아닐 때 귀무가설을 기각한다.

(정답) 3) 귀무가설이 참일 때 귀무가설을 기각한다.

 

해설

  • 제1종 오류는 실제로 귀무가설이 참이지만 잘못 기각하는 오류를 의미합니다.

20. 변수 간의 거리를 측정하고, 고차원 데이터를 저차원 공간에 시각화하여 유사성을 분석하는 기법은 무엇인가?

  1. 다차원 척도법(MDS)
  2. 상관분석
  3. 군집분석
  4. 주성분 분석

(정답) 1) 다차원 척도법(MDS)

 

해설

  • MDS는 거리를 기반으로 데이터를 저차원에 매핑해 시각화하는 방법입니다.
  • PCA(주성분분석)는 분산 극대화 방향을 찾는 기법이고, 군집분석은 군집화 목적입니다.

데이터분석 준전문가 ADsP [3과목] 데이터분석

21. 결측값 처리 기법 중 완전 대치(Complete Case Analysis)에 대한 설명으로 옳지 않은 것은?

  1. 결측이 있는 행을 제거하면 분석은 단순해진다.
  2. 정보 손실이 발생할 수 있다.
  3. 결측값을 삭제하면 데이터 손실률이 낮아진다.
  4. 이상치를 절단하면 데이터 손실률은 줄고, 설명력은 증가한다.

(정답) 4) 이상치를 절단하면 데이터 손실률은 줄고, 설명력은 증가한다.

해설

  • 완전 대치는 결측이 있는 행(또는 열)을 제거하는 방식이라 정보 손실이 발생할 수 있습니다.
  • 이상치를 단순히 제거해도 설명력이 무조건 증가한다는 보장은 없습니다.

22. 여러 독립변수를 사용하여 하나의 연속형 종속변수를 예측하는 분석 기법은 무엇인가?

  1. 다항회귀
  2. 다중회귀(Multiple Regression)
  3. 로지스틱 회귀
  4. 단순회귀

(정답) 2) 다중회귀(Multiple Regression)

해설

  • 다중회귀는 2개 이상의 독립변수를 사용해 연속형 종속변수를 예측합니다.
  • 로지스틱 회귀는 종속변수가 범주형일 때 사용합니다.

23. 척도에 대한 설명 중 틀린 것은?

  1. 구간척도(Interval Scale): 절대 영점이 존재한다.
  2. 순서척도(Ordinal Scale): 순서만 표현 가능하다.
  3. 명목척도(Nominal Scale): 범주형으로 분류만 가능하다.
  4. 비율척도(Ratio Scale): 비율 비교가 가능하며 절대 영점이 있다.

(정답) 1) 구간척도(Interval Scale): 절대 영점이 존재한다.

해설

  • 구간척도는 절대 영점이 없고, 단지 구간 간 간격이 동일합니다.
  • 절대 영점이 있는 척도는 비율척도입니다.

24. 빅데이터 분석의 계층적 프로세스에 관한 설명으로 옳은 것은?

  1. 단계(Phase), 태스크(Task), 스텝(Step)으로 구성된다.
  2. 버전 관리는 고려하지 않아도 된다.
  3. 태스크와 스텝은 동일 개념이다.
  4. 프로세스는 고정적이라 변경할 수 없다.

(정답) 1) 단계(Phase), 태스크(Task), 스텝(Step)으로 구성된다.

 

해설

  • 대표적인 빅데이터 분석 방법론(예: KDD, CRISP-DM 등)은 단계를 나누고, 그 하위에 태스크스텝이 존재하는 계층 구조를 취합니다.

25. Hitters Data(메이저리그 타자 기록) 변수 간 상관계수 해석 중 가장 옳지 않은 것은?

  1. 샐러리(Salary)와 age 간의 상관성이 가장 낮다.
  2. cRun 변수가 통계적으로 유의하다.
  3. 에러(Error) 변수는 음의 상관관계를 가진다.
  4. 샐러리를 반응변수로 둘 때 다중공선성이 발생할 수 있다.

(정답) 2) cRun 변수가 통계적으로 유의하다.

해설

  • 문제에서 주어진 상관계수 테이블에 따르면, cRun의 유의성이 떨어지는 것으로 복원된 내용입니다.
  • 실제 데이터에서는 다른 결과가 나올 수 있으나, 여기서는 복원된 자료를 기준으로 합니다.

26. 확률에 대한 설명 중 잘못된 것은?

  1. 확률은 0과 1 사이의 값을 가진다.
  2. 독립 사건의 결합확률은 각 확률의 곱으로 구한다.
  3. A와 B의 교집합은 각 확률의 곱이다(항상).
  4. 배반 사건의 경우 합집합 확률은 두 사건 확률의 합이다.

(정답) 3) A와 B의 교집합은 각 확률의 곱이다(항상).

해설:

  • 독립 사건이라면 교집합 P(A∩B)P(A \cap B)P(A)×P(B)P(A) \times P(B)이 맞지만, 일반적으로는 조건부 확률을 고려해야 합니다.

27. 상관분석 결과에 대한 설명 중 옳지 않은 것은?

  1. 변수 간의 관계를 시각적으로 파악할 수 있다.
  2. 더미 변수를 포함한 상관분석도 가능하다.
  3. 특정 그룹의 평균 차이를 확인할 수도 있다.
  4. Balance와 Education의 피어슨 상관계수가 가장 약하다.

(정답) 4) Balance와 Education의 피어슨 상관계수가 가장 약하다.

해설:

  • 복원된 자료에 따르면, Balance와 Education 간 상관계수가 가장 약하지 않은 것으로 제시되었습니다.
  • 실제 데이터에 따라 달라질 수 있으나, 문제에서는 이를 틀린 보기로 제시합니다.

28. 표본 추출법에 대한 설명으로 옳은 것은?

  1. 단순 무작위 추출은 항상 대표성을 보장한다.
  2. 집락 추출은 서로 인접한 원소를 하나의 집락으로 구성한다.
  3. 편의 추출은 임의성이 없으며 대표성이 떨어진다.
  4. 층화 추출은 이질적인 원소들로 구성된 각 계층에서 대표 표본을 무작위로 추출한다.

(정답) 4) 층화 추출은 이질적인 원소들로 구성된 각 계층에서 대표 표본을 무작위로 추출한다.

해설

  • 층화 추출(Stratified Sampling)은 모집단을 이질적인 집단(층)으로 나눈 뒤, 각 층에서 무작위로 표본을 뽑아 전체 대표성을 높이는 방법입니다.

29. 회귀분석의 정규성을 검증하는 방법이 아닌 것은?

  1. 히스토그램
  2. Q-Q plot
  3. 샤피로-윌크(Shapiro-Wilk) 테스트
  4. 더빈-왓슨(Durbin-Watson) 테스트

(정답) 4) 더빈-왓슨(Durbin-Watson) 테스트

해설

  • 더빈-왓슨 테스트는 잔차의 자기상관을 확인하는 방법으로, 정규성이 아닌 독립성 검증에 사용됩니다.

30. 주성분 분석(PCA)에 대한 설명 중 틀린 것은?

  1. 가장 설명력이 높은 주성분이 분산의 10% 이상을 설명할 수도 있다.
  2. 전체 주성분을 사용하면 총 분산의 100%를 설명할 수 있다.
  3. 차원이 증가함에 따라 추가 주성분의 설명력은 점차 완만해진다.
  4. 두 개의 주성분을 사용할 경우 총 분산의 7%만 설명 가능하다.

(정답) 4) 두 개의 주성분을 사용할 경우 총 분산의 7%만 설명 가능하다.

해설

  • 주성분의 설명력은 데이터나 변수 수에 따라 달라집니다. “두 개의 주성분이 7%만 설명한다”는 보장은 없으며, 복원 자료상 틀린 보기로 제시됩니다.

기출문제 보기

반응형