※ 문제 및 보기는 복원 과정에서 일부 변형되었을 수 있으며, 해설 역시 간략화한 내용이 포함됩니다.
데이터분석 준전문가 ADsP [1과목] 데이터이해
1. 기업 내 분산된 데이터베이스를 통합하기 위해 가장 적합한 것은 무엇인가?
- DW(Data Warehouse)
- OLAP
- ODBC
- BI
(정답) 1) DW(Data Warehouse)
해설
- DW는 여러 이질적 시스템의 데이터를 통합·관리하는 저장소로, 기업 내부 분산된 DB 통합에 가장 적합합니다.
- OLAP은 다차원 분석, ODBC는 DB 접속 표준, BI는 분석 활용 전반을 의미합니다.
2. 빅데이터의 3V 중 해당하지 않는 것은 무엇인가?
- 양(Volume)
- 다양성(Variety)
- 속도(Velocity)
- 진실성(Veracity)
(정답) 4) 진실성(Veracity)
해설
- 빅데이터의 3V는 일반적으로 **Volume(양), Variety(다양성), Velocity(속도)**를 말합니다.
- Veracity(진실성)는 추가로 언급되지만, 전통적인 3V에는 포함되지 않습니다.
3. 빅데이터 사용으로 인한 변화에 대해 틀린 설명은 무엇인가?
- 데이터 기반 의사결정이 강화된다.
- 기존 통계분석을 보완하는 새로운 접근법이 생긴다.
- 빅데이터 사용으로 상관관계에서 인과관계로 변화한다.
- 실시간 데이터 분석이 가능해진다.
(정답) 3) 빅데이터 사용으로 상관관계에서 인과관계로 변화한다.
해설
- 빅데이터는 주로 상관관계 중심의 분석에 강점이 있습니다.
- 인과관계를 입증하려면 실험 설계 등 추가 검증이 필요합니다.
4. 개인정보 보호법에 관한 내용 중 틀린 것은?
- 개발 단계에서부터 개인정보 보호 방안을 적용한다.
- 개인에게 알고리즘 소유권을 제공한다.
- 개인에게 정보 접근권을 부여한다.
- 개인에게 선택 옵션을 부여한다.
(정답) 2) 개인에게 알고리즘 소유권을 제공한다.
해설
- 개인정보 보호법은 개인정보의 처리·활용 시 사전 보호 방안을 적용하도록 규정하지만, 알고리즘 소유권을 개인에게 부여한다는 내용은 포함되어 있지 않습니다.
5. 표본 크기가 n=71n=71이고 신뢰수준이 90%일 때, 모평균 신뢰구간을 다음 식으로 구한다고 하자. 아래 빈칸에 들어갈 tt-값은 무엇인가?
( X‾−빈칸×Sn, X‾+빈칸×Sn)\Bigl(\,\overline{X} - \text{빈칸} \times \frac{S}{\sqrt{n}},\; \overline{X} + \text{빈칸} \times \frac{S}{\sqrt{n}}\Bigr)
- t70, 0.95t_{70,\,0.95}
- t71, 0.95t_{71,\,0.95}
- t70, 0.90t_{70,\,0.90}
- t71, 0.90t_{71,\,0.90}
(정답) 1) t70, 0.95t_{70,\,0.95}
해설
- 신뢰수준이 90%이므로, α=0.1\alpha = 0.1, 한쪽 꼬리는 0.05입니다.
- 자유도는 n−1=70 n-1 = 70, 따라서 **t70, 0.95t_{70,\,0.95}**를 사용해야 90% 신뢰구간을 구성할 수 있습니다.
6. 빅데이터 가치 패러다임의 변화 단계로 옳은 순서는?
- 에이전시(agency) → 연결(connection) → 디지털화(digitalization)
- 연결(connection) → 디지털화(digitalization) → 에이전시(agency)
- 연결(connection) → 에이전시(agency) → 디지털화(digitalization)
- 디지털화(digitalization) → 연결(connection) → 에이전시(agency)
(정답) 4) 디지털화(digitalization) → 연결(connection) → 에이전시(agency)
해설
- 빅데이터의 가치가 높아지는 과정은 디지털화 → 연결 → 에이전시 순으로 이해할 수 있습니다.
- 에이전시는 연결된 데이터를 활용해 새로운 가치를 창출하는 단계를 의미합니다.
7. 빅데이터 활용에 대한 설명 중 틀린 것은?
- 빅데이터는 다양한 산업 분야에서 활용 가능하다.
- 데이터 관리 측면에서 효율성이 높아진다.
- 분석 결과로 의사결정 지원이 가능하다.
- 택배 차량 배치에 요인 분석을 사용한다.
(정답) 4) 택배 차량 배치에 요인 분석을 사용한다.
해설
- 택배 차량 배치나 경로 최적화 문제는 최적화 기법(OR) 또는 머신러닝 알고리즘을 주로 사용합니다.
- 요인분석은 주로 여러 변수 간 잠재 요인을 찾는 데 활용되는 기법입니다.
8. 데이터사이언스에 대한 설명 중 잘못된 것은?
- 정보 분석을 중심으로 하는 학문이다.
- 분석의 정확도가 가장 우선시된다.
- 분석 안정성 확보에는 정확도보다 정밀도가 중요할 수 있다.
- 다른 사람들과의 커뮤니케이션이 중요하다.
(정답) 2) 분석의 정확도가 가장 우선시된다.
해설
- 데이터사이언스는 정확도만큼 활용성, 비즈니스 가치, 커뮤니케이션 등 다양한 측면이 중요합니다.
9. 빅데이터 출현 배경으로 옳은 것을 모두 고르시오.
가. 대량의 데이터 축적
나. 휴대폰 및 클라우드의 발전
다. 분석처리기술의 발전
- 가, 나
- 가, 다
- 나, 다
- 가, 나, 다
(정답) 4) 가, 나, 다
해설
- 빅데이터는 방대한 데이터 축적, IT 인프라(클라우드, 모바일) 발전, 분석 기술 진보가 결합되어 나타났습니다.
10. 기업 내 분산된 DB를 통합하고, 분석에 활용하기 위한 대표적 저장소는?
- OLAP
- DW(Data Warehouse)
- DBMS
- ETL
(정답) 2) DW(Data Warehouse)
해설
- DW는 여러 소스의 데이터를 일관된 구조로 모아 통합 관리합니다.
- OLAP은 분석 툴, ETL은 추출-변환-적재 과정, DBMS는 일반 데이터베이스 관리 시스템입니다.
데이터분석 준전문가 ADsP [2과목] 데이터분석 기획
11. 문제: 다중공선성(Multicollinearity)에 대한 설명 중 옳지 않은 것은?
- VIF로 확인하며, 일반적으로 10을 넘으면 의심된다.
- 다중공선성을 제거하려면 독립변수를 더 추가해야 한다.
- 변수들 간 선형관계로 인해 발생한다.
- 회귀계수 추정이 불안정해질 수 있다.
(정답) 2) 다중공선성을 제거하려면 독립변수를 더 추가해야 한다.
해설
- 다중공선성 문제를 완화하려면 중복되는 변수를 제거하거나 차원축소 기법(주성분분석 등)을 적용합니다.
- 변수를 더 추가하는 것은 일반적으로 공선성을 더 심화시킬 수 있습니다.
12. 오분류표(Confusion Matrix)에서 F1 스코어를 구하는 목적으로 옳은 것은?
- 정확도(Accuracy)만으로는 부족하여, 정밀도와 재현율을 조화롭게 평가하기 위함이다.
- 단순히 True Positive만 측정하기 위함이다.
- 모델 학습 속도를 높이기 위함이다.
- 과적합(overfitting) 여부를 판단하기 위함이다.
(정답) 1) 정확도만으로는 부족하여, 정밀도와 재현율을 조화롭게 평가하기 위함이다.
해설
- F1 스코어는 정밀도(Precision)와 재현율(Recall) 간의 조화평균으로, 한쪽만 치우친 모델의 성능을 보완해서 평가하기 위한 지표입니다.
13. 두 벡터 간의 방향적 유사성을 측정하기 위해 각도를 사용하는 방법은?
- 자카드 유사도
- 피어슨 상관계수
- 코사인 유사도
- 캔버라 거리
(정답) 3) 코사인 유사도
해설
- 코사인 유사도는 벡터의 각도를 기반으로 유사도를 측정합니다.
- 0°에 가까울수록 유사도가 높아지고, 90°에 가까울수록 유사도가 낮아집니다.
14. 아래 그림처럼 S자형 곡선을 나타내는 산점도에 대한 설명으로 옳은 것은?
- 완전 선형 관계이다.
- 피어슨 상관계수가 1이다.
- 상관관계가 전혀 없다.
- 스피어만 상관계수가 1이다.
(정답) 4) 스피어만 상관계수가 1이다.
해설
- 데이터가 단조(monotonic) 증가하는 형태라면, 선형성은 낮을 수 있지만 스피어만 상관계수는 1에 가까울 수 있습니다.
- 피어슨 상관계수는 선형적 관계만 측정하므로 1이 되기 어렵습니다.
15. 분석과 분석 기법의 연결로 옳은 것은?
- 분류분석 - 회귀분석
- 군집분석 - 의사결정나무
- 차원 축소 - 로지스틱 회귀
- 연관분석 - 장바구니 분석
(정답) 4) 연관분석 - 장바구니 분석
해설
- 연관분석은 거래 내 품목 간 동시 구매 패턴(장바구니 분석)을 파악할 때 활용합니다.
16. 파생변수에 대한 설명 중 틀린 것은?
- 파생변수는 원 데이터와 동일한 값을 갖는다.
- 다양한 모델에 공통으로 적용할 수 있다.
- 주관적 판단이 개입되므로 논리적 타당성을 확보해야 한다.
- 예: 비만도 측정을 위해 몸무게와 키를 사용해 BMI 지수를 계산한다.
(정답) 1) 파생변수는 원 데이터와 동일한 값을 갖는다.
해설
- 파생변수는 기존 변수를 가공·조합하여 새로 생성한 변수입니다. 원 데이터와 동일한 값일 수는 없습니다.
17. 연관분석 관련 설명 중 틀린 것은?
- 결과 해석이 비교적 쉽다.
- 거래 횟수가 적은 품목에서도 규칙을 쉽게 발견할 수 있다.
- 거래량이 충분해야 통계적으로 의미 있는 규칙을 찾기 쉽다.
- 데이터를 별도로 변환하지 않고도 적용이 가능하다.
(정답) 2) 거래 횟수가 적은 품목에서도 규칙을 쉽게 발견할 수 있다.
해설
- 거래 횟수(거래량)가 적은 품목은 지지도(support)가 낮아 유의미한 규칙을 발견하기 어렵습니다.
18. K-평균 군집 분석에 대한 설명 중 가장 적절하지 않은 것은?
- 군집 형성 과정에서 한 개체는 여러 군집에 동시에 배정될 수 있다.
- 초기 군집 중심을 임의로 선택할 수 있다.
- 군집의 수 K는 사전에 정해져야 한다.
- 이상치(outlier)에 민감한 특성이 있다.
(정답) 1) 군집 형성 과정에서 한 개체는 여러 군집에 동시에 배정될 수 있다.
해설
- K-평균은 각 개체가 단 하나의 군집에만 배정됩니다.
- 이상치에 민감하고, K 값을 미리 설정해야 하며, 초기 중심을 어떻게 선택하느냐에 따라 결과가 달라질 수 있습니다.
19. 제1종 오류(Type I error)에 대한 설명으로 가장 적절한 것은?
- 귀무가설이 참일 때 귀무가설을 채택한다.
- 귀무가설이 참이 아닐 때 귀무가설을 채택한다.
- 귀무가설이 참일 때 귀무가설을 기각한다.
- 귀무가설이 참이 아닐 때 귀무가설을 기각한다.
(정답) 3) 귀무가설이 참일 때 귀무가설을 기각한다.
해설
- 제1종 오류는 실제로 귀무가설이 참이지만 잘못 기각하는 오류를 의미합니다.
20. 변수 간의 거리를 측정하고, 고차원 데이터를 저차원 공간에 시각화하여 유사성을 분석하는 기법은 무엇인가?
- 다차원 척도법(MDS)
- 상관분석
- 군집분석
- 주성분 분석
(정답) 1) 다차원 척도법(MDS)
해설
- MDS는 거리를 기반으로 데이터를 저차원에 매핑해 시각화하는 방법입니다.
- PCA(주성분분석)는 분산 극대화 방향을 찾는 기법이고, 군집분석은 군집화 목적입니다.
데이터분석 준전문가 ADsP [3과목] 데이터분석
21. 결측값 처리 기법 중 완전 대치(Complete Case Analysis)에 대한 설명으로 옳지 않은 것은?
- 결측이 있는 행을 제거하면 분석은 단순해진다.
- 정보 손실이 발생할 수 있다.
- 결측값을 삭제하면 데이터 손실률이 낮아진다.
- 이상치를 절단하면 데이터 손실률은 줄고, 설명력은 증가한다.
(정답) 4) 이상치를 절단하면 데이터 손실률은 줄고, 설명력은 증가한다.
해설
- 완전 대치는 결측이 있는 행(또는 열)을 제거하는 방식이라 정보 손실이 발생할 수 있습니다.
- 이상치를 단순히 제거해도 설명력이 무조건 증가한다는 보장은 없습니다.
22. 여러 독립변수를 사용하여 하나의 연속형 종속변수를 예측하는 분석 기법은 무엇인가?
- 다항회귀
- 다중회귀(Multiple Regression)
- 로지스틱 회귀
- 단순회귀
(정답) 2) 다중회귀(Multiple Regression)
해설
- 다중회귀는 2개 이상의 독립변수를 사용해 연속형 종속변수를 예측합니다.
- 로지스틱 회귀는 종속변수가 범주형일 때 사용합니다.
23. 척도에 대한 설명 중 틀린 것은?
- 구간척도(Interval Scale): 절대 영점이 존재한다.
- 순서척도(Ordinal Scale): 순서만 표현 가능하다.
- 명목척도(Nominal Scale): 범주형으로 분류만 가능하다.
- 비율척도(Ratio Scale): 비율 비교가 가능하며 절대 영점이 있다.
(정답) 1) 구간척도(Interval Scale): 절대 영점이 존재한다.
해설
- 구간척도는 절대 영점이 없고, 단지 구간 간 간격이 동일합니다.
- 절대 영점이 있는 척도는 비율척도입니다.
24. 빅데이터 분석의 계층적 프로세스에 관한 설명으로 옳은 것은?
- 단계(Phase), 태스크(Task), 스텝(Step)으로 구성된다.
- 버전 관리는 고려하지 않아도 된다.
- 태스크와 스텝은 동일 개념이다.
- 프로세스는 고정적이라 변경할 수 없다.
(정답) 1) 단계(Phase), 태스크(Task), 스텝(Step)으로 구성된다.
해설
- 대표적인 빅데이터 분석 방법론(예: KDD, CRISP-DM 등)은 단계를 나누고, 그 하위에 태스크와 스텝이 존재하는 계층 구조를 취합니다.
25. Hitters Data(메이저리그 타자 기록) 변수 간 상관계수 해석 중 가장 옳지 않은 것은?
- 샐러리(Salary)와 age 간의 상관성이 가장 낮다.
- cRun 변수가 통계적으로 유의하다.
- 에러(Error) 변수는 음의 상관관계를 가진다.
- 샐러리를 반응변수로 둘 때 다중공선성이 발생할 수 있다.
(정답) 2) cRun 변수가 통계적으로 유의하다.
해설
- 문제에서 주어진 상관계수 테이블에 따르면, cRun의 유의성이 떨어지는 것으로 복원된 내용입니다.
- 실제 데이터에서는 다른 결과가 나올 수 있으나, 여기서는 복원된 자료를 기준으로 합니다.
26. 확률에 대한 설명 중 잘못된 것은?
- 확률은 0과 1 사이의 값을 가진다.
- 독립 사건의 결합확률은 각 확률의 곱으로 구한다.
- A와 B의 교집합은 각 확률의 곱이다(항상).
- 배반 사건의 경우 합집합 확률은 두 사건 확률의 합이다.
(정답) 3) A와 B의 교집합은 각 확률의 곱이다(항상).
해설:
- 독립 사건이라면 교집합 P(A∩B)P(A \cap B)는 P(A)×P(B)P(A) \times P(B)이 맞지만, 일반적으로는 조건부 확률을 고려해야 합니다.
27. 상관분석 결과에 대한 설명 중 옳지 않은 것은?
- 변수 간의 관계를 시각적으로 파악할 수 있다.
- 더미 변수를 포함한 상관분석도 가능하다.
- 특정 그룹의 평균 차이를 확인할 수도 있다.
- Balance와 Education의 피어슨 상관계수가 가장 약하다.
(정답) 4) Balance와 Education의 피어슨 상관계수가 가장 약하다.
해설:
- 복원된 자료에 따르면, Balance와 Education 간 상관계수가 가장 약하지 않은 것으로 제시되었습니다.
- 실제 데이터에 따라 달라질 수 있으나, 문제에서는 이를 틀린 보기로 제시합니다.
28. 표본 추출법에 대한 설명으로 옳은 것은?
- 단순 무작위 추출은 항상 대표성을 보장한다.
- 집락 추출은 서로 인접한 원소를 하나의 집락으로 구성한다.
- 편의 추출은 임의성이 없으며 대표성이 떨어진다.
- 층화 추출은 이질적인 원소들로 구성된 각 계층에서 대표 표본을 무작위로 추출한다.
(정답) 4) 층화 추출은 이질적인 원소들로 구성된 각 계층에서 대표 표본을 무작위로 추출한다.
해설
- 층화 추출(Stratified Sampling)은 모집단을 이질적인 집단(층)으로 나눈 뒤, 각 층에서 무작위로 표본을 뽑아 전체 대표성을 높이는 방법입니다.
29. 회귀분석의 정규성을 검증하는 방법이 아닌 것은?
- 히스토그램
- Q-Q plot
- 샤피로-윌크(Shapiro-Wilk) 테스트
- 더빈-왓슨(Durbin-Watson) 테스트
(정답) 4) 더빈-왓슨(Durbin-Watson) 테스트
해설
- 더빈-왓슨 테스트는 잔차의 자기상관을 확인하는 방법으로, 정규성이 아닌 독립성 검증에 사용됩니다.
30. 주성분 분석(PCA)에 대한 설명 중 틀린 것은?
- 가장 설명력이 높은 주성분이 분산의 10% 이상을 설명할 수도 있다.
- 전체 주성분을 사용하면 총 분산의 100%를 설명할 수 있다.
- 차원이 증가함에 따라 추가 주성분의 설명력은 점차 완만해진다.
- 두 개의 주성분을 사용할 경우 총 분산의 7%만 설명 가능하다.
(정답) 4) 두 개의 주성분을 사용할 경우 총 분산의 7%만 설명 가능하다.
해설
- 주성분의 설명력은 데이터나 변수 수에 따라 달라집니다. “두 개의 주성분이 7%만 설명한다”는 보장은 없으며, 복원 자료상 틀린 보기로 제시됩니다.
'데이터분석 준전문가(ADsP)' 카테고리의 다른 글
데이터분석준전문가[ADsP] 기출 문제 복원(42회) (3) | 2024.11.03 |
---|---|
빅데이터의 에이전시(Agency) 개념 완벽 이해하기 - 연결 상태의 지속적 관리 (1) | 2024.11.03 |
빅데이터 발전 요인 : 비정형 데이터와 기술 혁신이 핵심 (0) | 2024.11.02 |
빅데이터 시대의 사생활 침해 해결방안 - 제공자 동의에서 사용자 책임으로의 전환 (1) | 2024.11.02 |
빅데이터가 가져오는 변화 : 인과관계에서 상관관계로 (1) | 2024.11.02 |