본문 바로가기
AI,DT

데이터 분석 준 전문가(ADsP) 기출 문제 복원(ADsP 40회)

by 일잘냥 2024. 8. 10.
반응형

데이터 분석 준 전문가(ADsP) 기출 문제 복원(ADsP 40회)

데이터 분석 준 전문가(ADsP) 40회 기출 문제

ADsP 40회 기출문제 기반으로 재 가공한 문제와 해설 입니다.

 

데이터 분석 준 전문가(ADsP) 40회 1과목 데이터의 이해

01. 다음 중 기업의 전략 도출을 위한 가치 기반 분석과 관련된 설명으로 옳지 않은 것을 고르시오.

  1. 가치 사슬 분석은 기업의 핵심 활동을 파악하는 데 도움을 준다.
  2. SWOT 분석은 기업의 내부 환경과 외부 환경을 동시에 고려한다.
  3. 가치 곡선 분석은 경쟁사와의 차별화 전략을 수립하는 데 유용하다.
  4. 비즈니스 모델 캔버스는 기업의 수익 구조만을 분석하는 도구이다.
  5. 포터의 5가지 경쟁요인 분석은 산업 구조를 이해하는 데 도움을 준다.

정답: 4

해설: 비즈니스 모델 캔버스는 기업의 수익 구조뿐만 아니라 핵심 파트너, 핵심 활동, 핵심 자원, 가치 제안, 고객 관계, 채널, 고객 세그먼트, 비용 구조 등 기업의 전체적인 비즈니스 모델을 분석하는 도구입니다. 따라서 수익 구조만을 분석한다는 설명은 옳지 않습니다.

02. 빅데이터 분석 활용의 효과 예시로 가장 거리가 먼 것은?

  1. 고객 맞춤형 상품 추천 시스템 개발
  2. 실시간 교통 정보를 활용한 최적 경로 제공
  3. 소셜 미디어 분석을 통한 브랜드 이미지 개선
  4. 센서 데이터를 활용한 제조 공정 최적화
  5. 종이 문서 기반의 수작업 데이터 입력 시스템 구축

정답: 5

해설: 빅데이터 분석 활용의 주요 효과는 대량의 데이터를 신속하게 처리하고 분석하여 유용한 인사이트를 도출하는 것입니다. 종이 문서 기반의 수작업 데이터 입력 시스템은 빅데이터의 특성인 대용량, 고속성, 다양성을 활용하지 못하며, 오히려 빅데이터 시대 이전의 비효율적인 데이터 처리 방식에 해당합니다.

03. 데이터베이스의 일반적인 특징으로 옳지 않은 것은?

  1. 데이터의 중복성을 최소화한다.
  2. 데이터의 일관성을 유지한다.
  3. 데이터의 독립성을 보장한다.
  4. 데이터에 대한 동시 접근을 제어한다.
  5. 데이터의 유연성을 제한하여 안정성을 높인다.

정답: 5

해설: 데이터베이스는 데이터의 유연성을 제한하지 않습니다. 오히려 데이터베이스 관리 시스템(DBMS)은 데이터의 구조를 변경하거나 새로운 데이터 항목을 추가하는 등 유연한 데이터 관리를 가능하게 합니다. 데이터의 유연성과 안정성은 서로 상충되는 개념이 아니며, 현대의 DBMS는 둘 다 높은 수준으로 제공합니다.

04. 다음 중 기업 내부 데이터베이스 솔루션이 아닌 시스템은?

  1. ERP (Enterprise Resource Planning)
  2. CRM (Customer Relationship Management)
  3. SCM (Supply Chain Management)
  4. SNS (Social Networking Service)
  5. DW (Data Warehouse)

정답: 4

해설: SNS(Social Networking Service)는 기업 내부 데이터베이스 솔루션이 아닙니다. SNS는 주로 외부 사용자들 간의 소통과 정보 공유를 위한 플랫폼입니다. 반면 ERP, CRM, SCM, DW는 모두 기업 내부의 데이터를 관리하고 분석하기 위한 솔루션입니다.

05. 데이터의 특징에 대한 설명 중 옳지 않은 것은?

  1. 데이터는 의미를 가진 최소 단위의 정보이다.
  2. 데이터는 가공되지 않은 원시 형태로만 존재한다.
  3. 데이터는 정량적 또는 정성적 형태를 가질 수 있다.
  4. 데이터는 시간에 따라 변할 수 있다.
  5. 데이터는 다양한 출처로부터 수집될 수 있다.

정답: 2

해설: 데이터는 반드시 가공되지 않은 원시 형태로만 존재하는 것은 아닙니다. 데이터는 원시 데이터(Raw Data)부터 가공된 데이터, 분석된 데이터 등 다양한 형태로 존재할 수 있습니다. 데이터 처리 과정에서 데이터는 여러 단계를 거쳐 변형되고 정제될 수 있으며, 이 과정에서 새로운 형태의 데이터가 생성될 수 있습니다.

06. 이미지, 로그, 영상, 텍스트 등의 데이터 형태는?

  1. 정형 데이터
  2. 반정형 데이터
  3. 비정형 데이터
  4. 메타 데이터
  5. 트랜잭션 데이터

정답: 3

해설: 이미지, 로그, 영상, 텍스트 등은 비정형 데이터에 해당합니다. 비정형 데이터는 미리 정의된 데이터 모델이나 구조화된 형식이 없는 데이터를 말합니다. 이러한 데이터는 일반적으로 관계형 데이터베이스에 저장하기 어렵고, 빅데이터 분석 기술을 활용하여 처리하고 분석합니다.

07. 다음 중 빅데이터 활용 기법에 관한 설명으로 옳지 않은 것은?

  1. 데이터 마이닝은 대량의 데이터에서 유용한 패턴을 발견하는 기법이다.
  2. 텍스트 마이닝은 비정형 텍스트 데이터에서 의미 있는 정보를 추출하는 기법이다.
  3. 머신러닝은 데이터로부터 학습하여 예측 모델을 만드는 기법이다.
  4. 클러스터 분석은 데이터를 유사한 특성을 가진 그룹으로 나누는 기법이다.
  5. A/B 테스팅은 모든 가능한 경우의 수를 동시에 테스트하는 기법이다.

정답: 5

해설: A/B 테스팅은 모든 가능한 경우의 수를 동시에 테스트하는 기법이 아닙니다. A/B 테스팅은 두 가지 버전(A와 B)을 비교하여 어떤 것이 더 효과적인지 테스트하는 방법입니다. 예를 들어, 웹사이트 디자인의 두 가지 버전을 사용자 그룹에게 무작위로 보여주고 어떤 버전이 더 높은 전환율을 보이는지 비교하는 방식입니다. 모든 가능한 경우의 수를 동시에 테스트하는 것은 현실적으로 어렵고 비효율적일 수 있습니다.

08. 빅데이터가 만들어 낸 본질적인 변화

다음 중 빅데이터가 만들어 낸 본질적인 변화로 적절하지 않은 것을 고르시오.

  1. 사전처리 → 사후처리
  2. 대면조사 → 표본조사
  3. 질문다 → 양적으로
  4. 상관관계 → 인과관계

정답

  1. 대면조사 → 표본조사

해설

빅데이터가 만들어 낸 본질적인 변화를 올바르게 표현한 것들은 다음과 같습니다:

  • 사전처리 → 사후처리: 빅데이터 환경에서는 모든 데이터를 먼저 수집한 후, 필요에 따라 분석하는 사후처리 방식이 증가했습니다.
  • 질문다 → 양적으로: 빅데이터 기술은 대량의 데이터를 처리할 수 있게 해주어, 더 많은 양적 분석이 가능해졌습니다.
  • 상관관계 → 인과관계: 이는 정확한 표현은 아니지만, 빅데이터 분석을 통해 더 복잡한 관계성을 파악할 수 있게 되었다는 의미로 해석할 수 있습니다.

반면, "대면조사 → 표본조사"는 빅데이터의 특성과 반대되는 변화를 나타냅니다. 빅데이터 기술은 오히려:

  • 표본조사에서 전수조사로의 변화
  • 더 큰 규모의 데이터 분석

을 가능하게 합니다. 빅데이터를 통해 더 많은 데이터를 수집하고 분석할 수 있게 되어, 작은 표본에 의존하던 이전의 방식에서 벗어나 더 포괄적인 데이터 분석이 가능해졌습니다.

따라서 빅데이터가 만들어 낸 본질적인 변화로 적절하지 않은 것은 "대면조사 → 표본조사"입니다.

네, 주신 질문들에 대해 문제와 정답, 해설을 마크다운 형식으로 작성해 드리겠습니다.

09. 가트너가 본 데이터 사이언티스트의 요구 역량

다음 중 가트너가 제시한 데이터 사이언티스트의 요구 역량이 아닌 것은?

  1. 데이터 관리 능력
  2. 모델링 및 분석 능력
  3. 비즈니스 문제 해결 능력
  4. 데이터 시각화 및 프레젠테이션 능력
  5. 프로그래밍 언어 개발 능력

정답

  1. 프로그래밍 언어 개발 능력

해설

가트너(Gartner)가 제시한 데이터 사이언티스트의 주요 요구 역량은 다음과 같습니다:

  1. 데이터 관리 능력: 대량의 데이터를 효과적으로 수집, 저장, 처리하는 능력
  2. 모델링 및 분석 능력: 통계, 기계학습 등을 활용한 데이터 분석 및 예측 모델 구축 능력
  3. 비즈니스 문제 해결 능력: 데이터 분석 결과를 비즈니스 맥락에서 해석하고 적용하는 능력
  4. 데이터 시각화 및 프레젠테이션 능력: 분석 결과를 효과적으로 전달하는 능력

"프로그래밍 언어 개발 능력"은 데이터 사이언티스트에게 직접적으로 요구되는 핵심 역량은 아닙니다. 데이터 사이언티스트는 기존의 프로그래밍 언어(예: Python, R)를 사용하여 데이터를 분석하고 모델을 구축하지만, 새로운 프로그래밍 언어를 개발하는 것은 일반적으로 그들의 주요 업무가 아닙니다.

10. 데이터 사이언티스트에게 요구되는 하드스킬

다음 중 데이터 사이언티스트에게 요구되는 하드스킬로 가장 적절한 것은?

  1. 리더십
  2. 커뮤니케이션 능력
  3. 통계학적 지식
  4. 팀워크
  5. 창의성

정답

  1. 통계학적 지식

해설

데이터 사이언티스트에게 요구되는 스킬은 크게 하드스킬과 소프트스킬로 나눌 수 있습니다.

하드스킬은 기술적이고 측정 가능한 능력을 의미하며, 데이터 사이언티스트에게 요구되는 주요 하드스킬은 다음과 같습니다:

  • 통계학적 지식
  • 프로그래밍 능력 (Python, R 등)
  • 기계학습 및 인공지능 알고리즘에 대한 이해
  • 데이터베이스 및 빅데이터 기술에 대한 지식
  • 데이터 시각화 기술

제시된 보기 중에서 "통계학적 지식"이 가장 명확한 하드스킬에 해당합니다.

반면, 나머지 보기들은 소프트스킬에 가깝습니다:

  • 리더십, 커뮤니케이션 능력, 팀워크는 대인관계 및 업무 수행 방식과 관련된 소프트스킬입니다.
  • 창의성은 문제 해결 접근 방식과 관련된 소프트스킬로 볼 수 있습니다.

따라서 주어진 보기 중 데이터 사이언티스트에게 요구되는 가장 적절한 하드스킬은 "통계학적 지식"입니다.

주어진 정보를 바탕으로 12번 문제와 11번 문제에 대한 답변을 마크다운 형식으로 제공하겠습니다.

반응형

데이터 분석 준 전문가(ADsP) 40회 2과목 데이터의 분석 기회

11. 조직에 데이터 분석 문화를 자리잡게 하기 위한 행동으로 알맞지 않은 것은?

  1. 데이터 분석 결과를 의사결정에 적극 활용한다.
  2. 데이터 분석 교육 프로그램을 운영한다.
  3. 데이터 분석 성공 사례를 공유한다.
  4. 데이터 접근 권한을 제한하여 보안을 강화한다.
  5. 데이터 기반 의사결정을 장려하는 리더십을 발휘한다.

정답

  1. 데이터 접근 권한을 제한하여 보안을 강화한다.

해설

데이터 분석 문화를 조직에 정착시키기 위해서는 데이터의 활용과 공유가 중요합니다. 나머지 옵션들은 모두 데이터 분석 문화를 촉진하는 행동들입니다:

1, 3, 5: 이 옵션들은 데이터 분석의 가치를 인식시키고 활용을 장려하는 행동입니다.
2: 교육 프로그램은 조직 구성원들의 데이터 분석 능력을 향상시켜 문화 정착에 도움을 줍니다.

반면, 4번 "데이터 접근 권한을 제한하여 보안을 강화한다"는 것은 보안 측면에서는 중요할 수 있지만, 과도한 제한은 데이터 활용을 어렵게 만들어 데이터 분석 문화 정착에 방해가 될 수 있습니다. 물론 적절한 수준의 보안은 필요하지만, 문화 정착을 위해서는 데이터에 대한 접근성을 높이는 것이 더 중요합니다.

따라서, 데이터 분석 문화를 자리잡게 하기 위한 행동으로 가장 알맞지 않은 것은 4번입니다.

12. 아래에서 설명한 데이터 분석 조직구조는?

  • 전사 분석업무별 별도의 분석 전담 조직에서 담당
  • 전략적 중요도에 따라 분석조직이 우선순위를 정해서 진행 가능
  • 현업 업무부서의 분석업무와 이중화/이원화 가능성 높음

정답

중앙집중형 조직구조

해설

제시된 특징들은 중앙집중형 데이터 분석 조직구조를 설명하고 있습니다:

  1. 전사적인 분석 업무를 별도의 전담 조직에서 담당하는 것은 중앙집중형의 핵심 특징입니다.
  2. 전략적 중요도에 따라 우선순위를 정할 수 있다는 점은 중앙에서 전체적인 관점으로 업무를 조율할 수 있음을 의미합니다.
  3. 현업 부서와 분석 업무가 이중화될 수 있다는 점은 중앙집중형 구조의 단점 중 하나로, 현업과의 괴리가 발생할 수 있음을 나타냅니다.

이러한 특징들은 모두 데이터 분석 기능이 조직의 중앙에 집중되어 있는 구조를 나타내므로, 중앙집중형 조직구조라고 할 수 있습니다.

주어진 질문들에 대해 마크다운 형식으로 문제와 정답, 해설을 작성하겠습니다.

13. 빅데이터 분석방법론의 분석기획 단계 산출물인 프로젝트 범위 정의서(SOW)에 들어가는 내용은?

  1. 프로젝트 목표
  2. 주요 이해관계자
  3. 프로젝트 기간 및 일정
  4. 예상 결과물
  5. 제약사항

정답

위의 모든 항목

해설

프로젝트 범위 정의서(Statement of Work, SOW)는 프로젝트의 전반적인 내용을 정의하는 문서입니다. 일반적으로 다음 내용을 포함합니다:

  1. 프로젝트 목표: 프로젝트를 통해 달성하고자 하는 구체적인 목표
  2. 주요 이해관계자: 프로젝트에 관여하는 주요 인물이나 부서
  3. 프로젝트 기간 및 일정: 프로젝트의 시작과 종료 일자, 주요 마일스톤
  4. 예상 결과물: 프로젝트 완료 시 제출될 구체적인 산출물
  5. 제약사항: 예산, 자원, 시간 등 프로젝트 수행에 영향을 미치는 제한 요소

이 모든 요소들이 SOW에 포함되어 프로젝트의 범위와 기대사항을 명확히 정의합니다.

14. 다음 중 CRISP-DM의 모델링 단계에서 수행하는 업무(태스크)로 틀린 것을 고르시오

  1. 모델링 기법 선택
  2. 모델 평가
  3. 테스트 설계
  4. 모델 구축
  5. 데이터 정제

정답

  1. 데이터 정제

해설

CRISP-DM(Cross-Industry Standard Process for Data Mining)의 모델링 단계에서 주로 수행하는 업무는 다음과 같습니다:

  1. 모델링 기법 선택: 적합한 모델링 기법을 선택합니다.
  2. 모델 평가: 구축된 모델의 성능을 평가합니다.
  3. 테스트 설계: 모델의 품질을 평가하기 위한 테스트 계획을 수립합니다.
  4. 모델 구축: 선택된 기법을 사용하여 실제 모델을 구축합니다.

"데이터 정제"는 일반적으로 모델링 단계 이전의 "데이터 준비" 단계에서 수행되는 작업입니다. 모델링 단계에서는 이미 정제된 데이터를 사용하여 모델을 구축하고 평가하는 작업에 집중합니다.

15. 빅데이터 분석 절차는 빅데이터 분석 방법론을 토대로 5단계 절차로 수행된다. 맞는 절차는?

  1. 분석 기획 → 데이터 준비 → 데이터 분석 → 시스템 구현 → 평가 및 전개
  2. 데이터 준비 → 분석 기획 → 데이터 분석 → 평가 및 전개 → 시스템 구현
  3. 분석 기획 → 데이터 준비 → 데이터 분석 → 평가 및 전개 → 시스템 구현
  4. 데이터 준비 → 분석 기획 → 데이터 분석 → 시스템 구현 → 평가 및 전개
  5. 분석 기획 → 데이터 분석 → 데이터 준비 → 시스템 구현 → 평가 및 전개

정답

  1. 분석 기획 → 데이터 준비 → 데이터 분석 → 평가 및 전개 → 시스템 구현

해설

빅데이터 분석의 일반적인 5단계 절차는 다음과 같습니다:

  1. 분석 기획: 목표 설정, 요구사항 정의, 프로젝트 계획 수립
  2. 데이터 준비: 데이터 수집, 정제, 통합, 변환
  3. 데이터 분석: 탐색적 데이터 분석, 모델링, 알고리즘 적용
  4. 평가 및 전개: 모델 평가, 결과 해석, 비즈니스 적용 방안 도출
  5. 시스템 구현: 분석 결과를 실제 시스템에 구현 및 통합

이 순서는 프로젝트의 목표 설정부터 시작하여 실제 시스템 구현까지의 논리적 흐름을 따릅니다. 데이터 준비는 분석 기획 후에 이루어지며, 시스템 구현은 평가 및 전개 후에 최종적으로 수행됩니다.

네, 나머지 문제들에 대해서도 마크다운 형식으로 답변 드리겠습니다.

16. 분석과제 발굴 방법 중 상향식 접근법(Bottom Up Approach)에 대한 설명으로 옳지 않은 것은?

  1. 데이터를 기반으로 인사이트를 도출하는 방식이다.
  2. 탐색적 데이터 분석(EDA)을 통해 과제를 발굴한다.
  3. 예상치 못한 인사이트를 발견할 가능성이 높다.
  4. 경영진의 의사결정이 빠르게 이루어질 수 있다.
  5. 데이터 사이언티스트의 역량이 중요하다.

정답

  1. 경영진의 의사결정이 빠르게 이루어질 수 있다.

해설

상향식 접근법(Bottom Up Approach)의 특징은 다음과 같습니다:

  • 데이터를 먼저 분석하고 그 결과를 바탕으로 인사이트를 도출합니다.
  • 탐색적 데이터 분석(EDA)을 통해 데이터에서 패턴이나 관계를 발견하고 이를 통해 과제를 발굴합니다.
  • 예상치 못한 인사이트를 발견할 가능성이 높습니다.
  • 데이터 사이언티스트의 분석 역량이 중요한 역할을 합니다.

그러나 "경영진의 의사결정이 빠르게 이루어질 수 있다"는 것은 상향식 접근법의 특징이 아닙니다. 오히려 상향식 접근법은 데이터 분석에 시간이 많이 소요되고, 도출된 인사이트를 경영진에게 설명하고 이해시키는 과정이 필요하므로 의사결정이 상대적으로 느릴 수 있습니다.

17. 과제 중심적인 접근방식으로 진행되는 특징으로 알맞지 않은 것을 고르시오.

  1. 분석 목표가 명확하다
  2. 결과 도출 시간이 짧다
  3. 경영진의 관심도가 높다
  4. 분석 방법이 정형화되어 있다
  5. 데이터 수집 및 정제에 많은 시간이 소요된다

정답

  1. 데이터 수집 및 정제에 많은 시간이 소요된다

해설

과제 중심적인 접근방식(하향식 접근법)의 특징은 다음과 같습니다:

  1. 분석 목표가 명확하다: 경영진이나 의사결정자가 구체적인 목표를 제시합니다.
  2. 결과 도출 시간이 짧다: 목표가 명확하므로 분석 과정이 상대적으로 빠릅니다.
  3. 경영진의 관심도가 높다: 경영진이 직접 과제를 제시하므로 관심도가 높습니다.
  4. 분석 방법이 정형화되어 있다: 목표에 따라 분석 방법을 미리 정할 수 있습니다.

반면, "데이터 수집 및 정제에 많은 시간이 소요된다"는 것은 과제 중심적 접근방식의 특징이 아닙니다. 이 접근법에서는 일반적으로 필요한 데이터가 명확히 정의되어 있어, 데이터 수집 및 정제 과정이 상대적으로 효율적일 수 있습니다.

18. 하향식 접근방식의 수행 내용이 아닌 것을 고르시오?

  1. 경영 이슈 파악
  2. 분석 과제 도출
  3. 분석 과제 구체화
  4. 필요 데이터 정의
  5. 데이터 기반 가설 수립

정답

  1. 데이터 기반 가설 수립

해설

하향식 접근방식(Top-Down Approach)의 일반적인 수행 내용은 다음과 같습니다:

  1. 경영 이슈 파악: 조직의 주요 문제나 목표를 식별합니다.
  2. 분석 과제 도출: 경영 이슈를 해결하기 위한 구체적인 분석 과제를 정의합니다.
  3. 분석 과제 구체화: 도출된 과제의 세부 내용을 명확히 합니다.
  4. 필요 데이터 정의: 분석에 필요한 데이터를 정의하고 식별합니다.

반면, "데이터 기반 가설 수립"은 상향식 접근방식(Bottom-Up Approach)에 더 가까운 활동입니다. 하향식 접근에서는 데이터를 보기 전에 경영 이슈에서 출발하여 가설을 수립하는 반면, 데이터 기반 가설 수립은 데이터를 먼저 살펴본 후 가설을 만드는 방식입니다.

19. 빅데이터 분석 방법론의 분석기획 단계에서 수행하는 주요 task는?

  1. 프로젝트 정의
  2. 분석 마스터 플랜 수립
  3. 데이터 분석
  4. 분석 과제 도출
  5. 데이터 준비

정답

  1. 프로젝트 정의
  2. 분석 마스터 플랜 수립
  3. 분석 과제 도출

해설

빅데이터 분석 방법론의 분석기획 단계에서 주로 수행하는 task는 다음과 같습니다:

  1. 프로젝트 정의: 프로젝트의 목적, 범위, 기대효과 등을 정의합니다.
  2. 분석 마스터 플랜 수립: 전체적인 분석 계획을 수립합니다.
  3. 분석 과제 도출: 구체적인 분석 과제를 식별하고 정의합니다.

반면, "데이터 분석"과 "데이터 준비"는 분석기획 단계 이후의 단계에서 수행되는 task입니다.

20. 데이터 분석기획 유형에 관한 설명으로 옳지 않은 것은?

  1. 하향식 접근법은 경영진의 요구사항을 바탕으로 한다.
  2. 상향식 접근법은 데이터를 먼저 탐색하여 인사이트를 도출한다.
  3. 하향식 접근법은 분석 목표가 명확하다.
  4. 상향식 접근법은 예상치 못한 인사이트를 발견할 가능성이 낮다.
  5. 실제 프로젝트에서는 두 접근법을 혼합하여 사용하는 경우가 많다.

정답

  1. 상향식 접근법은 예상치 못한 인사이트를 발견할 가능성이 낮다.

해설

데이터 분석기획의 주요 접근법인 하향식과 상향식 접근법에 대한 설명은 다음과 같습니다:

  1. 하향식 접근법은 경영진의 요구사항을 바탕으로 분석 과제를 도출합니다.
  2. 상향식 접근법은 데이터를 먼저 탐색하여 인사이트를 도출하는 방식입니다.
  3. 하향식 접근법은 경영진의 요구사항에 기반하므로 분석 목표가 명확합니다.
  4. 실제 프로젝트에서는 두 접근법의 장점을 살려 혼합하여 사용하는 경우가 많습니다.

그러나 4번 설명은 옳지 않습니다. 상향식 접근법은 오히려 예상치 못한 인사이트를 발견할 가능성이 높습니다. 데이터를 먼저 탐색하고 분석하는 과정에서 기존에 예상하지 못했던 패턴이나 관계를 발견할 수 있기 때문입니다.

주어진 설명을 바탕으로 문제와 답을 다음과 같이 정리할 수 있습니다.

데이터 분석 준 전문가(ADsP) 40회 3과목 데이터 분석

21. 다음이 설명하는 표본추출방법은?

"모집단을 상이한 집단으로 나누고 각 집단에서 무작위로 표본을 추출하는 방법"

정답

층화추출법 (Stratified Sampling)

해설

층화추출법(Stratified Sampling)의 주요 특징은 다음과 같습니다:

  1. 모집단을 여러 개의 상호 배타적이고 포괄적인 하위 집단(계층)으로 나눕니다.
  2. 각 계층은 모집단의 특정 특성에 따라 구분됩니다. 예를 들어, 연령대, 성별, 소득 수준 등이 될 수 있습니다.
  3. 각 계층에서 독립적으로 무작위 표본을 추출합니다.
  4. 이 방법은 모집단의 특성을 더 잘 반영할 수 있어 대표성이 높은 표본을 얻을 수 있습니다.

층화추출법의 장점:

  • 모집단의 특성을 더 정확히 반영할 수 있습니다.
  • 표본의 대표성이 향상됩니다.
  • 각 하위 집단에 대한 별도의 분석이 가능합니다.

이 방법은 모집단이 뚜렷하게 구분되는 하위 집단으로 나눌 수 있을 때 특히 유용합니다. 예를 들어, 인구 조사나 시장 조사 등에서 자주 사용됩니다.

네, 각 질문에 대해 마크다운 형식으로 답변 드리겠습니다.

22. 주성분 수의 선택 방법에 대한 설명으로 가장 옳지 않은 것은?

  1. 누적 설명 분산 비율이 70~80% 이상이 되도록 선택한다.
  2. 고유값(eigenvalue)이 1 이상인 주성분을 선택한다.
  3. 스크리 도표(scree plot)를 이용하여 선택한다.
  4. 해석 가능성을 고려하여 선택한다.
  5. 항상 모든 주성분을 선택해야 한다.

정답

  1. 항상 모든 주성분을 선택해야 한다.

해설

주성분 분석(PCA)에서 주성분 수를 선택하는 방법은 다음과 같습니다:

  1. 누적 설명 분산 비율: 일반적으로 70~80% 이상의 누적 설명력을 가지는 주성분까지 선택합니다.
  2. 고유값(eigenvalue) 기준: 고유값이 1 이상인 주성분을 선택하는 것이 일반적입니다.
  3. 스크리 도표(scree plot): 고유값의 감소 추세를 그래프로 나타내어, 감소 속도가 급격히 줄어드는 지점(elbow point)까지의 주성분을 선택합니다.
  4. 해석 가능성: 선택된 주성분들이 실제 데이터를 의미 있게 설명할 수 있는지 고려합니다.

"항상 모든 주성분을 선택해야 한다"는 것은 옳지 않습니다. 주성분 분석의 목적은 차원 축소와 중요 특성 추출이므로, 모든 주성분을 선택하는 것은 이러한 목적에 부합하지 않습니다.

23. Decision Tree의 분리기준인 엔트로피 지수의 계산식은?

정답

H(S) = -Σ(pi * log2(pi))

여기서,
H(S)는 집합 S의 엔트로피
pi는 집합 S에서 클래스 i에 속하는 샘플의 비율

해설

엔트로피 지수는 Decision Tree에서 노드의 불순도(impurity)를 측정하는 데 사용됩니다.

  • 엔트로피 값이 0이면 완전히 순수한 노드(모든 샘플이 같은 클래스)를 의미합니다.
  • 엔트로피 값이 높을수록 노드의 불순도가 높다는 것을 의미합니다.

Decision Tree 알고리즘은 이 엔트로피 값을 최소화하는 방향으로 데이터를 분할합니다. 정보 이득(Information Gain)은 분할 전후의 엔트로피 차이로 계산되며, 이 값이 최대가 되는 특성을 기준으로 트리를 구성합니다.

24. 확률에 대한 설명으로 가장 적합하지 않은 것을 고르시오

  1. 확률은 0에서 1 사이의 값을 가진다.
  2. 모든 가능한 결과의 확률의 합은 1이다.
  3. 독립 사건의 동시 발생 확률은 각 사건의 확률의 곱이다.
  4. 조건부 확률은 한 사건이 일어났다는 조건 하에 다른 사건이 일어날 확률이다.
  5. 두 사건이 서로 배반이면 항상 독립 사건이다.

정답

  1. 두 사건이 서로 배반이면 항상 독립 사건이다.

해설

확률에 대한 설명 중 1~4번은 모두 올바른 설명입니다. 그러나 5번은 잘못된 설명입니다.

  • 배반 사건: 동시에 일어날 수 없는 사건들
  • 독립 사건: 한 사건의 발생이 다른 사건의 발생 확률에 영향을 주지 않는 사건들

두 사건이 서로 배반이라고 해서 반드시 독립 사건인 것은 아닙니다. 오히려 대부분의 경우, 배반 사건은 독립 사건이 아닙니다.

예를 들어, 주사위를 던져서 1이 나오는 사건(A)과 2가 나오는 사건(B)은 서로 배반 사건이지만 독립 사건은 아닙니다. A가 일어나면 B가 일어날 확률은 0이 되므로, A의 발생이 B의 확률에 영향을 줍니다.

따라서 "두 사건이 서로 배반이면 항상 독립 사건이다"라는 설명은 옳지 않습니다.

주어진 R 코드와 결과를 바탕으로 문제와 해설을 다음과 같이 작성하겠습니다.

25. 닭의 성장률에 대한 다양한 사료 보충제의 효과를 비교하기 위한 사료유형별 닭의 몸무게 데이터에 대한 summary 함수 결과에 대한 해석 중 옳지 않은 것은?

사료유형별 닭의 몸무게 데이터
사료유형별 닭의 몸무게 데이터

  1. 실험에 사용된 닭의 최소 몸무게는 108.0g이다.
  2. 전체 닭 중 25%는 몸무게가 204.5g 이하이다.
  3. 닭들의 평균 몸무게는 261.3g이다.
  4. 가장 많이 사용된 사료 유형은 soybean이다.
  5. 실험에 사용된 사료 유형은 총 6가지이다.

정답

  1. 가장 많이 사용된 사료 유형은 soybean이다.

해설

summary 함수의 결과를 분석해보면:

  1. 최소 몸무게(Min.)는 108.0g으로 맞습니다.
  2. 1st Qu.(제1사분위수)가 204.5g이므로, 전체 닭 중 25%가 이 무게 이하입니다.
  3. 평균 몸무게(Mean)는 261.3g으로 정확합니다.
  4. 사료 유형별 사용 횟수를 보면 soybean이 14회로 가장 많아 보이지만, 이는 단순히 나열된 순서일 뿐 반드시 가장 많이 사용되었다고 단정할 수 없습니다. 다른 유형들도 10-12회 사용되었으므로, 이 정보만으로는 soybean이 가장 많이 사용되었다고 확실하게 말할 수 없습니다.
  5. 사료 유형은 casein, horsebean, linseed, meatmeal, soybean, sunflower로 총 6가지입니다.

따라서, 4번 진술이 주어진 정보만으로는 확실하게 옳다고 할 수 없으므로, 가장 적절하지 않은 해석입니다.

26. 계층적 군집 방법이 아닌 것은?

  1. 단일 연결법 (Single Linkage)
  2. 완전 연결법 (Complete Linkage)
  3. 평균 연결법 (Average Linkage)
  4. 와드 방법 (Ward's Method)
  5. K-평균 군집화 (K-means Clustering)

정답

  1. K-평균 군집화 (K-means Clustering)

해설

계층적 군집 방법(Hierarchical Clustering)은 데이터 포인트들을 계층적으로 그룹화하는 방법입니다. 주요 계층적 군집 방법은 다음과 같습니다:

  1. 단일 연결법 (Single Linkage): 두 군집 간의 가장 가까운 개체들 사이의 거리를 기준으로 군집을 병합합니다.
  2. 완전 연결법 (Complete Linkage): 두 군집 간의 가장 먼 개체들 사이의 거리를 기준으로 군집을 병합합니다.
  3. 평균 연결법 (Average Linkage): 두 군집의 모든 개체 쌍 사이의 평균 거리를 기준으로 군집을 병합합니다.
  4. 와드 방법 (Ward's Method): 군집 내 분산을 최소화하는 방식으로 군집을 병합합니다.

반면, K-평균 군집화(K-means Clustering)는 비계층적 군집 방법입니다:

  1. K-평균 군집화: 사전에 정의된 K개의 중심점(centroid)을 기준으로 데이터 포인트들을 가장 가까운 중심점에 할당하고, 중심점을 재계산하는 과정을 반복하여 군집을 형성합니다.

K-평균 군집화는 계층적 구조를 만들지 않고, 한 번에 모든 군집을 형성한다는 점에서 계층적 군집 방법과 다릅니다. 따라서 계층적 군집 방법이 아닌 것은 K-평균 군집화입니다.

죄송합니다. 제가 실수했습니다. 귀하의 지적대로 민코프스키 거리 공식도 포함하여 문제를 다시 작성하겠습니다.

27. 분해시계열의 요인으로 틀린 것은?

민코프스키 거리
민코프스키 거리

민코프스키 거리(Minkowski distance)의 일반화된 공식:

$d(x,y) = \left(\sum_{j=1}^m |x_j - y_j|^p\right)^{1/p}$

이 공식을 참고하여, 분해시계열의 요인에 대한 다음 보기 중 틀린 것을 고르시오.

  1. 추세 요인 (Trend component)
  2. 계절 요인 (Seasonal component)
  3. 순환 요인 (Cyclical component)
  4. 불규칙 요인 (Irregular component)
  5. 공간 요인 (Spatial component)

정답

  1. 공간 요인 (Spatial component)

해설

분해시계열 분석에서는 시계열 데이터를 여러 구성 요소로 분해합니다. 일반적으로 다음 네 가지 주요 요인을 고려합니다:

  1. 추세 요인: 데이터의 장기적인 증가 또는 감소 패턴
  2. 계절 요인: 연, 월, 주 등 일정한 주기로 반복되는 패턴
  3. 순환 요인: 주기가 1년 이상인 장기적인 변동 (예: 경제 주기)
  4. 불규칙 요인: 랜덤한 변동이나 예측할 수 없는 사건으로 인한 변동

"공간 요인"은 일반적인 시계열 분해에서 고려되는 요인이 아닙니다. 이는 지리적 위치나 공간적 관계를 다루는 공간 분석에서 사용되는 개념으로, 시간에 따른 변화를 분석하는 시계열 분석과는 직접적인 관련이 없습니다.

참고로, 문제에 제시된 민코프스키 거리 공식은 다차원 공간에서의 거리를 계산하는 일반화된 방법을 나타내며, 시계열 분해와는 직접적인 관련이 없습니다. 이 공식은 p 값에 따라 다양한 거리 측정 방법(예: 유클리드 거리, 맨해튼 거리 등)을 표현할 수 있습니다.

네, 세 문제에 대해 차례대로 답변하겠습니다.

28. 다음 수식으로 구할 수 있는 데이터간 거리는?

$d(x,y) = \left(\sum_{j=1}^m |x_j - y_j|^p\right)^{1/p}$

  1. 유클리드 거리
  2. 맨해튼 거리
  3. 체비셰프 거리
  4. 민코프스키 거리
  5. 마할라노비스 거리

정답

  1. 민코프스키 거리

해설

주어진 수식은 민코프스키 거리(Minkowski distance)의 일반화된 공식입니다. 이 공식은 p 값에 따라 다양한 거리 측정 방법을 표현할 수 있습니다:

  • p = 1일 때, 맨해튼 거리
  • p = 2일 때, 유클리드 거리
  • p → ∞일 때, 체비셰프 거리

따라서 이 공식은 여러 거리 측정 방법을 포괄하는 민코프스키 거리를 나타냅니다.

29. 다음 중 Decision Tree와 가장 관련 없는 용어는?

  1. 엔트로피
  2. 가지치기
  3. 정보이득
  4. 과적합
  5. 공분산

정답

  1. 공분산

해설

Decision Tree(의사결정나무)와 관련된 주요 개념들은 다음과 같습니다:

  1. 엔트로피: 노드의 불순도를 측정하는 지표로 사용됩니다.
  2. 가지치기: 과적합을 방지하기 위해 트리의 복잡도를 줄이는 기법입니다.
  3. 정보이득: 분할 전후의 엔트로피 차이로, 최적의 분할 기준을 선택하는 데 사용됩니다.
  4. 과적합: 모델이 훈련 데이터에 너무 맞춰져 일반화 성능이 떨어지는 현상입니다.

반면, 공분산은 두 변수 간의 선형 관계를 측정하는 통계량으로, 주로 상관관계 분석이나 다변량 통계에서 사용됩니다. Decision Tree 알고리즘에서는 직접적으로 사용되지 않습니다.

30. 두 개의 확률변수 X, Y의 공분산에 대한 설명 중 옳지 않는 것은?

  1. 공분산이 양수이면 X와 Y는 양의 선형관계에 있다.
  2. 공분산이 음수이면 X와 Y는 음의 선형관계에 있다.
  3. 공분산이 0이면 X와 Y는 선형관계가 없다.
  4. 공분산의 크기는 두 변수 간 선형관계의 강도를 나타낸다.
  5. 공분산은 X와 Y의 단위에 따라 값이 달라진다.

정답

  1. 공분산의 크기는 두 변수 간 선형관계의 강도를 나타낸다.

해설

공분산에 대한 설명 중 옳지 않은 것은 4번입니다. 공분산의 특성은 다음과 같습니다:

1, 2, 3: 올바른 설명입니다. 공분산의 부호는 두 변수 간 선형관계의 방향을 나타냅니다.

5: 맞는 설명입니다. 공분산은 단위에 따라 값이 달라지는 척도 종속적인 측도입니다.

4: 틀린 설명입니다. 공분산의 크기만으로는 선형관계의 강도를 정확히 나타내기 어렵습니다. 이는 공분산이 변수들의 척도에 영향을 받기 때문입니다. 선형관계의 강도를 나타내기 위해서는 공분산을 표준화한 상관계수(correlation coefficient)를 사용해야 합니다.

따라서, 공분산에 대한 설명 중 옳지 않은 것은 "공분산의 크기는 두 변수 간 선형관계의 강도를 나타낸다"입니다.

주어진 이미지는 F-베타 스코어(F-Beta Score)의 공식을 나타내고 있습니다. 이를 바탕으로 F-베타 스코어에 대한 설명을 분석해보겠습니다.

31. 아래의 F-Beta Score(지표)에 대한 설명으로 옳은 것은?

  1. β 값이 1일 때, F1 스코어와 동일하다.
  2. β 값이 0에 가까울수록 recall에 더 큰 가중치를 준다.
  3. β 값이 커질수록 precision에 더 큰 가중치를 준다.
  4. precision과 recall의 조화평균을 나타낸다.
  5. 항상 0과 1 사이의 값을 가진다.

정답

  1. β 값이 1일 때, F1 스코어와 동일하다.

해설

F-베타 스코어는 분류 모델의 성능을 평가하는 지표로, precision과 recall의 가중 조화평균입니다. 각 선택지에 대한 설명은 다음과 같습니다:

  1. 옳은 설명입니다. β = 1일 때, F-베타 스코어는 F1 스코어와 동일해집니다. F1 스코어는 precision과 recall에 동일한 가중치를 부여합니다.
  2. 틀린 설명입니다. β 값이 0에 가까울수록 precision에 더 큰 가중치를 줍니다.
  3. 틀린 설명입니다. β 값이 커질수록 recall에 더 큰 가중치를 줍니다.
  4. 부분적으로 맞지만, 완전히 정확한 설명은 아닙니다. F-베타 스코어는 precision과 recall의 '가중' 조화평균을 나타냅니다.
  5. 틀린 설명입니다. F-베타 스코어는 0과 1 사이의 값을 가질 수 있지만, 항상 그런 것은 아닙니다. 특히 β > 1인 경우 1보다 큰 값을 가질 수 있습니다.

따라서, 주어진 선택지 중 F-베타 스코어에 대한 가장 정확한 설명은 "β 값이 1일 때, F1 스코어와 동일하다"입니다.

네, 세 문제에 대해 차례대로 답변하겠습니다.

32. 앙상블 기법의 설명으로 알맞은 것은?

  1. 단일 모델의 성능을 극대화하는 기법이다.
  2. 여러 개의 약한 학습기를 결합하여 강한 학습기를 만드는 방법이다.
  3. 항상 딥러닝 모델에만 적용 가능하다.
  4. 모델의 복잡도를 줄여 과적합을 방지한다.
  5. 학습 데이터의 양을 줄이는 데 주로 사용된다.

정답

  1. 여러 개의 약한 학습기를 결합하여 강한 학습기를 만드는 방법이다.

해설

앙상블 기법은 여러 개의 모델을 조합하여 더 나은 예측 결과를 얻는 방법입니다. 주요 특징은:

  • 여러 개의 약한 학습기(weak learner)를 결합하여 강한 학습기(strong learner)를 만듭니다.
  • 단일 모델보다 일반적으로 더 좋은 성능을 보입니다.
  • 과적합을 줄이고 모델의 안정성을 높일 수 있습니다.
  • 다양한 머신러닝 알고리즘에 적용 가능합니다(딥러닝에만 국한되지 않음).

33. 다음 중 통계적 가설검정의 설명으로 옳지 않은 것을 고르시오

  1. 귀무가설은 기각하고자 하는 가설이다.
  2. 제1종 오류는 귀무가설이 참인데 기각하는 오류이다.
  3. 제2종 오류는 귀무가설이 거짓인데 채택하는 오류이다.
  4. p-값이 유의수준보다 작으면 귀무가설을 기각한다.
  5. 유의수준을 낮출수록 제1종 오류와 제2종 오류가 모두 감소한다.

정답

  1. 유의수준을 낮출수록 제1종 오류와 제2종 오류가 모두 감소한다.

해설

1~4번 설명은 모두 옳습니다. 그러나 5번은 틀린 설명입니다.

  • 유의수준을 낮추면 제1종 오류(α)는 감소하지만, 제2종 오류(β)는 증가합니다.
  • 유의수준과 검정력(1-β) 사이에는 trade-off 관계가 있습니다.
  • 따라서 두 오류를 동시에 줄이는 것은 불가능합니다.

34. K-means 군집분석의 설명에 대해 옳은 것은?

  1. 계층적 군집분석 방법이다.
  2. 군집의 개수 K를 사전에 지정할 필요가 없다.
  3. 범주형 변수에 대해 직접 적용이 가능하다.
  4. 이상치에 민감하지 않다.
  5. 초기 중심점 선택에 따라 결과가 달라질 수 있다.

정답

  1. 초기 중심점 선택에 따라 결과가 달라질 수 있다.

해설

K-means 군집분석의 특징:

  1. 비계층적 군집분석 방법입니다.
  2. 군집의 개수 K를 사전에 지정해야 합니다.
  3. 연속형 변수에 대해 적용 가능하며, 범주형 변수는 적절한 전처리가 필요합니다.
  4. 이상치에 민감한 편입니다.
  5. 초기 중심점 선택에 따라 결과가 달라질 수 있습니다. 이는 K-means의 주요 특징 중 하나입니다.

따라서, 주어진 선택지 중 K-means 군집분석에 대한 옳은 설명은 "초기 중심점 선택에 따라 결과가 달라질 수 있다"입니다.

네, 주어진 정보를 바탕으로 문제와 정답, 그리고 해설을 마크다운 형식으로 작성하겠습니다.

35. 아래 오분류표에서 재현율(Recall)은?

오류표
오류표

  1. 0.25
  2. 0.3
  3. 0.4
  4. 0.5
  5. 0.6

정답

  1. 0.3

해설

재현율(Recall)은 실제 양성 중에서 모델이 양성으로 정확히 예측한 비율을 나타냅니다.

재현율의 공식:
Recall = TP / (TP + FN)

여기서,

  • TP (True Positive): 실제 True이고 예측도 True인 경우
  • FN (False Negative): 실제 True이지만 False로 예측된 경우

오분류표에서:

  • TP = 30
  • FN = 70

따라서,
Recall = 30 / (30 + 70) = 30 / 100 = 0.3

즉, 재현율은 0.3 또는 30%입니다.

재현율은 실제 양성 사례 중 얼마나 많이 정확히 식별했는지를 나타내는 지표로, 특히 거짓 음성(False Negative)을 최소화하는 것이 중요한 상황(예: 질병 진단)에서 중요한 평가 지표입니다.

이 문제를 해결하기 위해 확률질량함수의 개념과 기댓값의 정의를 사용하겠습니다.

36. 확률질량함수 f의 확률변수 X의 기댓값은?

확률질량함수
확률질량함수

주어진 확률질량함수:

X 1 2 3
f(x) 1/6 3/6 2/6

해답 과정

1) 기댓값의 정의:
E(X) = Σ (x * f(x)) (모든 x에 대해 합)

2) 각 x값에 대해 x와 f(x)를 곱한 후 더합니다:
E(X) = 1 * (1/6) + 2 * (3/6) + 3 * (2/6)

3) 계산:
E(X) = 1/6 + 6/6 + 6/6
= 1/6 + 1 + 1
= 13/6
≈ 2.1666...

정답

X의 기댓값 E(X) = 13/6 또는 약 2.1667 (소수점 네 자리에서 반올림)

해설

확률변수의 기댓값은 각 가능한 값과 그 값의 확률을 곱한 후 모두 더하여 계산합니다. 이 경우, 우리는 세 가지 가능한 결과(1, 2, 3)와 그에 해당하는 확률(1/6, 3/6, 2/6)을 가지고 있습니다. 각 값과 확률을 곱한 후 더하면 13/6이라는 결과를 얻습니다.

이 기댓값은 장기적으로 이 확률분포에서 무작위로 뽑은 값의 평균이 어떻게 될 것인지를 나타냅니다. 2에 가깝지만 약간 더 큰 값이라는 것을 알 수 있습니다.

네, 주어진 질문들에 대해 하나씩 답변하겠습니다.

37. 군집분석 시 데이터의 단위가 다를 경우 사용하는 기법은?

  1. 표준화 (Standardization)
  2. 정규화 (Normalization)
  3. 로그 변환 (Log transformation)
  4. 제곱근 변환 (Square root transformation)
  5. 역수 변환 (Reciprocal transformation)

정답

  1. 표준화 (Standardization)

해설

군집분석에서 변수들의 단위가 다를 경우, 표준화(Standardization)를 사용하는 것이 일반적입니다. 표준화는 각 변수에서 평균을 빼고 표준편차로 나누는 방법으로, 모든 변수를 평균 0, 표준편차 1의 동일한 스케일로 변환합니다. 이를 통해 단위의 차이로 인한 영향을 제거할 수 있습니다.

38. 통계 용어에 대한 설명으로 틀린 것은?

  1. 평균은 극단값에 민감하다.
  2. 중앙값은 극단값에 영향을 받지 않는다.
  3. 표준편차는 분산의 제곱근이다.
  4. 사분위수 범위는 이상치에 강건하다.
  5. 변동계수는 항상 양수이다.

정답

  1. 변동계수는 항상 양수이다.

해설

1~4번 설명은 모두 맞습니다. 그러나 5번 설명은 틀립니다.

변동계수(CV, Coefficient of Variation)는 표준편차를 평균으로 나눈 값으로, 데이터의 상대적인 분산 정도를 나타냅니다. 변동계수의 공식은 CV = (표준편차 / 평균) * 100% 입니다.

변동계수는 대부분의 경우 양수이지만, 항상 양수인 것은 아닙니다. 평균이 음수인 경우 변동계수도 음수가 될 수 있습니다. 또한, 평균이 0에 가까울 때 변동계수는 매우 큰 값을 가지거나 정의되지 않을 수 있습니다.

39. 시계열 모형에 대한 설명으로 옳은 것은?

  1. ARIMA 모형은 정상성을 가정하지 않는다.
  2. 지수평활법은 과거 데이터에 더 큰 가중치를 준다.
  3. SARIMA 모형은 계절성을 고려하지 않는다.
  4. VAR 모형은 단변량 시계열 분석에만 사용된다.
  5. GARCH 모형은 변동성 군집화를 모델링할 수 있다.

정답

  1. GARCH 모형은 변동성 군집화를 모델링할 수 있다.

해설

  1. 틀림: ARIMA 모형은 차분을 통해 정상성을 가정합니다.
  2. 틀림: 지수평활법은 최근 데이터에 더 큰 가중치를 줍니다.
  3. 틀림: SARIMA 모형은 계절성을 고려합니다.
  4. 틀림: VAR 모형은 다변량 시계열 분석에 사용됩니다.
  5. 맞음: GARCH 모형은 변동성 군집화(volatility clustering)를 모델링할 수 있습니다.

GARCH(Generalized AutoRegressive Conditional Heteroskedasticity) 모형은 금융 시계열에서 자주 관찰되는 변동성 군집화 현상을 모델링하는 데 사용됩니다.

40. 데이터의 정규성을 확인하기 위한 방법이 아닌 것은?

  1. Shapiro-Wilk 검정
  2. Anderson-Darling 검정
  3. Q-Q plot
  4. 첨도와 왜도 확인
  5. Durbin-Watson 검정

정답

  1. Durbin-Watson 검정

해설

1~4번은 모두 데이터의 정규성을 확인하는 방법입니다:

  1. Shapiro-Wilk 검정: 표본이 정규 분포에서 추출되었는지 검정합니다.
  2. Anderson-Darling 검정: 특정 분포(정규 분포 포함)를 따르는지 검정합니다.
  3. Q-Q plot: 표본 분위수와 이론적 분위수를 비교하여 정규성을 시각적으로 확인합니다.
  4. 첨도와 왜도: 분포의 형태를 수치적으로 나타내어 정규성을 판단합니다.

5번 Durbin-Watson 검정은 회귀 분석에서 잔차의 자기상관을 검정하는 방법으로, 데이터의 정규성을 확인하는 방법이 아닙니다.

41. 다음 중 선형회귀모형이 통계적으로 유의미한지 평가하는 통계량은?

  1. t-통계량
  2. F-통계량
  3. 카이제곱 통계량
  4. Z-통계량
  5. Wilcoxon 통계량

정답

  1. F-통계량

해설

선형회귀모형의 전반적인 유의성을 평가할 때 주로 사용되는 것은 F-통계량입니다.

  • F-통계량: 회귀모델 전체의 유의성을 검정합니다. 즉, 모든 독립변수들이 종속변수를 설명하는 데 유의한지를 평가합니다.

다른 통계량들의 용도:

  1. t-통계량: 개별 회귀계수의 유의성을 검정합니다.
  2. 카이제곱 통계량: 범주형 변수 간의 독립성 검정 등에 사용됩니다.
  3. Z-통계량: 대표본에서의 가설검정에 사용됩니다.
  4. Wilcoxon 통계량: 비모수 검정에 사용됩니다.

42. 데이터의 양이 가장 많이 발생하는 유형의 척도는?

  1. 명목척도
  2. 서열척도
  3. 등간척도
  4. 비율척도
  5. 리커트척도

정답

  1. 비율척도

해설

데이터의 양이 가장 많이 발생하는 유형의 척도는 일반적으로 비율척도입니다.

척도의 특성:

  1. 명목척도: 분류만 가능 (예: 성별, 혈액형)
  2. 서열척도: 순서 정보 포함 (예: 학년, 선호도 순위)
  3. 등간척도: 간격의 의미가 있음, 하지만 절대적 0점이 없음 (예: 섭씨온도)
  4. 비율척도: 절대적 0점이 있고, 비율 비교가 가능 (예: 키, 몸무게, 나이)
  5. 리커트척도: 주로 태도나 의견을 측정하는 데 사용되는 서열척도의 일종

비율척도는 가장 높은 수준의 측정 척도로, 자연과학이나 공학 분야에서 많이 사용되며, 다양한 수학적 연산이 가능하여 데이터 분석에 가장 유용합니다. 따라서 실제 데이터 분석에서 가장 많은 양의 데이터가 비율척도 형태로 발생하는 경향이 있습니다.

43. 상관계수에 대한 설명으로 틀린 것은?

  1. 피어슨 상관계수는 -1에서 1 사이의 값을 가진다.
  2. 스피어만 상관계수는 순위 데이터에 사용된다.
  3. 상관계수가 0이면 두 변수 간에 선형관계가 없다.
  4. 상관계수의 절대값이 클수록 강한 선형관계를 나타낸다.
  5. 상관계수는 인과관계를 나타낸다.

정답

  1. 상관계수는 인과관계를 나타낸다.

해설

1~4번 설명은 모두 맞습니다. 그러나 5번 설명은 틀립니다.

상관계수에 대한 올바른 이해:

  1. 피어슨 상관계수는 -1에서 1 사이의 값을 가집니다.
  2. 스피어만 상관계수는 순위 데이터나 비선형 관계에 사용됩니다.
  3. 상관계수가 0이면 두 변수 간에 선형관계가 없음을 의미합니다.
  4. 상관계수의 절대값이 클수록 강한 선형관계를 나타냅니다.

5번 설명이 틀린 이유:

  • 상관계수는 두 변수 간의 선형적 관계의 강도와 방향을 나타내지만, 인과관계를 의미하지는 않습니다.
  • 상관관계가 있다고 해서 반드시 인과관계가 있는 것은 아닙니다. 예를 들어, 아이스크림 판매량과 익사 사고 발생 간에 양의 상관관계가 있을 수 있지만, 이는 더운 날씨라는 제3의 변수 때문일 수 있습니다.
  • 인과관계를 파악하기 위해서는 추가적인 실험이나 분석이 필요합니다.

44. 시계열 데이터의 정상성(Stationary)에 대한 설명으로 옳지 않은 것은?

  1. 평균이 시간에 따라 일정하다.
  2. 분산이 시간에 따라 일정하다.
  3. 공분산이 시간 간격에만 의존한다.
  4. 계절성이 없어야 한다.
  5. 추세가 없어야 한다.

정답

  1. 계절성이 없어야 한다.

해설

시계열 데이터의 정상성(Stationarity)에 대한 설명:

  1. 맞음: 정상 시계열의 평균은 시간에 따라 일정해야 합니다.
  2. 맞음: 정상 시계열의 분산은 시간에 따라 일정해야 합니다.
  3. 맞음: 정상 시계열의 공분산은 시간 간격에만 의존하고, 시점 자체에는 의존하지 않아야 합니다.
  4. 맞음: 정상 시계열은 추세가 없어야 합니다.

4번 설명이 틀린 이유:

  • 계절성이 있는 시계열도 정상성을 가질 수 있습니다. 이를 계절적 정상성(Seasonal Stationarity)이라고 합니다.
  • 계절적 정상성을 가진 시계열은 특정 주기(예: 1년)마다 반복되는 패턴을 보이지만, 그 패턴 자체는 시간에 따라 변하지 않습니다.
  • 따라서 계절성의 유무는 시계열의 정상성을 판단하는 절대적인 기준이 아닙니다.

정상성의 개념은 시계열 분석에서 중요한데, 이는 많은 시계열 모델링 기법들이 데이터의 정상성을 가정하기 때문입니다. 비정상 시계열은 종종 차분(differencing)이나 변환을 통해 정상 시계열로 만들어 분석합니다.

45. 다음 중 회귀분석에서 모형의 설명력을 확인하기 위해 사용되는 결정계수의 특성으로 옳지 않은 것은?

  1. 0에서 1 사이의 값을 가진다.
  2. 1에 가까울수록 모형의 설명력이 높다.
  3. 독립변수가 추가될 때마다 항상 증가한다.
  4. 수정 결정계수는 변수 추가에 따른 페널티를 부여한다.
  5. 결정계수가 0.8 이상이면 모형이 우수하다고 판단할 수 있다.

정답

  1. 결정계수가 0.8 이상이면 모형이 우수하다고 판단할 수 있다.

해설

결정계수(R²)의 특성에 대한 설명:

  1. 맞음: 결정계수는 0에서 1 사이의 값을 가집니다.
  2. 맞음: 1에 가까울수록 모형의 설명력이 높다고 해석합니다.
  3. 맞음: 독립변수가 추가될 때마다 결정계수는 항상 증가

주어진 설명을 바탕으로 문제와 답변을 다음과 같이 구성할 수 있습니다:

47. 아래 설명에 해당하는 용어로 알맞은 것은?

"다중 선형회 모형에서 둘 닉 이상의 개수를 너무 많이 선정하면 연견파 과정에서 앙숙 둘닉호의 가중치가 조정되지 않아, 신경망에 대한 학습이 제대로 되지 않는 현상"

  1. 과적합 (Overfitting)
  2. 과소적합 (Underfitting)
  3. 차원의 저주 (Curse of Dimensionality)
  4. 기울기 소실 (Vanishing Gradient)
  5. 과다 매개변수화 (Over-parameterization)

정답

  1. 차원의 저주 (Curse of Dimensionality)

해설

주어진 설명은 '차원의 저주' (Curse of Dimensionality) 현상을 설명하고 있습니다.

차원의 저주의 주요 특징:

  1. 고차원 데이터에서 발생하는 문제입니다.
  2. 변수(특성)의 수가 많아질수록 데이터 포인트 간의 거리가 멀어지는 현상이 발생합니다.
  3. 이로 인해 모델의 학습과 일반화 성능이 저하될 수 있습니다.
  4. 신경망에서는 가중치 조정이 어려워지고 학습 효율이 떨어질 수 있습니다.

다른 옵션들과의 차이점:

  • 과적합(Overfitting): 모델이 학습 데이터에 너무 맞춰져 일반화 능력이 떨어지는 현상
  • 과소적합(Underfitting): 모델이 데이터의 패턴을 충분히 학습하지 못한 상태
  • 기울기 소실(Vanishing Gradient): 심층 신경망에서 역전파 과정 중 기울기가 점점 작아지는 문제
  • 과다 매개변수화(Over-parameterization): 모델의 파라미터 수가 필요 이상으로 많은 상태

따라서, 주어진 설명에 가장 적합한 용어는 '차원의 저주'입니다.

이 회귀 분석 결과를 바탕으로 문제와 해석을 제시하겠습니다.

48. 아래 보기의 회귀모델에 대한 해석으로 틀린 것을 고르시오.

  1. 시간이 1단위 증가할 때마다 닭의 무게는 평균적으로 7.9879 단위 증가한다.
  2. 회귀모델의 설명력(R-squared)은 약 95.88%이다.
  3. 회귀모델은 통계적으로 유의하다 (p-value < 0.05).
  4. 초기 닭의 무게(절편)는 24.4654이다.
  5. 잔차의 중앙값은 -0.3444이다.

정답

  1. 잔차의 중앙값은 -0.3444이다.

해설

각 항목에 대한 설명:

  1. 맞음: Time 변수의 계수가 7.9879로, 시간이 1단위 증가할 때마다 닭의 무게가 평균 7.9879 단위 증가함을 의미합니다.
  2. 맞음: Multiple R-squared 값이 0.9588로, 모델의 설명력이 약 95.88%임을 나타냅니다.
  3. 맞음: F-statistic의 p-value가 2.974e-08로 0.05보다 훨씬 작아 모델이 통계적으로 유의합니다.
  4. 맞음: Intercept(절편) 값이 24.4654로, 이는 초기 닭의 예측 무게를 나타냅니다.
  5. 틀림: 잔차의 중앙값은 -0.3444가 아니라 Residuals 섹션의 Median 값인 -11.3081입니다.

따라서, 잔차의 중앙값에 대한 해석인 5번이 틀린 설명입니다. 주어진 결과에서 -0.3444는 잔차의 1Q(제1사분위수) 값입니다.

이 회귀 분석 결과는 전반적으로 모델이 데이터를 잘 설명하고 있음을 보여주며, 시간에 따른 닭의 무게 증가를 유의미하게 예측하고 있습니다.

네, 두 문제에 대해 차례대로 답변하겠습니다.

49. 카이제곱 통계량의 예측 표본과 실제 표본의 차이와 검정 통계량에 따른 유의확률의 변화로 옳은 것은?

  1. 예측 표본과 실제 표본의 차이가 클수록 카이제곱 통계량은 작아진다.
  2. 예측 표본과 실제 표본의 차이가 클수록 카이제곱 통계량은 커진다.
  3. 카이제곱 통계량이 클수록 유의확률(p-value)은 증가한다.
  4. 카이제곱 통계량이 클수록 유의확률(p-value)은 감소한다.
  5. 예측 표본과 실제 표본의 차이는 카이제곱 통계량에 영향을 주지 않는다.

정답

  1. 예측 표본과 실제 표본의 차이가 클수록 카이제곱 통계량은 커진다.
  2. 카이제곱 통계량이 클수록 유의확률(p-value)은 감소한다.

해설

카이제곱 검정에 대한 주요 특성:

  1. 카이제곱 통계량 계산:
    χ² = Σ [(관측값 - 기대값)² / 기대값]
  2. 예측 표본(기대값)과 실제 표본(관측값)의 차이가 클수록 카이제곱 통계량은 커집니다. 이는 위 공식에서 분자가 커지기 때문입니다.
  3. 카이제곱 통계량이 클수록, 관측된 데이터가 귀무가설(예측 분포)과 더 많이 다르다는 것을 의미합니다.
  4. 카이제곱 통계량이 클수록 유의확률(p-value)은 감소합니다. 이는 관측된 결과가 귀무가설 하에서 발생할 확률이 낮아짐을 의미합니다.
  5. 유의확률이 작을수록 귀무가설을 기각할 가능성이 높아집니다. 즉, 예측 분포와 실제 분포 사이에 유의미한 차이가 있다고 결론 내릴 가능성이 높아집니다.

따라서, 정답은 2번과 4번입니다. 예측 표본과 실제 표본의 차이가 클수록 카이제곱 통계량은 커지고, 카이제곱 통계량이 클수록 유의확률은 감소합니다.

50. 인공신경망 함수에 대한 설명으로 틀린 것을 고르시오.

  1. 시그모이드 함수는 0에서 1 사이의 값을 출력한다.
  2. ReLU 함수는 음수 입력에 대해 0을 출력한다.
  3. tanh 함수는 -1에서 1 사이의 값을 출력한다.
  4. Softmax 함수는 다중 클래스 분류에 주로 사용된다.
  5. 선형 활성화 함수는 비선형성을 추가하여 복잡한 패턴을 학습할 수 있게 한다.

정답

  1. 선형 활성화 함수는 비선형성을 추가하여 복잡한 패턴을 학습할 수 있게 한다.

해설

각 설명에 대한 분석:

  1. 맞음: 시그모이드 함수는 입력을 0에서 1 사이의 값으로 변환합니다.
  2. 맞음: ReLU(Rectified Linear Unit) 함수는 양수 입력은 그대로 출력하고, 음수 입력에 대해서는 0을 출력합니다.
  3. 맞음: tanh(쌍곡탄젠트) 함수는 입력을 -1에서 1 사이의 값으로 변환합니다.
  4. 맞음: Softmax 함수는 여러 클래스에 대한 확률 분포를 출력하므로 다중 클래스 분류 문제에 주로 사용됩니다.
  5. 틀림: 선형 활성화 함수는 비선형성을 추가하지 않습니다. 오히려 비선형 활성화 함수(예: 시그모이드, ReLU, tanh)가 신경망에 비선형성을 추가하여 복잡한 패턴을 학습할 수 있게 합니다.

선형 활성화 함수를 사용하면 신경망의 여러 층을 하나의 선형 함수로 표현할 수 있어, 깊은 신경망의 이점을 활용할 수 없습니다. 따라서 복잡한 패턴을 학습하기 위해서는 비선형 활성화 함수가 필요합니다.

 

2024.08.10 - [AI,DT] - 데이터분석준전문가(ADsP) 기출문제 복원 및 해설 (완전 버전, 제39회)

 

데이터분석준전문가(ADsP) 기출문제 복원 및 해설 (완전 버전, 제39회)

안녕하세요, ADsP 준비생 여러분! 2023년 마지막 시험이었던 제39회 ADsP 기출문제를 완전히 복원해보았습니다. 주어진 정답을 바탕으로 문제를 재구성하고 상세한 해설을 추가했습니다. 함께 살펴

smart-work.tistory.com

 

반응형