본문 바로가기
AI,DT

데이터분석준전문가(ADsP) 기출 문제 복원 (제 41회)

by 일잘냥 2024. 8. 12.
반응형

데이터분석준전문가(ADsP) 기출 문제 복원 (제 41회)
데이터분석준전문가(ADsP) 기출 문제 복원 (제 41회)

데이터분석준전문가(ADsP) 41회 기출문제

1과목 데이터 이해

01. DIKW 피라미드 계층구조의 맞는 설명은?

  1. Data, Information, Knowledge, Wisdom 순서로 구성된다.
  2. Information, Data, Knowledge, Wisdom 순서로 구성된다.
  3. Knowledge, Information, Data, Wisdom 순서로 구성된다.
  4. Wisdom, Knowledge, Information, Data 순서로 구성된다.
  5. Data, Knowledge, Information, Wisdom 순서로 구성된다.

정답

  1. Data, Information, Knowledge, Wisdom 순서로 구성된다.

해설

DIKW 피라미드는 데이터에서 지혜로 올라가는 지식의 계층을 나타냅니다:

  • Data(데이터): 가공되지 않은 raw한 사실이나 관찰 결과
  • Information(정보): 데이터를 의미 있게 구조화한 것
  • Knowledge(지식): 정보를 이해하고 패턴을 인식한 결과
  • Wisdom(지혜): 지식을 바탕으로 한 통찰력과 판단력

이 순서대로 추상화 수준과 가치가 높아집니다.


02. 아래에서 설명하는 용어는?

"다양한 의미 전달 매체에 의하여 표현된 데이터, 정보, 지식, 지적을 통합 인식 가능한 모든 자료"

  1. 메타데이터
  2. 빅데이터
  3. 데이터베이스
  4. 데이터 마이닝
  5. 클라우드 컴퓨팅

정답

  1. 빅데이터

해설

빅데이터의 주요 특징:

  1. 다양성 (Variety): 다양한 형태의 데이터 포함
  2. 크기 (Volume): 대량의 데이터
  3. 속도 (Velocity): 빠른 생성 및 처리 속도
  4. 정확성 (Veracity): 데이터의 품질과 신뢰성
  5. 가치 (Value): 데이터에서 얻을 수 있는 인사이트와 가치

주어진 설명은 빅데이터의 다양성과 포괄성을 강조하고 있습니다.


03. 다음에서 설명하는 기업 내부의 데이터베이스 솔루션은?

"기업의 의사 결정을 돕기 위해 별도의 데이터베이스에 통합된 정보시스템으로 전체적이 시간과 비용을 최적화 시키기 위한 것으로 구매, 생산, 재고, 유통, 고객 데이터로 구성되어 있다."

  1. ERP (Enterprise Resource Planning)
  2. CRM (Customer Relationship Management)
  3. SCM (Supply Chain Management)
  4. DW (Data Warehouse)
  5. OLAP (Online Analytical Processing)

정답

  1. DW (Data Warehouse)

해설

데이터 웨어하우스(DW)의 주요 특징:

  1. 통합성: 여러 소스의 데이터를 통합
  2. 주제 중심: 특정 비즈니스 주제나 프로세스를 중심으로 데이터 구성
  3. 시계열성: 시간에 따른 데이터 변화를 추적
  4. 비휘발성: 한번 저장된 데이터는 변경되지 않음
  5. 의사결정 지원: 경영 의사결정을 위한 분석 지원

설명에서 언급된 "의사 결정을 돕기 위해", "통합된 정보시스템", "구매, 생산, 재고, 유통, 고객 데이터" 등은 데이터 웨어하우스의 특징을 잘 나타내고 있습니다.


04. 빅데이터가 만들어 낸 변화의 양상이 아닌 것은?

  1. 표본조사에서 전수조사로의 변화
  2. 정확성보다 경향성 중시
  3. 인과관계보다 상관관계 분석 중요성 증가
  4. 사후 분석에서 실시간 예측으로 변화
  5. 데이터 기반 의사결정의 감소

정답

  1. 데이터 기반 의사결정의 감소

해설

빅데이터가 만들어 낸 주요 변화의 양상:

  1. 전수조사의 증가 (표본조사에서 전체 데이터 분석으로)
  2. 정확성보다 경향성 중시
  3. 인과관계보다 상관관계 분석 중요성 증가
  4. 사후 분석에서 실시간 예측으로 변화
  5. 데이터 기반 의사결정의 증가

5번 선택지는 빅데이터의 특성과 반대되는 내용입니다. 빅데이터는 오히려 데이터 기반 의사결정을 증가시키는 경향이 있습니다.


05. 빅데이터의 가장 상징하기 어려운 이유가 아닌 것은?

  1. 데이터의 크기와 복잡성
  2. 빠른 생성 속도와 실시간 처리 필요성
  3. 데이터 형식의 다양성
  4. 데이터의 품질과 신뢰성 문제
  5. 데이터 분석 결과의 명확성

정답

  1. 데이터 분석 결과의 명확성

해설

빅데이터를 상징하기 어려운 주요 이유들:

  1. 데이터의 크기와 복잡성
  2. 빠른 생성 속도와 실시간 처리 필요성
  3. 데이터 형식의 다양성
  4. 데이터의 품질과 신뢰성 문제
  5. 프라이버시와 보안 문제

5번 선택지인 "데이터 분석 결과의 명확성"은 빅데이터의 특성과 관련이 적습니다. 오히려 빅데이터 분석 결과는 종종 복잡하고 해석이 어려울 수 있습니다.


06. 다음 빈칸에 들어갈 단어는?

"데이터 오용의 위해를 막고 중 중요한 적업으로 앞고리즘 정규와 보정, 알고리즘에 불이익을 당한 사람들을 대변해 피해자를 구제할 수 있는 능력을 가진 ____의 역할이 대두됨"

  1. 데이터 과학자
  2. 데이터 엔지니어
  3. 데이터 윤리학자
  4. 데이터 분석가
  5. 데이터 보안 전문가

정답

  1. 데이터 윤리학자

해설

이 문장은 빅데이터 시대에 필요한 새로운 전문가 역할을 설명하고 있습니다. 주요 포인트는:

  1. 데이터 오용 방지
  2. 알고리즘 정규화와 보정
  3. 알고리즘으로 인한 불이익 해결
  4. 피해자 구제

이러한 역할을 수행하는 전문가는 데이터 사용에 관한 윤리적 문제를 다루는 "데이터 윤리학자"를 지칭합니다.


07. 빅데이터 시대의 위기요인과 통제방안의 올바른 조합은?

  1. 사생활 침해 - 동의제에서 책임제로 변화
  2. 데이터 오용 - 알고리즘 절차 허용
  3. 책임원칙 훼손 - 정보선택 옵션 제공
  4. 사생활 침해 - 알고리즘 절차 허용
  5. 데이터 오용 - 동의제에서 책임제로 변화

정답

  1. 사생활 침해 - 동의제에서 책임제로 변화

해설

빅데이터 시대의 주요 위기요인과 그에 대한 통제방안:

  1. 사생활 침해: 동의제에서 책임제로 변화
    • 개인의 동의만으로는 충분한 보호가 어려워, 데이터 사용자의 책임을 강화하는 방향으로 변화
  2. 데이터 오용: 알고리즘의 투명성 확보 및 감사가 필요
  3. 책임원칙 훼손: 명확한 책임 소재 규정이 필요

따라서 가장 적절한 조합은 "사생활 침해 - 동의제에서 책임제로 변화"입니다.


08. 통합력 있는 분석을 하기 위해 데이터 분석가가 갖춰야 할 역량이 아닌 것을 고르시오.

  1. 통계 및 수학적 지식
  2. 프로그래밍 및 데이터 처리 능력
  3. 비즈니스 도메인 지식
  4. 데이터 시각화 능력
  5. 마케팅 전략 수립 능력

정답

  1. 마케팅 전략 수립 능력

해설

데이터 분석가가 갖춰야 할 주요 역량:

  1. 통계 및 수학적 지식
  2. 프로그래밍 및 데이터 처리 능력
  3. 비즈니스 도메인 지식
  4. 데이터 시각화 능력
  5. 문제 해결 능력
  6. 커뮤니케이션 스킬
  7. 데이터 윤리 이해

마케팅 전략 수립 능력은 데이터 분석가의 핵심 역량이라기보다는 마케팅 전문가의 역량에 더 가깝습니다. 데이터 분석가는 마케팅 전략 수립을 위한 인사이트를 제공할 수 있지만, 직접적인 전략 수립은 일반적으로 그들의 주요 역할이 아닙니다.

이 두 문제에 대한 답변을 마크다운 형식으로 제공하겠습니다.


09. 다음 중 데이터 사이언티스트에게 요구되는 소프트 스킬을 고르시오.

가. 이론적 지식
나. 분석기술에 대한 숙련
다. 커뮤니케이션 기술
라. 시각화를 활용한 설득력
마. 창의적 사고

정답

다. 커뮤니케이션 기술

해설

데이터 사이언티스트에게 요구되는 스킬은 크게 하드 스킬과 소프트 스킬로 나눌 수 있습니다:

하드 스킬:

  • 이론적 지식 (통계, 수학, 컴퓨터 과학 등)
  • 분석기술에 대한 숙련 (프로그래밍, 데이터 처리 등)
  • 시각화를 활용한 설득력 (데이터 시각화 도구 사용 능력)

소프트 스킬:

  • 커뮤니케이션 기술
  • 창의적 사고
  • 문제 해결 능력
  • 팀워크
  • 비즈니스 이해력

주어진 보기 중 "커뮤니케이션 기술"이 가장 명확한 소프트 스킬에 해당합니다. 이는 데이터 분석 결과를 non-technical 이해관계자들에게 효과적으로 전달하는 능력을 의미합니다.


2과목 데이터의 분석 기획

10. 다음 중 빅데이터의(미래)가치 패러다임 변화 순서는?

가. Connection
나. Agency
다. Digitalization

정답

다. Digitalization → 가. Connection → 나. Agency

해설

빅데이터의 가치 패러다임 변화는 일반적으로 다음 순서로 진행됩니다:

  1. Digitalization (디지털화):
    • 아날로그 데이터를 디지털 형태로 변환하는 단계
    • 데이터의 저장, 처리, 전송이 용이해짐
  2. Connection (연결):
    • 디지털화된 데이터들이 네트워크를 통해 연결되는 단계
    • 데이터의 공유와 통합이 가능해짐
  3. Agency (주체성):
    • 연결된 데이터가 인공지능 등을 통해 자율적으로 처리되고 의사결정에 활용되는 단계
    • 데이터 기반의 자동화된 의사결정과 행동이 가능해짐

따라서 올바른 순서는 "Digitalization → Connection → Agency" 입니다.

죄송합니다. 말씀하신 대로 예시를 만들어 완벽한 문제로 구성하겠습니다.


11. 데이터 분석기획 유형 중 분석의 대상 및 방식의 설명으로 옳지 않은 것은?

  1. 탐색적 분석: 데이터의 특성과 패턴을 파악하는 분석 방식
  2. 기술적 분석: 현재 상태를 정확히 기술하는 분석 방식
  3. 진단적 분석: 특정 현상의 원인을 파악하는 분석 방식
  4. 예측적 분석: 미래 상황을 예측하는 분석 방식
  5. 처방적 분석: 의사결정자의 직관에만 의존하여 해결책을 제시하는 분석 방식

정답

  1. 처방적 분석: 의사결정자의 직관에만 의존하여 해결책을 제시하는 분석 방식

해설

처방적 분석은 데이터를 기반으로 최적의 해결책이나 행동 방안을 제시하는 분석 방식입니다. 의사결정자의 직관에만 의존하는 것이 아니라, 데이터 분석 결과를 바탕으로 객관적이고 과학적인 해결책을 제시합니다.


12. 분석 기획 단계에서 프로젝트 위험 대응 계획 수립 시 대응방안이 아닌 것을 고르시오.

  1. 위험 회피: 위험 요인을 제거하거나 우회하는 방안
  2. 위험 전가: 위험을 제3자에게 이전하는 방안
  3. 위험 완화: 위험의 발생 가능성이나 영향을 줄이는 방안
  4. 위험 수용: 위험을 받아들이고 대비하는 방안
  5. 위험 무시: 위험을 인지하지만 아무런 조치를 취하지 않는 방안

정답

  1. 위험 무시: 위험을 인지하지만 아무런 조치를 취하지 않는 방안

해설

프로젝트 위험 관리에서 '위험 무시'는 적절한 대응 방안이 아닙니다. 인지된 위험에 대해서는 항상 어떤 형태로든 대응 계획을 수립해야 합니다. 다른 네 가지 방안(회피, 전가, 완화, 수용)은 모두 위험에 대한 적극적인 대응 전략입니다.


13. KDD분석방법론의 프로세스 중 아래 보기가 설명하는 단계는?

"분석 수행될 분석대상 데이터 셋에 포함된 잡음(Noise), 이상값(Outlier), 결측값(Missing Value)를 식별하고 필요 시 제거하거나 의미 있는 데이터로 재처리하는 단계이다."

정답

데이터 전처리(Data Preprocessing) 단계

해설

KDD(Knowledge Discovery in Databases) 분석방법론의 주요 단계는 다음과 같습니다:

  1. 데이터 선택(Selection)
  2. 데이터 전처리(Preprocessing)
  3. 데이터 변환(Transformation)
  4. 데이터 마이닝(Data Mining)
  5. 해석/평가(Interpretation/Evaluation)

문제에서 설명하는 단계는 데이터 전처리 단계로, 원시 데이터를 분석에 적합한 형태로 정제하는 과정입니다.


14. 분석과제 발굴 방법 중 상향식 접근법(Bottom Up Approach)의 설명으로 틀린것을 고르시오.

  1. 데이터를 기반으로 인사이트를 도출하는 방식이다.
  2. 탐색적 데이터 분석(EDA)을 통해 과제를 발굴한다.
  3. 예상치 못한 인사이트를 발견할 가능성이 높다.
  4. 경영진의 의사결정이 빠르게 이루어질 수 있다.
  5. 데이터 사이언티스트의 역량이 중요하다.

정답

  1. 경영진의 의사결정이 빠르게 이루어질 수 있다.

해설

상향식 접근법(Bottom Up Approach)의 특징은 다음과 같습니다:

  • 데이터를 먼저 분석하고 그 결과를 바탕으로 인사이트를 도출합니다.
  • 탐색적 데이터 분석(EDA)을 통해 데이터에서 패턴이나 관계를 발견하고 이를 통해 과제를 발굴합니다.
  • 예상치 못한 인사이트를 발견할 가능성이 높습니다.
  • 데이터 사이언티스트의 분석 역량이 중요한 역할을 합니다.

그러나 "경영진의 의사결정이 빠르게 이루어질 수 있다"는 것은 상향식 접근법의 특징이 아닙니다. 오히려 상향식 접근법은 데이터 분석에 시간이 많이 소요되고, 도출된 인사이트를 경영진에게 설명하고 이해시키는 과정이 필요하므로 의사결정이 상대적으로 느릴 수 있습니다.


15. 다음에서 설명하는 문제탐색 기법은?

"새로운 문제를 탐색하는 단계에서 유사 또는 동종 사례의 벤치마킹을 통해 후보그룹을 추출하고 'Quick&Easy' 방식으로 필요한 분석기회가 무엇인지에 대한 아이디어를 얻어 기업에 적용할 분석 대안 후보목록을 위급속 형태의 브레인 스토밍을 통해 빠르게 도출하는 방법이다."

정답

BEST (Benchmark, Example, Similar, Transfer) 기법

해설

BEST 기법은 다음과 같은 특징을 가집니다:

  • Benchmark: 유사 또는 동종 사례의 벤치마킹
  • Example: 사례 연구를 통한 아이디어 도출
  • Similar: 유사한 상황이나 문제에서의 해결책 탐색
  • Transfer: 다른 분야의 해결책을 현재 문제에 적용

이 방법은 빠르고 효율적으로 문제 해결 아이디어를 도출하는데 사용되며, 'Quick&Easy' 방식으로 분석 기회를 식별하고 적용 가능한 대안을 신속하게 생성하는 특징을 가집니다.

네, 말씀하신 대로 각 문제에 대해 보기를 만들고 정답과 해설을 제공하겠습니다.


16. 아래 보기에서 설명하는 분석 프로젝트 관리영역은?

"프로젝트 목적성에 맞는 일부 소실을 적절하게 유연할 필요가 있으며 특히, PoC형태의 프로젝트는 늘 엄격한 구매가 아닌 클라우드 등의 다양한 방안을 검토할 필요가 있다."

  1. 일정 관리
  2. 비용 관리
  3. 범위 관리
  4. 품질 관리
  5. 위험 관리

정답

  1. 비용 관리

해설

이 설명은 프로젝트의 비용 관리에 대한 내용입니다. PoC(Proof of Concept) 형태의 프로젝트에서는 엄격한 구매 절차보다는 클라우드 등 다양한 비용 효율적인 방안을 고려해야 한다는 점을 강조하고 있습니다. 이는 프로젝트의 목적에 맞게 비용을 유연하게 관리해야 함을 시사합니다.


17. 분석 로드맵 설정 단계인 '데이터 분석 체계 도입 → 데이터 분석 유효성 입증 → 데이터 분석 확산과 고도화'에서 유효성 검증을 위한 추진 내용은?

  1. 데이터 거버넌스 체계 수립
  2. 파일럿 프로젝트 수행
  3. 전사적 데이터 통합
  4. 고급 분석 기법 도입
  5. 분석 플랫폼 구축

정답

  1. 파일럿 프로젝트 수행

해설

데이터 분석의 유효성을 입증하는 단계에서는 일반적으로 파일럿 프로젝트를 수행합니다. 이를 통해:

  • 데이터 분석의 실제 비즈니스 가치를 검증할 수 있습니다.
  • 소규모로 실험하여 리스크를 최소화할 수 있습니다.
  • 향후 전사적 확산을 위한 경험과 인사이트를 얻을 수 있습니다.

18. 다음 중 분석 거버넌스 체계의 구성요소가 아닌 것을 고르시오.

  1. 분석 조직
  2. 분석 프로세스
  3. 데이터 품질 관리
  4. 분석 인프라
  5. 마케팅 전략

정답

  1. 마케팅 전략

해설

분석 거버넌스 체계의 주요 구성요소는 다음과 같습니다:

  1. 분석 조직: 데이터 분석을 수행하는 조직 구조
  2. 분석 프로세스: 데이터 수집부터 분석, 결과 활용까지의 절차
  3. 데이터 품질 관리: 신뢰할 수 있는 데이터 확보를 위한 관리 체계
  4. 분석 인프라: 데이터 저장, 처리, 분석을 위한 기술적 기반

마케팅 전략은 분석 결과를 활용하는 영역일 수 있지만, 분석 거버넌스 체계의 직접적인 구성요소는 아닙니다.


19. 분석조직의 설명으로 알맞지 않은 것은?

  1. 중앙집중형 조직은 전사 차원의 일관된 분석이 가능하다.
  2. 분산형 조직은 현업의 요구사항을 빠르게 반영할 수 있다.
  3. 하이브리드형 조직은 중앙집중형과 분산형의 장점을 결합한다.
  4. CoE(Center of Excellence) 모델은 분석 전문가 풀을 운영한다.
  5. 모든 기업은 동일한 분석 조직 구조를 가져야 한다.

정답

  1. 모든 기업은 동일한 분석 조직 구조를 가져야 한다.

해설

분석 조직 구조는 기업의 특성, 규모, 산업, 데이터 분석 성숙도 등에 따라 다르게 구성될 수 있습니다. 따라서 모든 기업이 동일한 분석 조직 구조를 가져야 한다는 것은 옳지 않습니다. 기업은 자사의 상황과 필요에 맞는 최적의 조직 구조를 선택해야 합니다.


20. 분석 수준 결과로 분석 준비도는 높은데 분석 업무 및 기법 등이 부족한 기업의 유형은?

  1. 분석 선도형
  2. 분석 지향형
  3. 분석 잠재형
  4. 분석 미흡형
  5. 분석 저항형

정답

  1. 분석 잠재형

해설

기업의 분석 수준은 일반적으로 다음과 같이 분류됩니다:

  1. 분석 선도형: 분석 준비도와 분석 업무/기법 모두 높은 수준
  2. 분석 지향형: 분석 업무/기법은 높지만 준비도가 다소 부족
  3. 분석 잠재형: 분석 준비도는 높지만 실제 분석 업무/기법이 부족
  4. 분석 미흡형: 분석 준비도와 분석 업무/기법 모두 낮은 수준

문제에서 설명하는 "분석 준비도는 높은데 분석 업무 및 기법 등이 부족한 기업"은 분석 잠재형에 해당합니다. 이러한 기업은 분석을 위한 기반은 갖추었지만, 실제 분석 역량이나 경험이 부족한 상태입니다.

네, 각 문제에 대해 보기를 만들고 정답과 해설을 제공하겠습니다.


3과목 데이터의 분석

21. 결측값 처리에 사용되는 완전사례분석(Complete Case Analysis)의 설명으로 옳지 않은 것은?

  1. 결측값이 있는 케이스를 모두 제거하는 방법이다.
  2. 데이터의 손실이 발생할 수 있다.
  3. 편향된 결과를 초래할 수 있다.
  4. 결측 메커니즘이 MCAR일 때 적합하다.
  5. 모든 상황에서 가장 효과적인 결측값 처리 방법이다.

정답

  1. 모든 상황에서 가장 효과적인 결측값 처리 방법이다.

해설

완전사례분석(Complete Case Analysis)은 결측값이 있는 케이스를 모두 제거하는 방법입니다. 이 방법은 간단하지만 다음과 같은 특징이 있습니다:

  • 데이터의 손실이 발생할 수 있어 표본 크기가 줄어들 수 있습니다.
  • 결측 메커니즘이 MCAR(Missing Completely At Random)일 때 적합합니다.
  • 편향된 결과를 초래할 수 있습니다, 특히 결측이 무작위가 아닐 경우.

따라서 모든 상황에서 가장 효과적인 방법이라고 할 수 없으며, 상황에 따라 다른 결측값 처리 방법(예: 대체법)을 고려해야 합니다.


22. 결측값에 틀린 설명은?

  1. 결측값은 데이터 분석 시 중요한 문제이다.
  2. 결측값 처리 방법에는 삭제와 대체 방법이 있다.
  3. MCAR은 완전 임의 결측을 의미한다.
  4. 결측값은 항상 무시해도 된다.
  5. 다중대체법은 결측값 처리의 한 방법이다.

정답

  1. 결측값은 항상 무시해도 된다.

해설

결측값(Missing Value)은 데이터 분석에서 중요한 문제입니다:

  • 결측값은 분석 결과에 영향을 줄 수 있으므로 적절히 처리해야 합니다.
  • 결측값 처리 방법에는 삭제(예: 완전사례분석)와 대체 방법(예: 평균 대체, 다중대체법)이 있습니다.
  • MCAR(Missing Completely At Random)은 완전 임의 결측을 의미합니다.
  • 결측값을 항상 무시하면 편향된 결과를 얻을 수 있으므로 주의해야 합니다.

따라서 결측값을 항상 무시해도 된다는 설명은 틀립니다.


23. 위치 척도와 산포 척도에 대해 틀린 설명은?

  1. 평균은 위치 척도의 한 예이다.
  2. 표준편차는 산포 척도의 한 예이다.
  3. 중앙값은 극단값에 영향을 받지 않는다.
  4. 분산은 위치 척도의 한 예이다.
  5. 사분위수 범위는 산포 척도의 한 예이다.

정답

  1. 분산은 위치 척도의 한 예이다.

해설

위치 척도와 산포 척도의 특징:

  • 위치 척도: 데이터의 중심 위치를 나타내는 척도 (예: 평균, 중앙값, 최빈값)
  • 산포 척도: 데이터의 퍼짐 정도를 나타내는 척도 (예: 분산, 표준편차, 범위, 사분위수 범위)

분산은 데이터의 퍼짐 정도를 나타내는 산포 척도입니다. 따라서 분산을 위치 척도의 예라고 한 설명은 틀립니다.


24. 이름, 성별, 지역 등을 표시하는 척도는?

  1. 명목척도
  2. 서열척도
  3. 등간척도
  4. 비율척도
  5. 절대척도

정답

  1. 명목척도

해설

척도의 종류와 특징:

  1. 명목척도: 단순히 분류를 위한 척도 (예: 이름, 성별, 지역)
  2. 서열척도: 순서가 있지만 간격의 의미가 없는 척도 (예: 학년, 선호도 순위)
  3. 등간척도: 순서와 간격이 의미가 있지만 절대적 0점이 없는 척도 (예: 섭씨온도)
  4. 비율척도: 순서, 간격, 비율이 모두 의미가 있는 척도 (예: 키, 몸무게)

이름, 성별, 지역 등은 단순히 분류를 위한 것으로, 명목척도에 해당합니다.


25. 모수 검정과 비모수 검정에 대해 틀린 설명은?

  1. 모수 검정은 정규분포를 가정한다.
  2. 비모수 검정은 분포에 대한 가정이 덜 엄격하다.
  3. t-검정은 모수 검정의 예이다.
  4. Mann-Whitney U 검정은 비모수 검정의 예이다.
  5. 비모수 검정이 항상 모수 검정보다 검정력이 높다.

정답

  1. 비모수 검정이 항상 모수 검정보다 검정력이 높다.

해설

모수 검정과 비모수 검정의 특징:

  • 모수 검정은 모집단의 분포(주로 정규분포)에 대한 가정이 필요합니다.
  • 비모수 검정은 분포에 대한 가정이 덜 엄격합니다.
  • t-검정은 대표적인 모수 검정 방법입니다.
  • Mann-Whitney U 검정은 비모수 검정의 예입니다.
  • 일반적으로 모수 검정이 비모수 검정보다 검정력이 높습니다. 단, 정규성 가정이 크게 위배될 경우 비모수 검정이 더 적절할 수 있습니다.

따라서 비모수 검정이 항상 모수 검정보다 검정력이 높다는 설명은 틀립니다.


26. 대립가설과 귀무가설에 대한 해석으로 옳은 것은?

  1. 귀무가설: 상관계수는 1이다.
    대립가설: 상관계수는 1이 아니다.
  2. 귀무가설: 상관계수는 1이 아니다.
    대립가설: 상관계수는 1이다.
  3. 귀무가설: 상관계수는 0이다.
    대립가설: 상관계수는 0이 아니다.
  4. 귀무가설: 상관계수는 0이 아니다.
    대립가설: 상관계수는 0이다.

정답

  1. 귀무가설: 상관계수는 0이다.
    대립가설: 상관계수는 0이 아니다.

해설

가설 검정에서 귀무가설과 대립가설의 일반적인 설정:

  • 귀무가설(H₀): 일반적으로 "차이가 없다" 또는 "효과가 없다"는 주장
  • 대립가설(H₁): 귀무가설과 반대되는 주장, 연구자가 입증하고자 하는 가설

상관관계 검정의 경우:

  • 귀무가설: 두 변수 간에 상관관계가 없다 (상관계수 = 0)
  • 대립가설: 두 변수 간에 상관관계가 있다 (상관계수 ≠ 0)

따라서 "귀무가설: 상관계수는 0이다. 대립가설: 상관계수는 0이 아니다."가 올바른 해석입니다.

이 문제에 대해 분석하고 답변해 드리겠습니다.


27. sleep 데이터는 취업성 약물을 10명의 실험군에게 투여했을 때 수면 시간의 증가를 기록한 데이터다. summary 함수 결과의 해석으로 틀린것은?

  1. 수면 시간 증가의 최솟값은 -1.600시간이다.
  2. 수면 시간 증가의 중앙값은 0.950시간이다.
  3. 수면 시간 증가의 평균은 1.540시간이다.
  4. 실험에 참여한 총 인원은 10명이다.
  5. 수면 시간이 감소한 사람도 있었다.

정답

  1. 실험에 참여한 총 인원은 10명이다.

해설

summary 함수 결과를 분석해보면:

  1. 최솟값(Min.)이 -1.600으로, 맞습니다.
  2. 중앙값(Median)이 0.950으로, 맞습니다.
  3. 평균(Mean)이 1.540으로, 맞습니다.
  4. 최솟값이 음수(-1.600)이므로, 수면 시간이 감소한 사람도 있었다는 것은 맞습니다.

4번 설명이 틀린 이유:

  • group 열을 보면 1:10부터 6:2까지 있고, (Other):8이 추가로 있습니다.
  • 이는 6개의 그룹에 각각 2명씩, 그리고 기타 그룹에 8명이 있다는 의미입니다.
  • 따라서 총 인원은 6*2 + 8 = 20명입니다.

결론적으로, 실험에 참여한 총 인원은 10명이 아니라 20명입니다. 따라서 4번 설명이 틀립니다.


28. 아래는 다섯 종류의 오렌지 나무(Tree)에 대한 연령(age)과 둘레(circumference)를 측정한 자료이다. 다음 중 자료의 해석으로 가장 거리가 먼것을 고르시오.

1. 가장 어린 나무의 나이는 118년이다.
2. 나무의 평균 나이는 922.1년이다.
3. 나무 둘레의 중앙값은 115.0cm이다.
4. 나무의 최대 둘레는 214.0cm이다.
5. 모든 나무의 나이는 100년 이상이다.

정답: 5. 모든 나무의 나이는 100년 이상이다.

해설:
제공된 데이터를 분석해보면:
1. 가장 어린 나무의 나이(Min.)는 118년으로 맞습니다.
2. 나무의 평균 나이(Mean)는 922.1년으로 맞습니다.
3. 나무 둘레의 중앙값(Median)은 115.0cm로 맞습니다.
4. 나무의 최대 둘레(Max.)는 214.0cm로 맞습니다.
5. head() 함수 결과를 보면 모든 나무의 나이가 100년 이상인 것처럼 보이지만, summary() 함수 결과에서 나이의 최솟값(Min.)이 118.0년임을 확인할 수 있습니다. 따라서 전체 데이터셋에는 100년 미만의 나무도 포함되어 있을 가능성이 있습니다.

따라서 "모든 나무의 나이는 100년 이상이다"라는 진술은 주어진 정보만으로는 확실하게 말할 수 없으므로, 이 해석이 데이터로부터 가장 거리가 멉니다.


29. 선형회귀모형 오차항의 기정조건은?

1. 정규성
2. 등분산성
3. 독립성
4. 선형성
5. 위의 모든 것

정답: 5. 위의 모든 것

해설: 선형회귀모형의 오차항에 대한 기본 가정은 정규성(normality), 등분산성(homoscedasticity), 독립성(independence), 선형성(linearity)을 모두 포함합니다.


30. 범주형 종속변수에는 지니지수를, 연속형 종속변수에는 분산감소량을 사용하는 Decision Tree 알고리즘은?

1. ID3
2. C4.5
3. CART
4. Random Forest
5. Gradient Boosting

정답: 3. CART

해설: CART(Classification and Regression Trees) 알고리즘은 분류와 회귀 모두에 사용될 수 있으며, 분류 시에는 지니 지수를, 회귀 시에는 분산 감소량을 불순도 측정 기준으로 사용합니다.


31. Cook's Distance 대한 틀린 설명은?

1. 회귀분석에서 영향력 있는 관측치를 식별하는 데 사용된다.
2. 값이 클수록 해당 관측치가 회귀 결과에 미치는 영향이 크다.
3. 일반적으로 4/n (n은 표본 크기) 이상이면 영향력이 큰 관측치로 간주한다.
4. 항상 양수 값을 가진다.
5. 모든 관측치에 대해 동일한 값을 가진다.

정답: 5. 모든 관측치에 대해 동일한 값을 가진다.

해설: Cook's Distance는 각 관측치마다 다른 값을 가질 수 있으며, 이를 통해 개별 관측치의 영향력을 평가합니다.


32. 계층적 군집분석에 대해 알맞은 것은?

1. k-means 알고리즘을 사용한다.
2. 군집의 수를 사전에 정해야 한다.
3. 덴드로그램을 통해 결과를 시각화할 수 있다.
4. 대규모 데이터셋에 효율적이다.
5. 항상 전체 데이터를 하나의 군집으로 병합한다.

정답: 3. 덴드로그램을 통해 결과를 시각화할 수 있다.

해설: 계층적 군집분석의 결과는 덴드로그램(tree diagram)을 통해 시각적으로 표현할 수 있으며, 이를 통해 군집 형성 과정과 구조를 쉽게 이해할 수 있습니다.


33. 시계열 분석에 대해 옳지 않은것을 고르시오.

1. ARIMA 모델은 정상성을 가정한다.
2. 계절성 요인은 주기적인 패턴을 나타낸다.
3. 이동평균법은 노이즈를 줄이는 데 사용된다.
4. 추세 요인은 장기적인 패턴을 나타낸다.
5. 모든 시계열 데이터는 반드시 선형적이어야 한다.

정답: 5. 모든 시계열 데이터는 반드시 선형적이어야 한다.

해설: 시계열 데이터는 선형적일 수도 있고 비선형적일 수도 있습니다. 실제로 많은 경제, 금융 시계열은 비선형적 특성을 보이며, 이를 분석하기 위한 다양한 비선형 모델들이 존재합니다.


34. 다음은 Carseats 데이터의 summary함수와 상자그림의 결과이다. 변수 중에 이상값이 존재하는 것을 고르시오.

 




1. Sales
2. CompPrice
3. Income
4. Advertising
5. Population

정답: 4. Advertising

해설: 
상자그림(boxplot)을 분석해보면, Advertising 변수에서 상자(box) 위쪽으로 여러 개의 점이 떨어져 있는 것을 볼 수 있습니다. 이 점들은 상자 위쪽 경계(상위 사분위수)에서 멀리 떨어져 있어 이상값(outlier)으로 간주됩니다.

다른 변수들과 비교했을 때:
- Sales, CompPrice, Income: 상자 위아래로 약간의 점들이 있지만, Advertising만큼 극단적이지 않습니다.
- Population: 상자그림에서 이상값이 보이지 않습니다.

따라서 주어진 옵션 중에서 가장 명확하게 이상값이 존재하는 변수는 Advertising입니다.


35. 다차원 척도법에 대해 알맞지 않은 것은?

1. 개체 간의 유사성이나 비유사성을 시각화하는 기법이다.
2. 고차원의 데이터를 저차원 공간에 표현할 수 있다.
3. 스트레스(stress) 값으로 모형의 적합도를 평가한다.
4. 항상 정확한 거리를 유지하며 차원을 축소한다.
5. 계량적 MDS와 비계량적 MDS로 나눌 수 있다.

정답: 4. 항상 정확한 거리를 유지하며 차원을 축소한다.

해설: 다차원 척도법은 고차원 데이터를 저차원으로 축소할 때 개체 간의 상대적 거리 관계를 최대한 보존하려고 하지만, 완벽하게 정확한 거리를 유지하는 것은 불가능합니다. 차원 축소 과정에서 일부 정보 손실은 불가피합니다.


36. Decision Tree의 분리기준에 대해 옳지 않은 것을 고르시오.

1. 지니 지수(Gini Index)는 불순도를 측정하는 지표이다.
2. 엔트로피(Entropy)는 정보의 혼잡도를 나타낸다.
3. 카이제곱 통계량(Chi-square statistic)은 범주형 변수에 사용된다.
4. 분산 감소량은 회귀 트리에서 사용된다.
5. 정보이득(Information Gain)이 클수록 항상 더 좋은 분리이다.

정답: 5. 정보이득(Information Gain)이 클수록 항상 더 좋은 분리이다.

해설: 정보이득이 크다고 해서 항상 더 좋은 분리라고 할 수 없습니다. 정보이득만을 기준으로 하면 과적합(overfitting)의 위험이 있습니다. 특히 범주가 많은 변수의 경우 정보이득이 크게 나타날 수 있지만, 이것이 반드시 좋은 분리를 의미하지는 않습니다.


37. 다음 중 Decision Tree의 학습 방법에 대해 틀린 것을 고르시오.

1. 가지치기(pruning)는 과적합을 방지하는 기법이다.
2. 재귀적 분할(recursive partitioning)을 통해 트리를 생성한다.
3. 불순도가 낮아지는 방향으로 노드를 분할한다.
4. 모든 리프 노드의 샘플이 같은 클래스가 될 때까지 분할한다.
5. 최대 깊이(max depth)는 트리의 복잡도를 제한하는 파라미터이다.

정답: 4. 모든 리프 노드의 샘플이 같은 클래스가 될 때까지 분할한다.

해설: 모든 리프 노드의 샘플이 같은 클래스가 될 때까지 분할하는 것은 과적합을 초래할 수 있습니다. 실제로는 stopping criteria(중지 기준)를 설정하여 적절한 시점에 분할을 멈추거나, 사후 가지치기를 통해 과적합을 방지합니다.


38. 다중공선성(Multicollinearity)의 설명으로 옳은 것은?

1. 독립변수들 간에 강한 상관관계가 없는 상태를 말한다.
2. 회귀분석에서 항상 바람직한 특성이다.
3. 분산 팽창 인자(VIF)로 진단할 수 있다.
4. 표본 크기를 늘리면 해결할 수 있다.
5. 종속변수와 독립변수 간의 관계를 나타낸다.

정답: 3. 분산 팽창 인자(VIF)로 진단할 수 있다.

해설: 다중공선성은 독립변수들 간에 강한 상관관계가 있는 상태를 말합니다. 이는 회귀분석에서 문제를 일으킬 수 있으며, 바람직하지 않습니다. 분산 팽창 인자(VIF)는 다중공선성을 진단하는 도구로 사용됩니다. 표본 크기를 늘리는 것은 다중공선성 문제를 직접적으로 해결하지 않으며, 다중공선성은 독립변수들 간의 관계를 나타내는 것이지 종속변수와의 관계를 나타내는 것이 아닙니다.


39 다음의 회귀분석 결과의 해석으로 옳지 않은 것은?

summary(lm(formula = Balance ~ Income + Student, data = cred))

Residuals:
    Min      1Q  Median      3Q     Max 
-762.37 -331.38  -45.04   323.60 818.28 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   211.143    3330.4572   0.063   0.949    
Income         5.984       0.5577   10.751 <2e-16 ***
StudentYes   -382.670     65.3108 -5.859 9.78e-09 ***

Signif.codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 391.8 on 397 degrees of freedom
Multiple R-squared: 0.2775, Adjusted R-squared: 0.2738
F-statistic: 76.22 on 2 and 397 DF, p-value: < 2.2e-16
  1. Income 변수의 t-value는 10.751이다.
  2. StudentYes 변수의 p-value는 9.78e-09이다.
  3. 결정계수 (Multiple R-squared)는 0.2738이다.
  4. 잔차의 표준 오차는 391.8이다.

정답

  1. 결정계수 (Multiple R-squared)는 0.2738이다.

해설

  • 보기 1: Income 변수의 t-value는 10.751로 맞습니다.
  • 보기 2: StudentYes 변수의 p-value는 9.78e-09로 맞습니다.
  • 보기 3: 결정계수 (Multiple R-squared)는 0.2775로, 보기의 0.2738은 Adjusted R-squared 값입니다. 따라서 이 보기가 옳지 않습니다.
  • 보기 4: 잔차의 표준 오차는 391.8로 맞습니다.

40. 상관계수에 대해 틀린 설명은?

보기

  1. 상관계수는 -1에서 1 사이의 값을 가진다.
  2. 상관계수가 0이면 두 변수 간에 선형 관계가 없다.
  3. 상관계수가 1이면 두 변수는 완전히 독립적이다.
  4. 상관계수는 두 변수 간의 선형 관계의 강도를 나타낸다.

정답

  1. 상관계수가 1이면 두 변수는 완전히 독립적이다.

해설

  • 보기 1: 상관계수는 -1에서 1 사이의 값을 가지며, 이는 맞는 설명입니다.
  • 보기 2: 상관계수가 0이면 두 변수 간에 선형 관계가 없다는 의미로, 맞는 설명입니다.
  • 보기 3: 상관계수가 1이면 두 변수는 완전히 독립적이라는 설명은 틀립니다. 상관계수가 1이면 두 변수는 완전히 선형적으로 종속적입니다.
  • 보기 4: 상관계수는 두 변수 간의 선형 관계의 강도를 나타내며, 맞는 설명입니다.

41. 다층 신경망에서 노드의 개수가 적을 경우의 특징으로 적합하지 않은 것은?

보기

  1. 모델의 복잡도가 낮아진다.
  2. 학습 시간이 짧아진다.
  3. 과적합(overfitting)의 위험이 줄어든다.
  4. 모델의 예측 정확도가 항상 높아진다.

정답

  1. 모델의 예측 정확도가 항상 높아진다.

해설

  • 보기 1: 노드의 개수가 적을 경우 모델의 복잡도가 낮아지며, 이는 맞는 설명입니다.
  • 보기 2: 노드의 개수가 적을 경우 학습 시간이 짧아지며, 이는 맞는 설명입니다.
  • 보기 3: 노드의 개수가 적을 경우 과적합의 위험이 줄어들며, 이는 맞는 설명입니다.
  • 보기 4: 노드의 개수가 적을 경우 모델의 예측 정확도가 항상 높아진다는 설명은 틀립니다. 노드의 개수가 너무 적으면 모델이 충분히 학습하지 못해 예측 정확도가 낮아질 수 있습니다.

42. 다음의 오분류표에서 재현율(Recall)의 알맞은 식은?

Confusion Matrix

           예측치
           True    False
실제값 True   TP      FN
       False  FP      TN

보기

  1. TP/(TP+FN)
  2. TP/(TP+FP)
  3. TP/FP
  4. TN/FN

정답

  1. TP/(TP+FN)

해설

  • 보기 1: 재현율(Recall)은 실제 양성 중에서 모델이 양성으로 예측한 비율을 나타냅니다. 따라서 TP/(TP+FN)가 맞는 식입니다.
  • 보기 2: TP/(TP+FP)는 정밀도(Precision)를 나타내는 식입니다.
  • 보기 3: TP/FP는 잘못된 식입니다.
  • 보기 4: TN/FN도 잘못된 식입니다.

43. 단계별 변수 선택 방법에 대해 틀린 것을 고르시오.

보기

  1. 전진 선택법은 변수를 하나씩 추가하는 방법이다.
  2. 후진 제거법은 변수를 하나씩 제거하는 방법이다.
  3. 단계적 선택법은 전진 선택법과 후진 제거법을 결합한 방법이다.
  4. 단계적 선택법은 항상 최적의 모델을 보장한다.

정답

  1. 단계적 선택법은 항상 최적의 모델을 보장한다.

해설

  • 보기 1: 전진 선택법은 변수를 하나씩 추가하는 방법으로 맞습니다.
  • 보기 2: 후진 제거법은 변수를 하나씩 제거하는 방법으로 맞습니다.
  • 보기 3: 단계적 선택법은 전진 선택법과 후진 제거법을 결합한 방법으로 맞습니다.
  • 보기 4: 단계적 선택법은 항상 최적의 모델을 보장하지 않습니다. 이는 틀린 설명입니다.

44. 다음 중 앙상블 모형의 배깅에 대한 설명으로 틀린 것을 고르시오.

보기

  1. 배깅은 여러 개의 모델을 결합하여 예측 성능을 향상시킨다.
  2. 배깅은 각 모델이 동일한 데이터 샘플을 사용하여 학습한다.
  3. 배깅은 부트스트랩 샘플링을 사용하여 여러 데이터 샘플을 생성한다.
  4. 배깅은 모델의 분산을 줄이는 데 효과적이다.

정답

  1. 배깅은 각 모델이 동일한 데이터 샘플을 사용하여 학습한다.

해설

  • 보기 1: 배깅은 여러 개의 모델을 결합하여 예측 성능을 향상시키는 방법으로 맞습니다.
  • 보기 2: 배깅은 각 모델이 부트스트랩 샘플링을 사용하여 생성된 서로 다른 데이터 샘플을 사용하여 학습합니다. 따라서 이 설명은 틀립니다.
  • 보기 3: 배깅은 부트스트랩 샘플링을 사용하여 여러 데이터 샘플을 생성하는 방법으로 맞습니다.
  • 보기 4: 배깅은 모델의 분산을 줄이는 데 효과적입니다. 이는 맞는 설명입니다.

45. 로지스틱 회귀분석에 대한 설명으로 옳지 않은 것은?

보기

  1. 로지스틱 회귀분석은 이진 분류 문제에 사용된다.
  2. 로지스틱 회귀분석의 결과는 확률 값으로 나타난다.
  3. 로지스틱 회귀분석은 선형 회귀분석과 동일한 방법으로 수행된다.
  4. 로지스틱 회귀분석은 로그 오즈를 사용하여 예측한다.

정답

  1. 로지스틱 회귀분석은 선형 회귀분석과 동일한 방법으로 수행된다.

해설

  • 보기 1: 로지스틱 회귀분석은 이진 분류 문제에 사용되며, 이는 맞는 설명입니다.
  • 보기 2: 로지스틱 회귀분석의 결과는 확률 값으로 나타나며, 이는 맞는 설명입니다.
  • 보기 3: 로지스틱 회귀분석은 선형 회귀분석과 동일한 방법으로 수행되지 않습니다. 이는 틀린 설명입니다.
  • 보기 4: 로지스틱 회귀분석은 로그 오즈를 사용하여 예측하며, 이는 맞는 설명입니다.

46. 시계열 분석의 설명 중 알맞지 않은 것을 고르시오.

보기

  1. 시계열 데이터는 시간의 흐름에 따라 수집된 데이터이다.
  2. 시계열 분석은 데이터의 추세와 계절성을 분석한다.
  3. 시계열 분석은 데이터의 독립성을 가정한다.
  4. 시계열 분석은 예측 모델을 구축하는 데 사용된다.

정답

  1. 시계열 분석은 데이터의 독립성을 가정한다.

해설

  • 보기 1: 시계열 데이터는 시간의 흐름에 따라 수집된 데이터로 맞습니다.
  • 보기 2: 시계열 분석은 데이터의 추세와 계절성을 분석하는 방법으로 맞습니다.
  • 보기 3: 시계열 분석은 데이터의 독립성을 가정하지 않습니다. 이는 틀린 설명입니다.
  • 보기 4: 시계열 분석은 예측 모델을 구축하는 데 사용됩니다. 이는 맞는 설명입니다.

47. 군집분석에 대해 옳지 않은 것을 고르시오.

보기

  1. 군집분석은 데이터를 유사한 그룹으로 나누는 방법이다.
  2. 군집분석은 각 데이터 포인트가 하나의 군집에만 속하도록 한다.
  3. 군집분석은 지도 학습 방법이다.
  4. 군집분석은 데이터의 패턴을 발견하는 데 사용된다.

정답

  1. 군집분석은 지도 학습 방법이다.

해설

  • 보기 1: 군집분석은 데이터를 유사한 그룹으로 나누는 방법으로 맞습니다.
  • 보기 2: 군집분석은 각 데이터 포인트가 하나의 군집에만 속하도록 하는 방법으로 맞습니다.
  • 보기 3: 군집분석은 비지도 학습 방법입니다. 따라서 이 설명은 틀립니다.
  • 보기 4: 군집분석은 데이터의 패턴을 발견하는 데 사용됩니다. 이는 맞는 설명입니다.

48. 공간 내 두 점 사이의 거리를 측정하는 방법에 대한 설명으로 옳지 않은 것은?

보기

  1. 유클리드 거리는 두 점 사이의 직선 거리를 측정한다.
  2. 맨해튼 거리는 두 점 사이의 직선 거리를 측정한다.
  3. 코사인 유사도는 두 벡터 간의 각도를 측정한다.
  4. 해밍 거리는 두 이진 벡터 간의 차이를 측정한다.

정답

  1. 맨해튼 거리는 두 점 사이의 직선 거리를 측정한다.

해설

  • 보기 1: 유클리드 거리는 두 점 사이의 직선 거리를 측정하는 방법으로 맞습니다.
  • 보기 2: 맨해튼 거리는 두 점 사이의 직선 거리를 측정하지 않습니다. 맨해튼 거리는 두 점 사이의 축을 따라 이동하는 거리를 측정합니다. 따라서 이 설명은 틀립니다.
  • 보기 3: 코사인 유사도는 두 벡터 간의 각도를 측정하는 방법으로 맞습니다.
  • 보기 4: 해밍 거리는 두 이진 벡터 간의 차이를 측정하는 방법으로 맞습니다.

49. 아래 거래 데이터에서 연관규칙으로 맥주 → 기저귀의 지지도와 신뢰도를 구했을 때 옳은 것은?

장바구니 품목
1. 맥주, 기저귀, 빵
2. 기저귀, 우유
3. 빵, 맥주
4. 맥주, 기저귀, 우유
5. 빵, 바나나
6. 맥주, 기저귀
7. 맥주, 기저귀
8. 빵, 우유
9. 기저귀
10. 빵, 우유

보기

  1. 지지도: 0.4, 신뢰도: 0.8
  2. 지지도: 0.5, 신뢰도: 0.8
  3. 지지도: 0.6, 신뢰도: 0.7
  4. 지지도: 0.7, 신뢰도: 0.9

정답

  1. 지지도: 0.5, 신뢰도: 0.8

해설

  • 지지도(Support): 전체 거래 중에서 맥주와 기저귀가 함께 포함된 거래의 비율입니다. 총 10개의 거래 중 5개의 거래(1, 4, 6, 7, 9)에서 맥주와 기저귀가 함께 포함되어 있으므로 지지도는 5/10 = 0.5입니다.
  • 신뢰도(Confidence): 맥주를 구매한 거래 중에서 기저귀도 함께 구매한 거래의 비율입니다. 맥주를 구매한 거래는 총 6개(1, 3, 4, 6, 7, 9)이며, 이 중 5개 거래(1, 4, 6, 7, 9)에서 기저귀도 함께 구매했으므로 신뢰도는 5/6 ≈ 0.83입니다. 따라서 보기 중 가장 가까운 값인 0.8을 선택합니다.

50. 연관분석에 대해 옳지 않은 설명은?

보기

  1. 연관분석은 데이터 내 항목 간의 관계를 찾는 방법이다.
  2. 연관분석은 주로 장바구니 분석에 사용된다.
  3. 연관분석의 결과는 지지도와 신뢰도로 나타난다.
  4. 연관분석은 항상 모든 항목 간의 관계를 정확히 예측한다.

정답

  1. 연관분석은 항상 모든 항목 간의 관계를 정확히 예측한다.

해설

  • 보기 1: 연관분석은 데이터 내 항목 간의 관계를 찾는 방법으로 맞습니다.
  • 보기 2: 연관분석은 주로 장바구니 분석에 사용되며, 이는 맞는 설명입니다.
  • 보기 3: 연관분석의 결과는 지지도와 신뢰도로 나타나며, 이는 맞는 설명입니다.
  • 보기 4: 연관분석은 항상 모든 항목 간의 관계를 정확히 예측하지 않습니다. 이는 틀린 설명입니다. 연관분석은 데이터의 패턴을 기반으로 관계를 예측하지만, 항상 정확하지는 않을 수 있습니다.

2024.08.10 - [AI,DT] - 데이터분석준전문가(ADsP) 기출문제 복원 및 해설 (완전 버전, 제39회)

 

데이터분석준전문가(ADsP) 기출문제 복원 및 해설 (완전 버전, 제39회)

안녕하세요, ADsP 준비생 여러분! 2023년 마지막 시험이었던 제39회 ADsP 기출문제를 완전히 복원해보았습니다. 주어진 정답을 바탕으로 문제를 재구성하고 상세한 해설을 추가했습니다. 함께 살펴

smart-work.tistory.com

2024.08.10 - [AI,DT] - 데이터 분석 준 전문가(ADsP) 기출 문제 복원(ADsP 40회)

 

데이터 분석 준 전문가(ADsP) 기출 문제 복원(ADsP 40회)

데이터 분석 준 전문가(ADsP) 40회 기출 문제ADsP 40회 기출문제 기반으로 재 가공한 문제와 해설 입니다. 데이터 분석 준 전문가(ADsP) 40회 1과목 데이터의 이해01. 다음 중 기업의 전략 도출을 위한

smart-work.tistory.com

 

반응형