ADsp 문제모음(문제)

과목 1

빅데이터 분석에서 데이터의 종류는 정성적 데이터와 정량적 데이터로 구분할 수가 있다. 다음 중에서 정성적 데이터는 무엇인가?

1. 남자연예인 평균키

2. 국내 GDP 성장률

3. 자동차 연비

4. 사람들의 평판

데이터 특성에 대한 설명으로 추론과 예측, 전망에 관련된 것은?

1. 정성적 데이터

2. 정량적 데이터

3. 존재적 데이터

4. 당위적 데이터

다음 중 노나카의 지식창조 매커니즘과 관련이 없는 것은?

1. 공동화

2. 최종화

3. 표출화

4. 내면화

지식 피라미드의 순서로 올바른 것은?

다음 설명과 관련 있는 것은?

상대적으로 저렴한 A회사에서 물건을 사야겠다.

다음 데이터 웨어하우스의 특징 중 Read only 속성은?

데이터 웨어하우스의 구성요소 중 다수의 OLTP 시스템에서 추출한 데이터를 통합적으로 관리하는 데이터 베이스는?

기업의 정보 시스템 중 여러개의 이질적인 어플리케이션 사이에서 미들웨어 역할을 하는 시스템으로 데이터 매핑 등을 수행하는 것은?

빅데이터 분석기획의 3가지 역량이 아닌 것은?

1. 수학과 통계

2. 정보기술

3. 사회 네트워크

4. 도메인 지식

다음은 빅데이터 분석 주제 유형에 대한 설명이다. 올바른 것은?

분석대상은 알고 있지만 분석방법을 알지 못한다.

대용량의 데이터를 활용하여 분석할 경우 고성능의 시스템과 스토리지가 필요하다. 다음의 내용 중에서 빅데이터 분석을 할 경우 경제성을 확보해 준 것은 무엇인가?

빅데이터 분석의 특징은?

답: 빅데이터 분석은 기업의 비지니스를 이해하고 문제를 탐색하여 문제를 해결할 수 있는 데이터를 찾아야한다. 그리고 데이터 간의 특성을 분석하여 통찰력을 가질 수 있어야 한다. 복잡한 데이터와 품질이 확보되지 않은 데이터 등은 데이터의 양이 많아도 기업가치를 얻을 수 없다.

데이터 사이언티스트가 빅데이터 분석모델을 개발할 때 수행해야 할 작업으로 적절하지 않은 것은?

답: 분석모델을 구축할 때 외적 요인을 최대한 고려해 많은 양의 과거 데이터를 사용해야 한다(x)

너무 많은 외적 요인과 과거 데이터는 오히려 예측력과 설명력의 오류를 발생시킬 수가 있다. 특히 과거 데이터로만 미래가 결정되는 것은 아니기 때문이다.

다음 중 1024 Giga byte와 같은 것은?

답: 1 Tera byte

1024 Mega byte = 1 Giga byte // 1024 Giga byte = 1 Tera byte

데이터 사이언티스트의 스킬은 소프트 스킬과 하드 스킬로 구분된다. 다음 중에서 소프트 스킬에 해당되지 않는 것은?

1. 창의적인 사고

2. 머신러닝 능력

3. 스토리 텔링

4. Visulalization

구글 번역 서비스는 전 세계에서 수집된 수억개의 도서 및 공문서를 활용하여 번역 서비스를 제공하고 있다. 빅데이터의 5V 특성에서 이와 가장 관련된 것은?

다음 중에서 정량적 데이터가 아닌 것은?

1. 이마트의 월별 매출

2. 매년 국가 GDP

3. 학생의 키

4. 업종

다음 중에서 비정형 데이터에 해당되지 않는 것은?

1. 웹포털 사이트에 검색을 하기 위해서 입력한 키워드

2. 스마트 폰으로 촬영한 사진

3. 페이스북에 입력한 글

4. 시스템 접속 로그

다음 중 가치 패러다임의 3단계 변화로 올바른 것은?

다음 예시 중에서 정보에 해당되지 않는 것은?

1. 쇼핑몰에서 오늘 하루 발생한 주문수량

2. 쇼핑몰에서 하루 동안 발생하는 평균 주문금액

3. 쇼핑몰의 우수고객 리스트

4. 쇼핑몰에서 가장 판매가 잘되는 상품

기업 내부의 정보시스템 중에서 재고율 관리와 관계가 있는 것은?

기업 내부에 있는 정보 시스템으로 OLTP 시스템에서 데이터를 추출, 정제, 적재하여 만든 통합 데이터 베이스는 무엇인가?

( )은 통계학, 수학, 컴퓨터 공학 등의 학문적 지식과 함께 데이터 시각화까지 포함하는 종합적인 학문이다. 즉, 과거의 통계학과 다르게 총체적인 접근방법을 사용한다

( )은 사용자와 대화식으로 다차원 분석을 수행할 수 있는 도구로 동일한 데이터를 여러 차원으로 변경해가면서 분석한다.

( )은 기업의 데이터를 수집, 정리, 분석하여 효율적인 의사결정을 지원하는 도구로 리포트(report) 기능 중심이다.

다음의 내용이 가리키는 것은?

데이터 베이스 구조를 추상적으로 표현한 것으로 3계층으로 이루어지며 내부, 개념, 외부로 나누어진다.

다음 설명이 가리키는 것은?

자연세계의 진화과정에 기초한 계산모델로 최적화 문제를 해결하기 위한 방법 중 하나이다. 실제 진화 과정에서 많이 사용되어서 변이, 교배 연산 등이 존재한다. 인구, 세대 등의 문제풀이 과정에서 많이 사용된다.

28 다음 중 데이터 베이스의 특징에 관한 설명으로 올바르지 않은 것은?

1. 통합된 데이터이다.

2. 주소에 의한 참조를 한다.

3. 데이터에 대한 일관성이 유지된다.

4. 다수의 사용자가 공동으로 이용한다.

29 다음의 내용으로 올바른 것은?

식별지를 제거하여 식별방지 및 프라이버시 모델을 기반한 추론을 방지하는 기술이다. 빅데이터의 경우 식별자 제거, 추론 방지 등을 수행해야 한다.

과목 2

기업에서 분석체계를 수립하여 비지니스의 활용도를 높이고자 한다. 다음 중에서 분석체계를 수립하는 방법으로 그 내용이 올바르지 않은 것은?

1. 분석체계 수립을 위해서 실질적으로 기업에서 수집할 수 있는 데이터가 무엇이고 해당 데이터의 품질 등을 검사해서 분석체계를 수립해야 한다.

2. 분석체계를 수립한 후에 실제 만들어진 분석 모델을 평가하고 지속적으로 개선해야 한다.

3. 분석체계 수립 시에 만들어진 모델은 학습 데이터와 훈련 데이터 등으로 분류하여 모델을 평가해야 한다.

4. 분석체계 수립 시에 경험이 부족한 업무에 대해서 분석체계를 수립할 때는 요구사항, 분석, 설계, 구현, 테스트 순서대로 진행하는 것이 효율적이다.

빈칸에 들어갈 내용으로 알맞은 것은?

기업의 업무 최적화를 위해서 줄여야 할 3가지 지연 요소는 데이터 지연시간, 분석 지연시간, ( )지연 시간이다.

다음 중 데이터 분석구현을 위해서 적용 우선 순위를 평가하는 경우 고려사항이 아닌 것은?

1. 실행 용이성

2. 분석 ROI

3. 기업의 전략적 중요도

4. 분석 기업의 종류

비지니스 분석모델의 접근방법 중 하향식 접근(Top down)으로 올바른 것은?

분석 요건 정의> 분석 요건 식별> 프로세스 흐름 분석> 프로세스 분류

* 상향식 접근(Bottom up)방법

프로세스 분류> 프로세스 흐름분석> 분석요건 식별> 분석 요건 정의

데이터 분석 수준 진단 결과에서 분석기법은 부족하지만 준비도가 높은 단계는?

1. 도입형

2. 확산형

3. 준비형

4. 정착형

분석체계 수립 시에 그 내용으로 올바르지 않은 것은?

1. 기업에서 분석기법을 사용해서 분석 모델을 개발한 후에 실제 비지니스에 적용할 수 있도록 독려하고 실제 비지니스와 분석모델 간의 차이를 지속적으로 개선해야 한다.

2. 기업의 비지니스 변화가 빠르게 변화하고 있기 때문에 분석모델을 비지니스에 민첩하게 적용할 수 있는 것이 바람직하다.

3. 분석체계 수립 시에 기업의 OLTP에 있는 구조적 데이터와 데이터 웨어하우스에 있는 비구조적 데이터 모두를 포함해서 분석해야 한다.

4. 분석체계 수립 시에 너무나 많은 과거 데이터를 활용하면 실제 비지니스 프로세스와 차이가 발생할 수 있다.

과목 3

빅데이터 분석에서 데이터의 종류는 정성적 데이터와 정량적 데이터로 구분할 수가 있다. 다음 중에서 정성적 데이터는 무엇인가?

1. 남자 연예인 평균 키

2. 국내 GDP 성장률

3. 자동차 연비

4. 사람들의 평판

R언어를 이용한 데이터 분석에서 텍스트 마이닝에 대한 패키지는?

1. Tree

2. ggplot

3. lattice

4. tm

R언어를 사용해서 13%%4 연산을 수행하는 경우 결과 값은?

R언어의 특수 데이터 타입 중에서 수학적으로 계산이 불가능한 수를 의미하는 것은?

1. NULL

2. NA

3. NaN

4. inf

R언어의 데이터 구조로 올바르지 않은 것은?

1. Vector

2. Matrix

3. Array

4. Logical

다음은 R언어의 벡터(Vector)에 대한 설명이다. 올바르지 않은 것은?

1. 다른 데이터 타입으로 이루어진 한 개 이상의 값들로 구성된다.

2. 하나의 열로 구성된다.

3. 수치형, 문자형, 논리 연산자 벡터가 있다.

4. C() 함수는 수치형, 문자형, 논리형, 복소수형 벡터를 사용한다.

다음 R언어의 벡터관련 함수 중에서 수치형 데이터에만 적용할 수 있고 1씩 증가시키거나 감소시키는 함수는?

1. c() 함수

2. 콜론;

3. seq()

4. sequence(

08 2개의 x1벡터와 x2 벡터를 생성하고 열을 기준으로 벡터를 결합하는 방법으로 올바른 것은?

1. c(x1,x2)

2. rbind(x1,x2)

3. cbind(x1,x2)

4. rep(x1,x2)

R언어의 데이터 구조에서 2차원 구조로 되어있고 다양한 데이터 구조를 가질 수가 있으며, 하나의 열은 하나의 데이터 타입만을 가지는 것은?

1. 리스트

2. 벡터

3. 매트릭스

4. 데이터 프레임

일변량 데이터 탐색방법 중에서 연속형 데이터 탐색방법이 아닌 것은?

1. 히스토그램

2. 상자그림

3. 커널밀도 곡선

4. 원 그림

- 일변량 데이터 탐색

변수	내용	증가율
일변량 (변수가 한 개)	연속형 데이터	히스토그램 상자 그림 바이올린 그래프 커널밀도 곡선
일변량 (변수가 한 개)	범주형 데이터	막대 그림 원 그림

다음 중 R 함수로 잘못 연결된 것은?

1. 평균: mean

2. 분산: var

3. 최소값, 최대값, 중앙값, 평균: summary

4. 표준편차: sq

다음 R 함수 중에서 여러 변수들의 상관관계를 한번에 보여주는 그래프는?

1. plot()

2. pairs()

3. cor()

4. summary()

다음은 일변량 양적자료 분석을 위한 방법 중 기술 통계량에 대한 설명이다. 올바르지 않은 것은?

1. 데이터와 범위, 사분위범위, 분산, 표준편차, 중위수 절대편차를 확인한다.

2. 최소값, 최대값을 확인할 수 있고 데이터가 퍼져 있는 정도를 확인한다

3. 귀무가설에 대한 기각 혹은 채택을 결정한다

4. 기술통계량은 summary함수와 psych 패키지에 있는 describe, describeBy함수를 사용해서 한번에 여러 개의 기술 통계량을 확인할 수 있다.

다음 다변량 자료 탐색방법 중에서 변수의 수와 변수 타입 등을 확인하는 R함수는 무엇인가?

1. var()

2. mean()

3. str()

4. boxplot()

다음 빈칸에 알맞는 용어는?

( )은 누락된 데이터 및 비어있는 데이터를 의미한다.

다음 중 결측 데이터의 종류에 해당되지 않는 것은?

1. 완전 무작위 결측

2. 무작위 결측

3. 비 무작위 결측

4. 부분 무작위 결측

다음의 시나리오와 관련이 있는 결측 데이터의 종류는 무엇인가?

남성이 우울증 설문조사에 기입하면 우울증과 관련이 있다.

결측값 대체 방법 중에서 변수들이 특정 확률분포를 따른다고 가정한 후에 분포의 모수를 추정하여 대체하는 것은?

상자 그림에 대한 설명으로 틀린 것은?

1. 상자 그림을 보면 자료의 분포를 개략적으로 파악할 수 있다.

2. 두 집단의 분포 모양에 대한 비교가 가능하다.

3. 이상값에 대한정보를 알 수 있다.

4. 상자 그림의 상자 길이와 분산과는 아무런 관련이 없다.

car 데이터 프레임에서 결측치를 제거한 데이터 프레임을 구하는 명령은?

다음의 R패키지 중에서 cast() 함수와 melt() 함수를 사용해서 데이터 구조 변경을 쉽게 하는 R 패키지는?

1. mx

2. reshape

3. tm

4. gglpot

과목 4

표, 그래프, 객관적인 수치를 사용해서 모집단으로부터 자료를 정리, 요약하여 자료의 특성을 분석하는 것은?

다음 중 기술통계 분석에서 산술평균, 중앙값, 조화평균 등을 정리하거나 요약할 때 사용하는 그래프가 아닌 것은?

1. 도수분포표

2. 상자그래프

3. 시계열

4. 산점도

연속자료 분석을 위한 기술통계 분석에서 관측자료가 어디에 집중되어 있는지를 분석하는 것과 관련이 없는 것은?

1. 중앙값

2. 최빈값

3. 조화평균

4. 범위

연속자료 분석을 위한 기술통계 분석에서 관측자료가 어디에 집중되어 있는지를 분석하는 것과 관련이 없는 것은?

1. 산술평균

2. 최빈값

3. 조화평균

4. 표준편차

다음 중에서 자료의 수가 적으면 중심경향을 잘 반영하지 못하는 것은?

1. 산술평균

2. 기하평균

3. 중앙값

4. 최빈값

다음 중 ABC 기업의 성장률을 계산하기 위해 사용하는 평균으로 올바른 것은?

1. 산술평균

2. 기하평균

3. 가중평균

4. 조화평균

기술통계 분석에서 산포경향을 분석하기 위한 것으로 자료의 최대값에서 최소값을 뺀 것은 무엇인가?

상대적인 표준편차라고도 하며 측정단위가 다른 자료를 분석할 때 사용하는 것은?

다음 중 상자 그림에 대한 설명으로 올바르지 않은 것은?

1. 최대값과 최소값을 표현할 수 있다.

2. 중앙값을 알 수 있다.

3. 박스의 길이가 짧으면 자료가 평균을 중심으로 모여있다.

4. 박스의 길이가 길면 자료가 집중적으로 모여있는 것이다.

주가, 환율 거래량 등을 분석할 때 사용하는 것으로 추세분석, 원인예측, 전망 등을 분석할 때 시간의 흐름에 따라 관찰되는 데이터를 분석하는 것은?

과거의 관측값과 오차를 사용해서 현재 시계열 값을 설명하는 것은?

다음 중 시계열 자료의 정상성에 대한 설명으로 올바르지 않은 것은?

1. 모든 시점에 대해서 일정한 평균을 가진다.

2. 모든 시점에 대해서 일정한 분산을 가진다.

3. 시계열 자료는 현재 시점의 자료가 과거 자료에 의존한다.

4. 시계열 자료는 모든 시점 자료가 독립적이다.

표본을 사용해서 모집단의 특성을 추정하는 것은?

다음 중에서 연속확률분포에 관련이 없는 것은?

1. 정규분포

2. t-분포

3. x제곱분포

4. 기하분포

확률분포 중에서 베르누이 과정의 시행을 반복하는 것으로 두 가지 결과 중에서 하나만 나타나게 시행하는 확률분포는?

1. 이산확률분포

2. 이항확률분포

3. 포아송분포

4. 초기하분포

확률로 계산한 평균의 의미로 확류분포를 가지고 있는 각각의 결과를 확률의 계산을 통해 결과값들의 평균을 예측하는 값은?

주어진 시간, 거리, 공간범위에서 발생할 확률이 아주 낮은 사건들의 발생에 관한 이산확률 분포는?

1. 정규분포

2. 이항확률분포

3. 포아송분포

4. 초기하분포

통계적 추론 방법에서 모집단의 분포가 어떤 분포일 것이라고 가정하고 추론하는 방법은 무엇인가?

다음 중에서 비모수적 추론을 사용해야 하는 것으로 올바르지 않은 것은?

1. 정규분포를 따르지 않는 것이 증명된 경우

2. 모집단에 대한 아무런 정보가 없는 경우

3. 모집단이 정규분포를 따른 경우

4. 표본의 수가 적어서 정규분포를 가정할 수 없는 경우

통계적 추론 방법은 추정(Estimation)과 가설검정(Tesing hypothesis)로 분류된다. 추정은 다시 (a)와 (b)로 분류된다.

가설검정 시 대립가설이 사실인 상황에서 귀무가설을 기각할 확률은?

1. 검정력

2. 신뢰수준

3. 유의수준

4. 제2종 오류를 범할 확률

가설검정과 관련한 용어에 대한 설명으로 틀린 것은?

1. 제2종 오류란 대립가설이 참임에도 불구하고 귀무가설을 기각하지 못하는 오류이다.

2. 유의수준이란 제1종 오류를 범할 확률의 최대 허용한계를 말한다.

3. 유의확률이란 검정통계량의 관측값에 의해 귀무가설을 기각할 수 있는 최소의 유의수준을 뜻한다.

4. 검정력함수란 귀무가설을 채택할 확률을 모수의 함수로 나타낸 것이다.

임의의 모집단으로부터 확률표본을 취할 때 표본평균의 확률분포는 표본의 크기가 충분히 크면 근사적으로 정규분포를 따른다는 사실의 근거가 되는 이론은?

1. 중심극한의 정리

2. 대수의 법칙

3. 체비셰프의 부등식

4. 확률화의 원리

유의수준에 대한 설명으로 옳은 것은?

1. 대립가설이 참일 때 귀무가설을 채택하는 오류를 범할 확률의 최대허용한계이다.

2. 유의수준 a검정법이란 제2종 오류를 범할 확률이 a이하인 검정 방법을 말한다.

3. 귀무가설이 참이에도 불구하고 귀무가설을 기각하는 오류를 범할 확률의 최대허용한계를 뜻한다.

4. 제1종 오류를 범할 확률과 제2종 오류를 범할 확률 중 큰 쪽의 확률을 의미한다.

가설검정은 귀무가설을 채택할 것인지 기각할 것인지 검정하는 것으로 오른쪽 5%를 확인하는 우측검정과 왼쪽 5%를 확인하는 좌측검정, 그리고 오른쪽과 외쪽 모두 2.5%씩 구간을 확인하는 좌우검정이 있다.

가설검정 오류 중에서 귀무가설이 진실인데 귀무가설을 기각하는 오류는?

95%의 신뢰도를 기준으로 가설판단에 사용되는 것으로 귀무가설이 진실이라는 가정에서 표본 통계량의 값이 나타내는 확률은?

통계적분석기법 중에서 3집단 이상의 분산을 비교하는 것은?

1. T-test

2. ANOVA

3. 상관분석

4. 회귀분석

다음 중에서 관계검정과 관계가 깊은 없는 것은?

1. 교차분석

2. Independent sample t-test

3. 상관분석

4. 회귀분석

다음 시나리오에서 사용해야 하는 분석기법은?

남자의 평균 몸무게를 분석한다.

1. ANOVA

2. 상관분석

3. One sample T-test

4. One way ANOVA

T-test 방법 중에서 동일한 대상을 두번 반복적으로 측정해서 비교하는 것은?

분산분석(ANOVA)에서 사용하는 가설검증 방법은?

1. 정규분포

2. T-분포

3. F-분포

4. Z-분포

Two way ANOVA는 두 개의 변수 간에 상호작용이 있는지 확인하기 위해서 ( )를 사용한다.

ANOVA기법 중에서 집단이 3개이고 반복적으로 측정하는 방법은?

관계검정 기법 중에서 질적변수와 질적변수의 관계를 분석하는 것은?

1. 상관분석

2. 회귀분석

3. 다중 회귀분석

4. 교차분석

관계검정 방법 중에서 다음의 시나리오에 해당하는 분석기법은?

범죄율과 경찰관 수

다음은 상관분석과 회귀분석의 차이점에 관한 것이다. 이 중에서 상관분석에 해당하는 것은?

1. 기울기를 분석한다.

2. 독립변수와 종속변수 간의 관계를 분석한다.

3. 독립변수 X에 따른 종속변수 Y의 변화량을 분석한다.

4. 데이터가 얼마만큼 모여 있는지를 분석한다.

다음 중 상관분석을 가시화한 것은?

1. 히스토그램

2. 산점도

3. 원차트

4. 막대 그래프

공분산은 두 변수 간에 분산을 공유하는 것이다. 공분산은 척도 단위에 민감성이 크기 때문에 ( )를 해주어야 한다.

상관분석에서 두 변수의 관계를 하나의 수치로 표현한 것으로 강도와 방향으로 계산되는 것은?

상관계수 r의 값이 -0.2일 때 올바른 해석은?

1. 강한 정의 상관관계이다.

2. 상관관계가 없다.

3. 약한 음의 상관관계이다.

4. 강한 음의 상관관계이다.

상관분석 방법 중 연속변수, 이산변수, 순서형 변수에서 모두 사용할 수가 있으며 두 변수 간에 선형과 비선형 모두 측정이 가능한 것은?

다음 중 회귀분석(Regression analysis)에 대한 설명으로 올바른 것은?

1. 두 변수 간에 분산을 분석한다.

2. 변수 간에 1대 1관계이다.

3. 인과관계 변수를 분석한다.

4. 균등변수에 대한 분석이다.

다음은 회귀분석에 대한 설명이다. (a)와 (b)에 들어갈 단어는?

회귀분석의 목적은 a와 b를 하기 위한 것으로 a는 원인변수에 영향을 받는 회귀계수를 찾아서 Y를 a한다. b는 영향력이 높은 원인변수를 b 한다.

다음 회귀분석에 대한 설명이 가리키는 용어는?

회귀식을 예측하기 위해서 예측치와 관찰치의 차이인 잔차들의 제곱의 합이 최소가 되도록 회귀계수를 추정하는 방법이다.

다음 회귀분석에 대한 설명이 가리키는 용어는?

회귀분석이 종속변수를 얼마나 잘 설명하고 있는지를 확인한다.
총 변동(변화량) 중에서 회귀모형으로 설명되는 비율이다.

다중 회귀분석의 변수 선택 방법 중 모든 변수를 투입하고 제거 기준으로 변수를 하나씩 제거하는 방법은?

1. Enter

2. Forward

3. Backward

4. Stepwise

다음 회귀분석에 대한 설명이 가리키는 용어는?

회귀분석에서 독립변수들 간에 강한 상관관계가 나타나는 문제를 의미한다.

다음 중 다중공선성 문제를 해결하기 위한 방법으로 올바르지 않은 것은?

1. 상관관계가 높은 종속변수를 제거해야한다.

2. 새로운 관측치를 사용하거나 변수를 변형해야 한다.

3. 독립변수 간의 상관관계 이유를 분석해야한다.

4. 주성분 분석을 사용해서 예측변수의 수를 상관되지 않은 작은 변수의 집합으로 줄인다.

다음 중 회귀분석 방법 중에서 결과변수가 오직 0과 1로만 나오는 분석기법은?

1. 선형 회귀분석

2. 다중 회귀분석

3. 단일 회귀분석

4. 로지스틱 회귀분석

사건이 발생할 확률과 발생하지 않을 확률의 비율을 무엇이라 하는가?

다음 중 집단 간에 평균을 검증하기 위한 위한 분포로 적합한 것은?

1. F-분포

2. T-분포

3. 이산확률분포

4. X제곱분포

다음 중에서 인과관계 변수가 명목척도일 경우에 적합한 통계분석 기법은?

1. T-test

2. 회귀분석

3. 카이제곱(chi-square) 검정

4. 다중 회귀분석

5과목

컴퓨터가 사람처럼 생각하고 판단하는 기술은 a이고, 인간의 학습능력을 컴퓨터에 부여하기 위한 기술은 b이다.

다음의 데이터마이닝 기법 중 결과변수를 알 수 없는 상태에서 유사한 특성을 가진 변수들을 서로 묶어주는 방법은?

1. 예측

2. 분류

3. 군집

4. 연관규칙

다음의 데이터마이닝 기법 중에서 자율학습에 해당되지 않는 것은?

1. 군집분석

2. 텍스트 마이닝

3. 연관규칙

4. 시계열 분석

( )은 기계학습의 한 분야로 에이전트가 현제 상태를 분석하고 선택한 행동에 대해 보상을 하여 학습하게 하는 방법이다.

데이터마이닝 절차인 KDD는 선택, A, 변환, 데이터마이닝, B 순으로 진행한다.

SAS에서 개발한 데이터마이닝 방법론에서 추출된 데이터를 조사하고 기초 통계량을 산출하는 단계는?

1. sampling

2. exploration

3. modification

4. modeling

다음 중 CRISP-DM 빅데이터 방법론에 대한 설명으로 올바르지 않은 것은?

1. IBM에서 개발한 데이터마이닝 방법론으로 데이터마이닝을 반복적으로 수행한다.

2. 통계적 관점에서 개발된 데이터마이닝 방법론이다.

3. 비지니스 이해, 데이터 이해, 데이터 준비, 모델링, 평가 단계를 수행한다.

4. CRISP-DM 방법론에서 데이터의 테이블, 속성을 분석하고 기록하는 과정은 데이터 준비단계이다.

분석모델의 정확도를 올리기 위해서 학습데이터를 너무 과하게 학습시킨 것을 무엇이라고 하는가?

데이터마이닝에서 데이터 모형의 신빙성을 검증하기 위해 데이터 모델 구축 이후 데이터 모델의 과잉 혹은 과소 맞춤에 대한 조정을 하기 위한 데이터를 무엇이라고 하는가?

대용량 데이터로부터 알려지지 않은 지식 혹은 규칙을 추출하는 과정은?

1. 데이터 웨어하우스

2. 데이터마이닝

3. 지식경영

4. 의사결정시스템

고객의 속성인 성별, 나이, 직업 등을 사용해서 이탈 고객일지를 예측하기 위한 데이터마이닝 기법은?

1. 군집분석

2. 분류분석

3. 상관분석

4. 순차패턴분석

5과목 2

다중 회귀분석에서 발생할 수 있는 문제점으로 독립변수 간 상관관계가 발생하는 문제는?

다중 회귀분석의 변수선택 방법 중 독립변수 중에서 종속변수에 영향을 가장 많이 주는 변수부터 추가한 후에 중요도가 유의수준에 포함되지 않으면 제거하는 방법은?

1. 임의적 선택법

2. 전진 선택법

3. 후진 제거법

4. 단계별 방법

다음 중 K-인접기법에 대한 설명으로 올바르지 않은 것은?

1. 서로 가장 가까운 이웃들을 사용해 분류하는 방법이고 선형모델이다.

2. 학습 데이터의 패턴을 사용해서 데이터를 분류하고 예측한다.

3. 범주형 데이터를 분류할 수가 있고 연속형 데이터로 예측할 수도 있다.

4. K값이 변경 될 때마다 분류가 변경되기 때문에 적정한 K값을 지정하기 위해서 Cross validation을 수행한다.

답: 1

k-인접기법(KNN)은 K에서 가장 가까운 이웃들을 사용해서 분류하는 방법으로 비선형 모델이다.

다음 중 K-인접기법의 장점과 단점에 대한 설명으로 올바르지 않은 것은?

1. 지도학습방법으로 간단하며 쉽게 이해할 수 있다

2. 포본의 수가 충분히 많을 때 좋은 분류방법이다.

3. 최적K를 선택하기가 쉽고 편리하다.

4. 표본의 수가 적으면 정확도가 떨어진다.

다음 중 의사결정나무에 대한 설명으로 올바르지 않은 것은?

1. 데이터마이닝 기법으로 의사결정 규칙을 사용해서 데이터를 분류한다.

2. 의사결정나무는 데이터 분류를 수행하지만 예측은 할수가 없다.

3. 의사결정나무의 결과는 설명력이 좋은 장점을 가진다.

4. 의사결정나무의 분류는 CART, C4.5, C5.0, CHAID 방법이 있다.

다음은 의사결정나무 분석절차이다. ( )에 들어갈 용어는?

의사결정나무 형성->( )->최적 Tree분류-> 해석 및 예측

다음 중 의사결정나무의 분리기준에 대한 설명으로 올바르지 않은 것은?

1. 분리기준이란, 목표변수의 분포를 가장 잘 구별해주는 기준이다.

2. 의사결정나무의 분리기준은 이지분리, 다지분리가 있다.

3. 이지분리는 CART와 C4.5 방법이 있다.

4. 다지분리는 CHAID 방법이 있다.

의사결정나무에서 _____알고리즘은 얼마나 다양한 범주의 객체가 포함되어 있는지를 수치로 나타낸다.

다음 의사결정나무 기법 중에서 목표변수가 범주형일 경우에 지니지수를 사용하고 연속형일 경우에 분산을 사용해서 이진분리를 수행하는 것은?

1. CART

2. C4.5

3. C5.0

4. CHAID

CART에서 데이터를 분류할 때 지니지수를 사용한다. 지니지수가 0일때 의미는 무엇인가?

1. 더이상 데이터를 분류할 수 없다.

2. 이지분리를 수행할 때 정확하기 분리한 데이터가 0개이다.

3. 데이터 분리 수행을 시작하지 않았기 때문에 0이다.

4. 데이터 분리를 정확하게 100% 모두 맞추었다.

다음 중 의사결정나무의 분리기준에서 C4.5에 대한 설명으로 올바르지 않은 것은?

1. 분류나무와 회귀나무 분석이 가능하다.

2. 범주형 입력변수의 범주의 수만큼 분리가 가능하다.

3. 불순도는 지니지수를 사용해서 다지분리한다.

4. 1993년 quinlan에 의해서 제안된 알고리즘이다.

다음 중 CHAID에 대한 설명으로 올바르지 않은 것은?

1. 명목형, 순서형, 연속형 등 모든 종류의 목표변수와 분류변수를 사용할 수가 있다.

2. 불순도 알고리즘은 Chi-square 검정을 사용한다.

3. 불순도 알고리즘은 F-검정을 사용한다.

4. 분류나무와 회귀나무 모두 가능하다.

데이터마이닝 기법 중에서 여러 개의 의사결정나무를 만들고 투표를 통해 최적 트리를 확정하는 분석기법은?

다음의 앙상블 기법 중에서 동일한 훈련세트를 두고 여러 개의 분류모델을 만들어 분석하는 것은?

1. 투표

2. 배깅

3. 랜덤 포레스트

4. 부스팅

앙상블 기법 중에서 훈련세트를 여러 개 만들고 알고리즘마다 다른 훈련세트를 사용하는 것은?

서포트 벡터 머신은 고차원 혹은 무한차원의 공간에서 ____을 찾아 분류 및 회귀분석을 수행한다

데이터를 분류할 때 데이터 셋의 모든 특징들은 독립적이고 동등하다는 가정에서 터이터를 분류하는 방법으로 스팸메일 필터링에 사용되는 방법은?

이미지 데이터를 분석할 때는 데이터의 특징을 의미하는 X변수가 너무 많은 문제점이 있다. 이러한 환경에서 X변수를 축소할 수 있는 분석기법은?

1. 인공신경망

2. 주성분 분석

3. 서포트 벡터 머신

4. 연관규칙

다음 중 주성분 분석을 수행해야 하는 이유로 올바르지 않은 것은?

1. X변수의 수가 너무 많아서 불필요한 변수를 제거한다.

2. X변수의 수가 너무 많아서 X변수를 사용한 데이터의 시각화가 어렵다.

3. X변수 중에서 중요한 변수만 선택하여 차원을 축소한다.

4. X변수 수가 많으면 모델의 효율성은 올라가지만 성능은 떨어진다.

다음 중 신경망의 장점과 단점에 대한 설명으로 올바르지 않은 것은?

1. 변수들 간의 복잡한 관계를 파악할 수 있다.

2. 입력 데이터에 잡음이 많아도 우수한 성능을 낸다.

3. 결과에 대한 해석이 어렵다.

4. 학습을 위해서 적은 양의 데이터만 있어도 된다.

답: 4

결과에 대한 해석이 어렵고, 학습을 위해 많은 양의 데이터가 필요하다.

_______는 어떤 신호를 입력받아서 적절한 처리를 하고 출력하는 함수이다. 결과 값은 0 혹은 1로 나오고 1이면 다른 펴셉트론에게 그 결과값을 전달하고 0이면 전달하지 않는다.

신경망의 활성화 함수 중에서 로지스틱 회귀분석에 사용되는 활성화 함수는?

신경망에서 _____는 비용 값이 0이 되도록 가중치를 조정하여 다시 입력값으로 전송하는 방법이다.

유클리드 거리식에 대한 해석으로 올바르지 않은 것은?

1. n차원의 공간에서 두 점간에 거리를 계산한다.

2. L2 distance 라고도 한다.

3. 객체 간의 유의수준을 측정한다.

4. 유클리드의 거리 계산이다.

다음 중 절대 값을 사용하고 각 객체를 이어주는 길을 고려해서 거리 값을 계산하는 것은?

1. 유클리드 거리

2. 마할라노비스 거리

3. 민코프스키 거리

4. 맨하튼 거리

계층적 군집분석에서 bottom-up 방법이 아닌 것은?

1. 단일 연결법

2. 중심 연결법

3. 워드 연결법

4. 다이아나 방법

계층적 군집 연결방법 중에서 군집을 연결한 후에 군집 내 제곱합을 계산하고 최소 제곱합을 가지는 군집간에 연결하는 방법은?

1. 단일 연결법

2. 중심 연결법

3. 워드 연결법

4. 다이아나 방법

비계층형 군집분석 기법인 k-medoids 알고리즘 중에서 모든 객체를 대상으로 하지 않고 대표적인 일부 객체만 대상으로 해서 군집화를 수행하는 것은?

1. PAM

2. CLARA

3. K-means

4. KNN

군집분석 시에 신경망 분석기법을 수행하는 방법으로 신경망에서 사용하는 Back propagation은 수행하지 않는 방법이다. 거리 계산 시에 유클리드 방법을 사용하는 이것은?

다음 중 연관규칙에 대한 설명으로 올바르지 않은 것은?

1. 대용량 데이터베이스에서 발생하는 데이터를 분석하기 위해 상호연관성을 분석한다.

2. x사건이 발생하면 y사전이 발생하는 확률을 계산한다.

3. 원인과 결과의 직접적인 인과관계이다.

4. 동시발생 매트릭스로 변환한 후에 x변수와 y변수의 확률을 계산한다.

연관규칙을 측정하기 위해서 a, b, c를 사용한다.

______는 조건부 확률로 항목집합 x를 포함하는 거래 중에서 y를 포함하고 있는 거래 비율이다.

다음 중 연관규칙에 대한 설명으로 올바르지 않은 것은?

1. 연관규칙 분석의 결과에 대해서 이해가 쉽다.

2. 목적성 분석기법이다.

3. 분석이 간단하고 편리하다.

4. 품목의 수가 증가하면 계산이 기하급수적으로 증가하기 때문에 성능이 떨어진다.

연관규칙 분석방법 중 하나로 시간 및 순서에 따른 사건을 분석하여 모델 평가에는 지지도만 사용되는 분석기법은?

데이터마이닝 기법 중에서 고객을 여러 개의 집단으로 분류할 경우 사용하는 비지도학습은 무엇인가?

1. 예측

2. 평가

3. 군집

4. 분류

______는 입력받은 값을 출력으로 0~1사이의 값으로 정규화를 수행하며 출력값들의 합은 1이되는 함수이다.

1. tanh function

2. sigmoid function

3. gauess function

4. softmax function

다음 중 데이터 분석에서 자료 탐색 시에 산점도로 알기 어려운 것은 무엇인가?

1. 자료의 군집에서 벗어난 이상 데이터 존재여부

2. 자료의 선형관계

3. 원인변수 x와 결과변수 y의 관계

다음 중 의사결정나무의 불순도 측정 척도가 아닌 것은?

1. 지니계수

2. 엔트로피 계수

3. 분류 오류율

4. 확장 샘플링

다음 중 지도학습 방법이 아닌 것은 무엇인가?

1. 로지스틱 회귀분석

2. 신경망

3. 랜덤 포레스트

4. 군집분석

다음의 R함수 중에서 누적분포함수를 구하는 것은?

1. rnorm

2. dnorm

3. pnorm

4. qnorm

연관규칙 분석을 위해 R언어에서 apriori 함수를 사용했다. 생성된 연관규칙을 보기 위해서 사용하는 함수로 올바른 것은?

1. apriori 함수

2. inspect 함수

3. arule 함수

4. sort함수

모델 성능 평가방법 중 예측모델 성능평가와 관련이 없는 것은?

1. MAPE

2. 평균오차

3. 오분류율

4. 향상차트

오분류표 중 실제 값이 TRUE인 관측치 중에서 예측치가 맞는 정도를 나타내어 모형의 완전성을 평가하는 지표는?

1. 재현율

2. 특이도

3. 정확도

4. 오분류율

빅데이터 시각화 방법 중에서 공간 시각화 방법으로 가장 올바른 것은?

1. 파이 차트

2. 전진 선택법

3. 지도맵핑

4. 히트맵

빅데이터 시각화에서 시계열 데이터와 매우 유사하며 데이터를 구분할 때 분류, 가짓수 등을 사용하고 가짓수는 선택과 결과를 의미할 때 사용하는 시각화 방법은?

1. 분포 시각화

2. 비교 시각화

3. 관계 시각화

4. 시간 시각화

'공부 > ADsP' 카테고리의 다른 글

4-5. 통계적 추론 (0)	2022.08.02
4-4. 추리통계 (0)	2022.08.02
ADsp 문제모음 (정답,해설) (0)	2022.08.01
ADsp 문제모음(문제+해설) (0)	2022.08.01
4-3. 기술통계 + 예상문제 (0)	2022.08.01

꿈꾸는 다락방

ADsp 문제모음(문제)

'공부 > ADsP' 카테고리의 다른 글

댓글

티스토리툴바

ADsp 문제모음(문제)

'공부 > ADsP' 카테고리의 다른 글

관련글

댓글

티스토리툴바