[데이터분석기사_Domain3] 시험 대비 기출 공략(2회)
[데이터분석기사_Domain3] 빅데이터 모델링 시험 대비 기출 공략(2회)
41. 다음 회귀분석 변수 선택방법 중 모든 변수가 포함되어 있는 상태에서 변수를 하나씩 제거하는방법은?
① 전진선택법
② 후진제거법
③ 단계적 선택법
④ 모든 가능한 조합의 선택법
[정답 ②]
42. 다음 중 인공신경망의 출력값을 도출하기 위해 조절해야 하는 값으로 옳은 것은?
① 커널값
② 뉴런값
② 가중치
④ 오차
[정답 ③]
43. CNN에서 입력 Feature Map이 (5,5)이고 Filter이 (3,3)이라고 한다.
stride가 1이고 패딩이 없을때, 출력 Feature Map은 얼마인가?
① (2, 2)
② (3, 3)
③ (4,4)
④ (5,5)
[정답 ②]
44. 회귀분석에서 잔차의 가정 중 틀린 것은?
① 선형성
② 등분산성
③ 정규성
④ 독립성
[정답 ①]
45. 다음 중 SVM에 대한 설명 중 틀린 것은?
① SVM은 저차원과 고차원의 데이터에 대해서 모두 잘 작동한다.
② SVM은 생성된 모델에 대한 해석이 어렵다.
③ SVM은 이진분류가 아니어도 적용이 가능하므로 여러 개의 선을 그을 수 있다.
⑨ SVM은 다른 분석 방법론들보다 계산과정이 빠르다.
[정답 ④]
46. 다음 중 다차원 척도법에 대한 설명 중 틀린 것은?
① 데이터 속에 잠재해 있는 패턴을 찾아 소수 차원의 공간에 기하학적으로 표현한다.
② 각 객체들을 공간상에 표현하기 위한 방법은 부적합도 기준으로 STRESS를 사용한다.
③ 다차원 척도법에서 객체의 좌표값이 존재한다면 공분산 행렬을 계산할 수 있다.
④ 다차원 척도법의 거리를 계산할 때는 유클리드거리,
유사도를 계산할 때는 자카드 유사도를 사용한다.
[정답 ③]
47. 아래의 설명에 해당하는 것은 무엇인가?
가중치의 절대값의 합을 최소화 하는 것을 제약조건으로 하는 기법이다. 파라미터의 크기에 관계없이 같은 수준의 Regularization을 적용해 작은 값의 파라미터를 0으로 만들어 해당 변수를 모델에서 삭제해 모델을 단순하게 만들어주고 해석에 용이하게 만들어 준다. 그리고 L1 Penalty를 사용한다. |
① 라쏘 회귀 (Lasso Regression)
② 릿지 회귀(Ridge Regression)
③ 엘라스틱넷(Elastiuc Net)
④ 로지스틱 회귀(Logistic Regression)
[정답 ①]
48, 다음 중 분석 모형 구축 절차에서 모델링과 검증 및 테스트의 절차로 맞는 것은?
① 모델링 마트 구축 → EDA 및 변수 도출 → 모델링 → 성능 평가 → 운영 환경 테스트 →비즈니스 영향도 평가
② EDA 및 변수 도출 → 성능 평가 → 비즈니스 영향도 평가 → 모델링 마트 구축 → 모델링 - 운영 환경 테스트
③ 모델링 마트 구축 → 모델링 → 성능 평가 → EDA 및 변수 도출 → 운영 환경 테스트 → 비즈니스 영향도 평가
④ EDA 및 변수 도출 → 모델링 마트 구축 → 모델링 → 운영환경 테스트 → 성능 평가 → 비즈니스 영향도 평가
[정답 ①]
49. 독립변수가 연속형 변수이고 종속변수가 범주형 변수일 때, 사용할 수 있는 기법은 무엇인가?
① 로지스틱 회귀분석
② 다중 회귀분석
③ 다항 회귀분석
④ 곡선 회귀분석
[정답 ①]
50. 아래의 혼동행렬에서 TPR(True Positive Rate)와 FPR(False Positive Rate)을 구하면?
예측 | 합계 | |||
0 | 1 | |||
실 제 | 0 | 45 | 5 | 50 |
1 | 15 | 35 | 50 | |
합계 | 60 | 40 | 100 |
① TPR:9/10, FPR:3/10
② TPR:1/8, FPR:3/4
③ TPR:3/4, FPR:1/8
④ TPR:3/10, FPR:9/10
[정답 ①]
51. 다음 중 분류기의 오류에 대해 가중치를 두어 다시 학습하는 앙상블 기법과 그 법의 종류로 맞는 것은?
① 배깅 - adaboost
② 배깅 - randomforest
③ 부스팅 - randomforest
④ 부스팅 - GBM
[정답 ④]
52. 다음 중 A, B로 분류되는 집합에서 x에 대해
P(A), P(B), P(xlA), P(x|B)를 활용하여 P(Blx)를 구하는 공식은 무엇인가?
[정답 ②]
53. 데이터 분할 방법 중 모델의 성능을 증가시키는 선택을 반복하면서
발생하는 모델의 과적합 문제를 해결하기 위해 데이터를 학습,
평가 데이터 셋으로 분리하는 방법은?
① 홀드아웃 방법
② 부스트래핑
③ 교차 검증
④ K-Fold
[정답 ①]
54. 다음 중 비지도 학습으로 옳은 것은?
① 과거의 기상 데이터를 활용해 기상일보를 예측한다.
② 신용카드 사용 데이터를 활용해서 부정사용과 일반사용을 분류한다.
③ 페이스북에 있는 사람들의 얼굴 사진을 사람별로 분류한다.
④ 부동산과 관련된 데이터들을 모아 주택 가격을 예측한다.
[정답 ③]
55. 아래의 데이터를 사용하여 수행할 수 있는 분석은?
① 분류 ② 군집 ③ 예측 ④ 연관
[정답 ①]
56. 다음 중 한 학교에서 학생들의 표준 옷 사이즈를 정하기 위해 학생들의 신체치수를 측정하였다.이 때 사용할 수 있는 분석 방법은 무엇인가?
① 분류분석
② 군집분석
③ 연관분석
④ 예측분석
[정답 ①]
57. 다음 중 시계열로 틀린 것은?
① 백색잡음
② 이항분포
③ 자기회귀
④ 이동평균
[정답 ②]
58. 다음 중 비정형 데이터와 표현 방법이 틀린 것은?
① 텍스트는 단어(1-on-n), 문장으로 표현된다.
② 음성데이터는 정적 함수인 y=f(x)로 변환하여 저장된다.
③ 이미지는 픽셀의 RGB값을 저장한다.
④ 동영상은 비디오 스트림을 통해 압축되어 오디오와 조합된다.
[정답 ②]
59. 다음 랜덤 포레스트의 설명 중 틀린 것은?
① 랜덤포레스트는 분류와 회귀분제에 모두 사용이 가능하다.
② 랜덤 포레스트에서는 개별 변수가 통계적으로 얼마나 유의한지 알 수 없다.
③ 랜덤포레스트는 대용량 데이터 처리에 효과적이다.
④ 랜덤포레스트는 결정 트리의 개수가 많을수록 정확도가 높다.
[정답 ④]
60. K-fold 교차검증에 대한 설명 중 틀린 것은?
① 데이터를 K개로 분할한다.
② K-1개의 데이터는 검증데이터, 1개의 데이터를 훈련데이터로 선정하여 분석을 수행한다.
③ Iteration 횟수가 많기 때문에 모델 훈련/평가 시간이 오래 걸린다.
④ 분석 결과를 정확도의 평균이나 투표를 통해 선정한다.
[정답 ②]