[데이터분석기사_Domain4] 시험 대비 기출 공략(2회)
[데이터분석기사_Domain4] 빅데이터 결과해석 시험 대비 기출 공략(3회)
61. 다음 중 편향과 분산에 대한 설명으로 옳은 것은?
① 모형의 학습을 계속 수행하며 분산과 편향의
Trade-off 덕분에 전체 Error가 점차 줄어든다.
② 모형이 복잡해질수록 분산은 작아지고 편향은 커진다.
③ 모형이 단순해질수록 편향은 작아지고 분산은 커진다.
④ 편향과 분산을 최소로 하는 모형을 선정한다.
[정답 ④ ]
62. 다음 중 매개변수와 초매개변수의 설명 중 틀린 것은?
① 매개변수는 사용자가 설정할 수 있다.
② 매개변수는 데이터로부터 결정된다.
③ 초매개변수는 학습률, 히든 레이어 등이 있다.
④ 초매개변수값에 따라 모델의 성능이 크게 좌우한다.
[정답 ①]
63. 다음 중 산점도와 가장 관련이 있는 그래프는?
② 도넛차트
① 파이차트
③ 트리맵
④ 버블차트
[정답 ④ ]
64. 아래에서 설명하는 그래프는 무엇인가?
차트 중앙에서 외부 링까지 이어지는 몇 개의 축, 그리고 전체공간에서 하나의 변수마다 축 위의 중앙으로부터의 거리를 수치로 나타낸다. |
① 플로팅 차트
③ 스타차트
② 바 차트
④ 카토그램
[정답 ③]
65. 다음 중 목표변수에 대한 설명 중 틀린 것은?
① 목표변수에 따라서 성과지표를 달리 해야한다.
② 목표변수가 연속형이면 정오분류표를 사용하는 것은 적절
③ 목표변수가 이산형이면 RMSE를 사용하는 것은 적절하지 않다.
④ 목표변수가 이산형이면 임계값(Cut-off Value)이
바뀌어도 정분류율은 바뀌지 않는다.
[정답 ④]
66. 아래의 ROC curve의 설명 중 옳지 않은 것은?
① ROC 커브는 신호탐지이론에서 적중확률 대 오경보확률의 그래프이다.
② x축에는 특이도, y축에는 민감도를 의미한다.
③ ROC 커브의 아래의 면적이 넓을수록 성능이 좋다.
④ ROC 커브의 면적이 0.5 이하이면 랜덤에 가까운 성능이라고 할 수 있다.
[정답 ②]
67.다음 중 혼동행렬을 활용해 계산할 수 없는 것은?
① 정분류율
② 특이도
③ 재현율
④ AUC
[정답 ④]
68. 다음 중 인공신경망의 초매개변수는?
① 가중치(weight)
② 편향(bias)
③ 서포트벡터(support vector)
④ 숨겨진 층의 수(hidden layer)
[정답 ④]
69. 비지도학습 방법인 kmeans 군집 방법에서 최적의 k를 구하는 방법은?
① Elbow 기법
② ROC Curve
③ K-nearest neighbor
④ k-medoid
[정답 ①]
70. 다음 중 F1-score를 산출하기 위한 측도로 알맞게 묶여 진 것은?
① 민감도(Sensitivity), 특이도(Specificity)
② 민감도(Sensitivity), 재현율(Recall)
③ 정분류율(Accuracy), 특이도(Specificity)
④ 재현율(Recall), 정밀도(Precision)
[정답 ④]
71. 종속변수가 범주형 변수이며 여러 개의 독립변수로 이루어진 데이터를 분석하고자 한다. 해당 데이터에 적용할 수 있는 분석 방법으로 틀린 것은?
① 의사결정나무
② 혼합분포군집
③ 서포트 벡터 머신
④ 로지스틱 회귀분석
[정답 ②]
72. 다음 중 적합도 검정에 대한 설명 중 옳지 않은 것은?
① k개의 범주를 가지는 두 개의 요인에 대해 어떤 이론적 분포를 따르고 있는지 검정하는 방법이다.
② 대립가설이 채택되면 적어도 하나의 범주의 도수가 가정한 이론 도수와 다르다고 할 수 있다.
③ 검정통계량으로 카이제곱 통계량을 사용한다.
④ 카이제곱 통계량 값이 작은 경우에는 관찰도수와 기대도수의 차이가 작고 적합도가 높다고 할 수 있다.
[정답 ①]
73. 인포그래픽의 설명 중 틀린 것은?
① 보는 사람의 흥미와 관심을 유발시킨다.
② 정보를 보다 쉽게 이해하도록 한다.
③ 복잡한 데이터를 시각화하는 경우 해석하기 어려움이 있다.
④ SNS로 전달 시 빠르게 전달되어 부작용이 있을 수 있다.
[정답 ③]
74. 다음 중 교차검증에 대한 설명으로 옳지 않은 것은?
① 모든 데이터셋을 평가할 때 사용할 수 있다.
② 붓스트랩을 통해 샘플에 한 번도 선택되지 않는 원데이터가 발생할 확률은 63.2%이다.
③ LOOCV는 전체 N개에서 1개 샘플만 평가 데이터, N-1개를 훈련데이터로 사용한다.
④ 반속 횟수가 많기 때문에 모델의 훈련 및 평가 시간이 오래 걸린다.
[정답 ②]
75. 아래의 혼동 행렬의 설명 중 틀린 것은?
예측범주 | |||
Y | N | ||
실제범주 | Y | O (TP:True Positive) | X (FN:False Negative) |
N | X (FP: False Positive) | O (TN:True Negative) |
① 카파 값(Kappa value)은 0~1 사이의 값을 가지며
1에 가까울수록 예측값과 실젯값이일치함을 알 수 있다.
② 부정(Negative)인 범주 중 부정으로 올바르게 예측(Negative)한
비율은 민감도(Sensitivity)지표를 사용한다.
③ 부정인 범주 주 긍정으로 잘못 예측(False Positive)한
비율을 정밀도(Precision)라고 하며TP/(TP+FP)라고 표기한다.
④ 머신러닝 성능 평가지표 중 정확도(Accuracy)를
표기하는 식은 (TP+TN)/(TP+FP+FN+TN)이다.
[정답 ②③]
76. 다음 중 회귀모형진단에 대한 내용 중 틀린 것은?
① 실제 데이터가 선형 모형에 맞는지 아닌지를 판단하는 잔차분석이 필요하다.
② 데이터의 분포가 정규분포를 따르는지를 확인하기 위해 샤피로-윌크 검정, K-S 검정 등을수행한다.
③ 회귀분석에서는 잔차의 독립성, 등분산성 등의 가정이 만족해야한다.
④ 독립성 검정에서 쿡의 거리가 1보다 작을 경우 영향치로 간주한다.
[정답 ④]
77. DA(Data Analysis)의 분석결과 활용에 대한 설명 중 틀린 것은?
① 분석 모형을 배포하여 운영계 환경과 통합하고 이를 실행한다.
② 분석 결과는 담당자, 엔지니어 등 관련된 업무를 수행하는 인원들에게 공유되어야 한다.
③ 데이터가 많을 때, 훈련 데이터로만 분석하고 검증을 수행하지 않아도 신뢰성이 높다.
④ 분석 모델이 가동되면 모델의 성능을 향상시키기 위해 지속적으로 분석하고 모니터링한다.
[정답 ③]
78, 아래의 시계열 분해 중 확인할 수 없는 것은?
① 추세 ② 계절 ③ 예측 ④ 잔차
[정답 ③]
79. 아래의 다중 회귀분석 결과에 대해 맞는 것은?
Coefficients: Estimate Std. Error t value Pr(>{t}) (Intercept) - 20.151609 26.264641 -0.767 0.445 x1 0.007139 0.001445 4.942 3.65e-06 *** x2 8.380637 1.445736 5.797 1.04e-07 *** x3 -0.654923 0.433125 -1.512 0.134 x4 0.136676 0.088223 1.549 0.125 --- Signif. codes: 0 ***' 0.001 '**' 0.01 '*' 0.05.' 0.1'' 1 Residual standard error: 6.823 on 88 degrees of freedom Multiple R-squared: 0.5227, Adjusted R-squared: 0.501 F-statistic: 24.1 on 4 and 88 DF, p-value: 1.762e-13 |
가. 세 번째, 네 번째 변수는 동시에 제거할 수 있다. 나. 첫 번째 변수는 회귀계수가 0이라고 할 수 있다. 다. 각 설명변수를 단순회귀분석으로 수행했을 때, 두 번째 변수의 결정계수가 가장 크다. |
① 가
② 나
③가, 다
④ 가, 나, 다
[정답 ③]
80. 다음 중 아래의 잔차도를 보고 처리해야하는 방법으로 올바른 것은?
① 공분산을 확인하고 새로운 변수를 추가한다.
② 독립변수를 제곱하여 모형에 추가한다.
③ 잔차의 등분산성을 위배하고 있어 로그 변환을 수행해야 한다.
④ 잔차는 정규성을 가지고 있다.
[정답 ③]