样本集相关考题答案_样本集相关题库-刷刷题APP

下载APP

刷刷题APP > 样本集

"样本集"相关考试题目

1. 将整个样本集随机划分为两个集合。一个集合称为训练样本集,另一个集合称为测试样本集。利用建立在训练样本集上的预测模型,对测试样本集做预测并计算其预测误差。该预测误差也称为测试误差将作为模型预测误差的估计。这种方法叫做________

2. 设训练样本集包含{ID，收入（万元），婚否，爱旅游}四个特征，8条记录如表所示，采用C4.5算法进行连续属性划分，请问“收入”属性具有几种划分可能？ 1 2.5 否否 2 12 否是 3 3 否否 4 3.2 是是 5 4 否否 6 4.8 否否 7 6.8 是是 8 9.8 否是

3. 测试集:要独立于训练样本集,避免“过分拟合”的情况。( ) PPT08-05

4. 对于SVM分类算法，待分样本集中的大部分样本不是支持向量，移去或者减少这些样本对分类结果没有影响。

5. 下列不是用来描述样本集中位置的统计量的是（）。

6. 出出版单位或批发企业将出版物的样本集中，以召开订货会的方式，邀请零售部门的进货人员选订，这种进货方式是（）。

7. 总类内离散度矩阵适合用于处理无类别标签样本集。（）

8. 描述样本集中位置的是（）

9. K近邻算法也可以用于做回归预测。通过某种距离度量关系找出样本集中与被测对象最相近的K个样本,分类任务是选择K个样本中占比最高的类别,来推断被测对象的类别;回归任务是,对K个样本某个被关注的属性计算均值,作为被测对象的预测值。回归同样可以进行加权计算,例如,以距离的倒数为权值计算均值。以下是一个利用KNN算法预测房屋出租价格的回归问题,每个样本包含一些房屋属性(建筑面积,卧室数,洗手间数,建造年代,...

10. 在相同维度的特征空间中，分类器函数形式的阶次越低，其VC维也越小，在样本集数量有限的情况下，训练的分类器结构风险也越小，泛化能力越强。

11. 对于SVM分类算法，待分样本集中的大部分样本不是支持向量，移去或者减少这些样本对分类结果没有影响。

12. 下列不是用来描述样本集中位置的统计量的是（）。

13. 如果存在一个线性判别函数，能将样本集中所有样本都正确分类，则称该样本集是线性可分的。

14. 对于SVM分类算法，待分样本集中的大部分样本不是支持向量，移去或者减少这些样本对分类结果没有影响。（）

15. 出版单位或批发企业将出版物的样本集中，以召开订货会的方式，邀请零售部门的进货人员选订，这种进货方式是( )。

16. 描述样本集中位置的统计量有（）。

17. 似然函数衡量从概率密度中观测到样本集的可能性，即，当样本集中各样本独立同分布时，。

18. 在总的样本集不是很大的情况下，可以采用交叉验证法来较好的估计分类器性能。

19. 当前节点内样本集包含5个样本，特征数量为3，其中两个离散特征，1个连续特征，采用多叉树方案，则当前节点共有多少种可选的分裂方案。（）

20. 非参数估计方法利用样本集 X= {x 1 , x 2 ,..., x N } 和公式估计 x 点处的概率密度函数值 p ( x ) 。

21. 对于SVM分类算法，待分样本集中的大部分样本不是支持向量，移去或者减少这些样本对分类结果没有影响。( )

22. 对于SVM分类算法，待分样本集中的大部分样本不是支持向量，移去或者减少这些样本对分类结果没有影响。

23. 在相同维度的特征空间中，分类器函数形式的阶次越低，其VC维也越小，在样本集数量有限的情况下，训练好的分类器结构风险也越小，泛化能力越强。

24. 描述样本集中位置的统计量有______。

25. 描述样本集中位置的统计量有（）。

26. 假定样本集X包含5种类别，若采用一对一法进行分类，需要构建SVM的数量为（）

27. 描述样本集中位置的统计量包括（）

28. 在训练样本集中，对于训练样本数目不均衡的情况，处理方法妥当的是（）。

29. （）指样本集中样本个数趋于无穷时，估计值在概率意义上任意接近真实值。

30. 贝叶斯分类器的训练，是从样本集数据中估计出____。

31. 似然函数给出了从总体中抽出样本集中这组样本的概率,是关于样本集的函数。

32. AdaBoost算法中，经过自助采样从样本集D得到训练集Di，而后基于Di进行分类器训练，训练得到的分类器对D进行分类。

33. 非参数估计是在知道或者假设类条件概率密度的分布形式的基础上，直接用样本集中所包含的信息来估计样本的概率分布情况。

34. K近邻算法也可以用于做回归预测。通过某种距离度量关系找出样本集中与被测对象最相近的K个样本，分类任务是选择K个样本中占比最高的类别，来推断被测对象的类别；回归任务是，对K个样本某个被关注的属性计算均值，作为被测对象的预测值。回归同样可以进行加权计算，例如，以距离的倒数为权值计算均值。以下是一个利用KNN算法预测房屋出租价格的回归问题，每个样本包含一些房屋属性（建筑面积，卧室数，洗手间数，建造年代，...

35. 下列不是用来描述样本集中位置的统计量的是（）。

36. 下列不是用来描述样本集中位置的统计量的是（　　）。

37. 有两类样本集：用K-L变换求其二维特征空间，并求出其特征空间的坐标轴。

38. 对于SVM分类算法,待分样本集中的大部分样本不是支持向量,移去或者减少这些样本对分类结果没有影响。

39. 对于同样的样本集，Apriori算法的速度要比FP增长算法慢一些，但前者获得的关联规则比后者全面。

40. 什么叫做训练?训练样本集有何特点?

41. 在“样本集管理”中点击“新建样本集”，可以输入样本集名称，也可以对样本集进行描述。

42. 假定样本集X包含5种类别，若采用一对多法进行分类，需要构建SVM的数量为（）

43. 出出版单位或批发企业将出版物的样本集中，以召开订货会的方式，邀请零售部门的进货人员选订，这种进货方式是（）。

44. 多元线性回归的分布实现主要是把训练样本集拆分成数据块，以便Map程序直接计算回归系数。

45. 设训练样本集包含{ID，收入（万元），婚否，爱旅游}四个特征，8条记录如表所示，采用C4.5算法进行连续属性划分，对于“收入”属性的划分“2.75”，计算其信息增益率：12.5否否212否是33否否43.2是是54否否64.8否否76.8是是89.8否是

46. 描述样本集中位置的统计量包括（）

47. 紧致性作为一项定性的准则,如果要进行定量的评判,需要确定如何度量相似性,相似性度量可以设置多种指标,最常用的是距离指标。紧致性好的样本集,样本的( )似度远大于( )相似度

48. 在训练样本集中,对于训练样本类别不均衡的情况,处理方法妥当的是?

49. 描述样本集中位置的是（）

50. 描述样本集中位置的是（）