数据挖掘中的关联规则发现与分类算法评价标准详解

1. 一家超市研究了销售记录数据，发现购买啤酒的人很可能也会购买尿布。这属于什么类型的数据挖掘问题？（一个）

A. 关联规则发现 B. 聚类

C. 分类 D. 自然语言处理

2. 哪两个分类算法的评价标准对应于以下两个描述？（一个）

(a) 警察抓小偷，描述被警察抓到的人有多少是小偷的标准。

(b) 描述被警察抓获的小偷比例的标准。

A.，. ,

A. , 中华民国 D. , 中华民国

3. 以下哪一步是对原始数据进行积分、变换、降维、数值降维的任务？ (三)

A. 频繁模式挖掘 B. 分类与预测 C. 数据预处理 D. 数据流挖掘

4. 当数据的标签未知时，可以使用哪种技术将具有相似标签的数据与具有其他标签的数据分开？ (二)

A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链

5.什么是KDD？（一个）

A. 数据挖掘和知识发现 B. 领域知识发现

C. 文档知识发现 D. 动态知识发现

6. 使用交互式和可视化技术探索数据属于数据挖掘任务的哪一类？（一个）

A. 探索性数据分析 B. 建模描述

C. 预测建模 D. 寻找模式和规则

7. 对数据的整体分布进行建模；将多维空间分组等问题属于数据挖掘任务的哪一类？ (二)

A. 探索性数据分析 B. 建模描述

C. 预测建模 D. 寻找模式和规则

8.建立一个模型，通过该模型根据已知的变量值来预测某个其他变量的值。它属于哪种类型的数据挖掘任务？ (三)

A. 根据内容搜索 B. 建模描述

C. 预测建模 D. 寻找模式和规则

9. 用户有感兴趣的模式，希望在数据集中找到相似的模式。它属于哪种类型的数据挖掘任务？（一个）

A. 根据内容搜索 B. 建模描述

C. 预测建模 D. 寻找模式和规则

11.下列哪项不是数据预处理的方法？ (四)

A 变量替换 B 离散化 C 聚合 D 缺失值估计

12. 假设 12 个销售价格记录组已排序如下： 5, 10, 11, 13, 15,35, 50, 55, 72, 92, 204, 215 使用下面的每种方法将它们分为四个分箱。当分成等频率（等深度）时，15 位于哪个方框中？ (二)

A 第一 B 第二 C 第三 D 第四

13、上题中，当盒子被分成等宽（宽度为50）时，哪个盒子的面积是15？（一个）

A 第一 B 第二 C 第三 D 第四

14.下列哪项不属于数据的属性类型：（D）

A 名义 B 序数 C 间隔 D 不同

15、上题中，定量属性类型为：（C）

A 名义 B 序数 C 间隔 D 不同

16.仅非零值重要的二元属性称为：（C）

A 计数属性 B 离散属性 C 非对称二元属性 D 对称属性

17.下列哪种方法不是特征选择的标准方法：（D）

A 嵌入 B 过滤 C 包装 D 采样

18. 以下不是创建新属性的相关方法：(B)

A 特征提取 B 特征修改 C 将数据映射到新空间 D 特征构建

19. 考虑值集 {1, 2, 3, 4, 5, 90}，其截断均值 (p=20%) 为 (C)

A 2 B 3 C 3.5D 5

20.以下哪一种是将数据映射到新空间的方法？（一个）

A 傅里叶变换 B 特征加权 C 渐进采样 D 降维

21. 熵是消除不确定性所需的信息量。投掷均匀正六面体骰子的熵为： (B)

A 1 位 B 2.6 位 C 3.2 位 D 3.8 位

22、假设属性的最大值和最小值分别为12000元和98000元。使用最大和最小归一化方法将属性值映射到0到1的范围。属性上的$73,600将转换为：（D）

A 0.821 B 1.224 C 1.458D 0.716

23. 假设用于分析的数据包含属性年龄。数据元组中age的值如下（按升序排列）：13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 30, 33, 33 , 35, 35, 36, 40, 45, 46, 52, 70,问题：使用逐框平均平滑法对上述数据进行平滑，框的深度为3，第二个框值为：（A）

A 18.3 B 22.6 C 26.8D 27.9

24. 考虑值集{12 24 332 4 55 68 26}，其四分位数范围为： (A)

A 31 B 24 C 55D 3

25. 大学各年龄段学生人数为：一年级学生200人，二年级学生160人，三年级学生130人，四年级学生110人。那么等级属性的众数为：（A）

A 一年级 B 二年级 C 三年级 D 四年级

26.以下哪项不是专门用于可视化空间和时间数据的技术：（B）

A 等高线图 B 饼图 C 曲面图 D 矢量场图

27. 在抽样方法中，当适当的样本量难以确定时，可以采用的抽样方法有： (D)

A 带放回的简单随机抽样 B 无放回的简单随机抽样 C 分层抽样 D 渐进抽样

28. 数据仓库随着时间的推移而变化。下列描述不正确的是（C）

A.数据仓库随着时间的推移不断添加新的数据内容；

B、新捕获的数据会覆盖原来的快照；

C. 数据仓库随着事件的变化不断删除旧的数据内容；

D. 数据仓库包含大量综合数据，这些数据会随着时间的变化不断重新合成。

29、基础数据的元数据是指：（D）

A. 与数据源、数据仓库、数据集市和应用程序等结构相关的基本元数据和信息；

B、基础元数据包括管理数据和与企业相关的信息；

C、基本元数据包括日志文件和恢复执行处理的定时调度信息；

D. 基础元数据包括加载更新处理、分析处理和管理等信息。

30.下列关于数据粒度的描述不正确的是：（C）

A、粒度是指数据仓库中小数据单元的详细程度和程度；

B、数据越详细，粒度越小，级别越高；

C、数据综合性越高，粒度越大，层次越高；

D、具体的粒度划分会直接影响数据仓库的数据量和查询的质量。

31、关于数据仓库的发展特点，描述不正确的是：（A）

A、数据仓库开发要从数据开始；

B、开发前必须明确数据仓库的使用要求；

C、数据仓库的发展是一个不断循环的过程和启发式发展；

D. 在数据仓库环境中，操作环境中没有固定且精确的处理流程。数据仓库中的数据分析和处理更加灵活，没有固定的模型。

32.关于数据仓库测试，下列说法不正确的是：（D）

A、在完成数据仓库的实施过程中，需要对数据仓库进行各种测试。测试工作应包括单元测试和系统测试。

B. 当数据仓库的每个单独组件完成后，需要对它们进行单元测试。

C. 系统的集成测试需要对数据仓库的所有组件进行广泛的功能测试和回归测试。

D. 测试前无需制定详细的测试计划。

33、OLAP技术的核心是：（D）

A. 在线；

B、快速响应用户；

C. 互操作性。

D.多维分析；

34.关于OLAP的特点，下列哪项是正确的：（D）

(1) 快速性 (2) 可分析性 (3) 多维性 (4) 信息性 (5) 可共享性

A. (1) (2) (3)

B. (2) (3) (4)

C. (1) (2) (3) (4)

D.(1) (2) (3) (4) (5)

35、关于OLAP和OLTP区别的描述，错误的说法是：（C）

答：OLAP 主要是关于如何理解聚合的大量不同数据。它与 OTAP 应用程序不同。

B. 与 OLAP 应用程序不同，OLTP 应用程序包含大量相对简单的事务。

C、OLAP的特点是事务量大，但事务内容比较简单，重复率高。

D. OLAP基于数据仓库，但其最终数据源与OLTP一样来自底层数据库系统，并且都面向相同的用户。

36、OLAM技术一般称为“数据在线分析与挖掘”。下列说法正确的是：(D)

A、OLAP和OLAM都是基于客户端/服务器模型，只有后者具有与用户的交互性；

B.因为OLAM立方体和用于OLAP的立方体有本质的区别。

C、基于WEB的OLAM是WEB技术和OLAM技术的结合。

D、OLAM服务器通过用户图形界面接收用户的分析指令，并利用元数据的知识对超级立方体执行某些操作。

37.关于OLAP和OLTP，下列说法不正确的是：（A）

A、OLAP事务量较大，但事务内容比较简单，重复率较高。

B、OLAP最终的数据来源与OLTP不同。

C. OLTP面对的是决策者和高层管理者。

D. OLTP是以应用程序为中心、应用程序驱动的。

38.假设X={1,2,3}是频繁项集，则可以从X生成__(C)__关联规则。

A、4 B、5 C、6 D、7

40. 概念分层图是__(B)__图。

A. 无向和非循环 B. 有向和非循环 C. 有向和循环 D. 无向和循环

41、频繁项集、频繁闭项集、最大频繁项集的关系为： (C)

A. 频繁项集频繁闭项集 = 最大频繁项集

B.频繁项集=频繁闭项集最大频繁项集

C. 频繁项集频繁闭项集最大频繁项集

D. 频繁项集 = 频繁闭项集 = 最大频繁项集

42. 考虑以下频繁 3 项集集合：{1, 2, 3}、{1, 2, 4}、{1, 2, 5}、{1, 3, 4}、{1, 3, 5 }, {2, 3, 4}, {2, 3, 5}, {3, 4, 5} 假设数据集中只有5项，使用合并策略，并且候选生成过程得到的4项集不包含(C)

A. 1, 2, 3, 4 B. 1, 2, 3, 5 C. 1, 2, 4, 5 D. 1, 3, 4, 5

43、下列选项中，t不是s的子序列（C）

A. s=t=

B、s=t=

C、s=t=

D. s=t=

44. 在图集合中发现一组公共子结构的任务称为（B）

A. 频繁子集挖掘 B. 频繁子图挖掘 C. 频繁数据项挖掘 D. 频繁模式挖掘

45.下列哪项测量是不可逆的（D）

A. 系数 B. 概率 C. 科恩测度 D. 利息系数

46.下面的__(A)__不是向模式发现任务添加主观信息的方法。

A.与同期其他数据比较

B. 可视化

C. 基于模板的方法

D. 主观利益衡量

47. 从下面的购物篮中最多可以提取多少件 3 件套（C）

身份证购买

1 牛奶、啤酒、尿布

2个面包、黄油、牛奶

3 牛奶、尿布、饼干

4 面包、黄油、饼干

5 啤酒、饼干、尿布

6 牛奶、尿布、面包、黄油

7 面包、黄油、尿布

8 啤酒、尿布

9 牛奶、尿布、面包、黄油

10瓶啤酒、饼干

A、1 B、2 C、3 D、4

48.下列算法中哪些是分类算法，A、B、C4.5 C、K-Mean D、EM（B）

49.以下哪种分类方法可以更好地避免样本不平衡问题？ A、KNN B、SVM C、贝叶斯 D、神经网络 (A)

50. 什么样的节点不包含在决策树中？ A、根节点（root node） B、内部节点（node） C、外部节点（node） D、叶节点（leaf node） (C)

51、杂质计量中的基尼计算公式为（其中c为类别数）（A）

A、B、C、D、（A）

53.下列关于决策树的叙述哪一项是错误的（C）

A. 冗余属性不会对决策树的准确性产生不利影响

B. 决策树中的子树可能会重复多次

C.决策树算法对噪声干扰非常敏感

D.寻找最佳决策树是一个NP完全问题

54. 在基于规则的分类器中，规则根据规则质量的某种度量进行排序，以确保每个测试记录都按照覆盖它的“最佳”规范进行分类。该解决方案称为（B）

A. 基于类的排序方案

B. 基于规则的排序方案

C. 基于度量的排名方案

D. 基于规范的排名方案。

55.下列哪些算法是基于规则的分类器（A）

A.C4.5B。 KNN C. 朴素贝叶斯 D. ANN

56、如果规则集R中不存在由同一记录触发的两条规则，则规则集R中的规则称为(C)；

A、无序规则 B、穷举规则 C、互斥规则 D、有序规则

57、如果R中存在一条规则覆盖属性值的任意组合，则规则集合R中的规则称为(B)

A、无序规则 B、穷举规则 C、互斥规则 D、有序规则

58. 如果规则集中的规则按优先级降序排列，则称该规则集为 (D)

A、无序规则 B、穷举规则 C、互斥规则 D、有序规则

59、如果允许一条记录触发多个分类规则，则将每个触发规则的结果视为对应类别的一票，然后统计票数来确定测试记录的类别标签，称为（A ）

A、无序规则 B、穷举规则 C、互斥规则 D、有序规则

60. 考虑两支球队之间的足球比赛：球队 0 和球队 1。假设球队 0 在 65% 的比赛中获胜，球队 1 在其余比赛中获胜。 0 队获胜的比赛中只有 30% 是在 1 队的主场获胜，而 1 队获胜的比赛中有 75% 是在主场获胜。如果下一场比赛在 1 队的主场进行，则 1 队获胜的概率为 (C)

A、0.75 B、0.35C、0.4678 D、0.5738

61.下列关于人工神经网络（ANN）的说法不正确的是（A）

A. 神经网络对训练数据中的噪声非常鲁棒 B. 可以处理冗余特征 C. 训练 ANN 是一个耗时的过程 D. 具有至少一个隐藏层的多层神经网络

62、通过聚合多个分类器的预测来提高分类精度的技术称为（A）

A、组合（） B、聚集（） C、合并（） D、投票（）

63.简单地将数据对象集合划分为不重叠的子集，使得每个数据对象恰好位于一个子集中。这种类型的聚类称为（B）

A. 层次聚类 B. 分区聚类 C. 非互斥聚类 D. 模糊聚类

64. 在基本的K-means算法中，当邻近函数为(A)时，适当的质心是簇中每个点的中值。

A. 曼哈顿距离 B. 欧氏距离平方 C. 余弦距离 D. 散度

65. (C) 是一个与其他观察结果有很大不同的观察结果，以至于怀疑它是由不同的机制产生的。

A. 边界点 B. 质心 C. 离群点 D. 核心点

66. BIRCH 是 (B) 的一种。

A. 分类器 B. 聚类算法 C. 关联分析算法 D. 特征选择算法

67、检测单变量正态分布中的异常值属于异常检测中基于(A)的异常值检测。

A. 统计方法 B. 邻近度 C. 密度 D. 聚类技术

68. (C) 两个簇的邻近度被定义为不同簇的所有点对的平均成对邻近度，这是一种凝聚层次聚类技术。

A. MIN（单链） B. MAX（全链） C. 组平均值 D. Ward 法

69. (D) 两个簇的接近度定义为两个簇合并时引起的平方误差的增量。它是一种凝聚层次聚类技术。

A. MIN（单链） B. MAX（全链） C. 组平均值 D. Ward 法

70. 最坏情况的时间复杂度是（B）。

A. O(m) B. O(m2) C. O(log m) D. O(m*log m)

71、在基于图的聚类评价度量表中，如果聚类度量为(Ci，C)，聚类权重为mi，则其类型为(C)。

A. 基于图的内聚 B. 基于原型的内聚 C. 基于原型的分离 D. 基于图的内聚和分离

72.关于K-means总和的比较，下列说法不正确的是（A）。

A. K-means 丢弃它识别为噪声的对象，并且通常对所有对象进行聚类。

B. K-means 使用基于原型的簇概念并使用基于密度的概念。

C和K均值很难处理非球形簇和不同大小的簇，但可以处理不同大小和形状的簇。

D 和 K 均值可以找到分离不清晰的簇。即使簇重叠，也能找到，但重叠的簇会被合并。

73、该聚类算法的算法流程如下： ①构造k近邻图。 ② 使用多层图划分算法对图进行划分。 ③：合并在相对互连性和相对接近性方面最好地保持簇的自相似性的簇。 ④until：不再有可以合并的簇。（三）。

A、MST B、C、D、-（日本）

74. 考虑这样一种情况：一个对象恰好与另一个对象相对较近，但属于不同的类。由于两个对象一般不会共享很多邻居，因此应选择相似度计算方法（D）。

A. 欧氏距离平方 B. 余弦距离 C. 直接相似性 D. 共享最近邻

75. 以下是可扩展的聚类算法（A）。

A. 治愈 BCD

76. 下列哪种聚类算法不属于基于原型的聚类（D）。

A. 模糊 c 均值 B. EM 算法 C. SOM D.

77.关于混合模型聚类算法的优缺点，下列说法正确的是（B）。

答：当簇仅包含少量数据点或数据点近似共线时，混合模型也可以很好地处理。

B. 混合模型比 K 均值或模糊 c 均值更通用，因为它可以使用各种类型的分布。

C. 混合模型很难发现不同大小和椭圆形状的簇。

D. 当存在噪声和异常值时，混合模型不会出现问题。

78.下列哪种聚类算法不属于基于网格的聚类算法（D）。

A. 刺 BC 黑手党 D. 桦木

79. 对象的离群值分数是对象周围密度的倒数。这是基于 (C) 的异常值定义。

A. 概率 B、邻近度 C、密度 D、聚类

80. 以下关于（JP）聚类算法的说法不正确（D）。

A.JP聚类擅长处理噪声和异常值，并且可以处理不同大小、形状和密度的聚类。

B. JP 算法适用于高维数据，尤其擅长发现强相关对象的紧凑簇。

C. JP 聚类基于 SNN 相似度的概念。

D和JP聚类的基本时间复杂度是O(m)。

2. 选择题

1.通过数据挖掘过程得出的关系和摘要通常称为：（AB）

A. 模型 B. 图案 C. 模型 D. 模具

2. 寻找数据集中的关系就是找到一种能够准确、方便、有价值地概括数据的某种特征的表示形式。此过程包括以下哪些步骤？（ABCD）

A. 决定要使用的表示的特征和结构

B. 决定如何量化和比较不同表示法与数据的拟合程度

C. 选择一个算法过程来优化评分函数

D. 决定使用什么数据管理原则来有效地实现算法。

3. 数据挖掘的预测建模任务主要包括哪些类型的问题？ (AB)

A. 分类 B. 回归 C. 模式发现 D. 模式匹配

4. 数据挖掘算法的组成部分包括：（AB CD）

A. 模型或模型结构 B. 评分函数 C. 优化和搜索方法 D. 数据管理策略

5. 以下哪些学科与数据挖掘密切相关？（广告）

A. 统计学 B. 计算机组成原理 C. 采矿 D. 人工智能

6. 在现实世界的数据中，元组的某些属性缺失值是很常见的。描述这个问题的各种方法是：（ABCDE）

A 忽略元组 C 使用全局常量来填充缺失值

B 使用属性的平均值填充缺失值 D 使用给定元组属于同一类的所有样本的平均值 E 使用最可能的值填充缺失值

7. 以下哪些是高维数据可视化技术（ABCE）？

A 矩阵 B 平行坐标系 C 星坐标 D 散点图 E 面

8.关于数据挖掘中的原始数据，存在的问题是：（ABCDE）

A 不一致 B 重复 C 不完整 D 嘈杂 E 高维度

9、以下是不同的有序数据：（ABCE）

A 时间序列数据 B 序列数据 C 时间序列数据 D 事务数据 E 空间数据

10. 以下是数据集的一般特征：（BCD）

A 连续性 B 维度 C 稀疏性 D 分辨率 E 相异性

11. 以下常用于降维的线性代数技术是： (AC)

A 主成分分析 B 特征提取 C 奇异值分解 D 特征加权 E 离散化

12.下列哪一项是数据仓库的基本特征：（ACD）

A. 数据仓库是面向主题的 B. 数据仓库中的数据是集成的

C. 数据仓库中的数据比较稳定。 D. 数据仓库中的数据反映了历史变化。

E. 数据仓库是面向事务的

13. 以下都是数据仓库的不同术语。您认为哪一项是正确的（BCDE）。

A. 数据仓库是数据库

B．数据仓库是所有商业智能系统的基础

C.数据仓库面向业务，支持在线事务处理（OLTP）

D．数据仓库支持决策而不是事务处理

E. 数据仓库的主要目标是帮助分析和制定长期策略。

14、数据仓库的技术工作流程为：（ABCD）

A. 数据的提取 B. 存储和管理 C. 数据的性能

D. 数据仓库设计 E. 数据表示

15. 在线分析处理包括以下哪些基本分析功能？ (BCD)

A. 聚类 B. 切片 C. 旋转轴 D. 切片 E. 分类

16、利用算法计算频繁项集，可以有效降低计算频繁项集的时间复杂度。生成以下购物篮中支持度不小于3的候选3项集，需要剪枝的候选2项集为（BD）

ID 项目集

1个面包、牛奶

2个面包、尿布、啤酒、鸡蛋

3牛奶、尿布、啤酒、可乐

4 面包、牛奶、尿布、啤酒

5 面包、牛奶、尿布、可乐

A. 啤酒、尿布 B. 啤酒、面包 C. 面包、尿布 D. 啤酒、牛奶

17. 下表是一个购物篮，假设支持度阈值是40%，其中__(AD)__是频繁闭项集。

TID 项目

1 ABC

2 ABCD

公元前3年

4 阿德

5德

A. abc B. ad

C.cd D.德

18. 算法的计算复杂度受__(ABCD)?__影响。

A. 支持阈值 B. 项目数量（维度）

C. 交易数量 D. 交易平均宽度

19. 罕见模式__(AD)__

A.其支持度小于阈值。 B. 这并不有趣。

C. 包含负模式和负相关模式 D. 对异常数据项敏感

20. 以下是分类器评价或比较标准： A. 预测精度 B. 召回率 C. 模型描述的简单性 D. 计算复杂度（ACD）

21、评估不平衡问题的分类有以下几种测量方法：A、F1测度 B、召回率（） C、精度（） D、真实率（率，TPR）（ABCD）

22. 贝叶斯置信网络（BBN）有以下哪些特点？ A. 网络建设费时费力。 B.对于模型的过大问题具有很强的鲁棒性。 C.贝叶斯网络不适合处理不完整的数据。 D. 网络结构确定后，添加变量相当麻烦（AB）

23.下列哪项不是最近邻分类器的特征？答：它使用特定的训练实例来进行预测，而无需维护从数据派生的模型。 B. 对测试样本进行分类的成本非常高。 C. 最近邻分类器基于全局信息。预测D，可以产生任意形状的决策边界（C）

24. 以下特征不是基于规则分类器的： A. 规则集的表达能力远不如决策树。 B. 基于规则的分类器都以直线划分属性空间，并为每个划分分配类别。 C. to 用于产生更具可解释性的描述性模型D，非常适合处理类分布不平衡（AC）的数据集。

25. 以下聚类算法是（ABD）。

A. K-means BCD - (JP)

26. (CD) 都是集群有效性的监督措施。

A. 轮廓系数 B. 普通分类相关系数 C. 熵 D. F 测度

27. 聚类有效性的面向相似性的度量包括（BC）。

A. 精度 B. 兰德统计量 C. 系数 D. 召回率

28. (ABCD) 这些数据特征对聚类分析有很大影响。

A. 高维 B. 尺度 C. 稀疏性 D. 噪声和异常值

29. 在聚类分析中，（AD）等技术可以处理任意形状的聚类。

A. MIN（单链） B. MAX（全链） C. 组平均值 D.

30.(AB)均属于分裂层次聚类算法。

A. 二分 K 均值 B. MST CD 组平均值

1、数据挖掘的主要任务是从数据中发现潜在的规则，从而更好地完成描述数据、预测数据等任务。（正确的）

2.数据挖掘的目标不是数据收集策略，而是发现现有数据中的模式。（正确） 3. 图挖掘技术在社交网络分析中发挥着重要作用。（正确的）

4、模型是数据集的全局概括，描述了整个测量空间中的每一个点；该模型描述了变量变化空间的有限区域。（错误的）

5、寻找模式和规则主要涉及对数据进行干扰，使其符合一定的规则和模式。（错误的）

6. 异常值可以是合法的数据对象或值。（正确的）

7. 离散属性总是有有限数量的值。（错误的）

8. 噪声和伪影是同一件事的两种说法：数据错误。（错误的）

9. 分类离散化方法的根本区别在于是否使用类别信息。（正确的）

10.特征提取技术不依赖于特定领域。（错误的）

11. 序列数据没有时间戳。（正确的）

12、定量属性可以是整数值，也可以是连续值。（正确的）

13. 可视化技术通常并不特定于所分析的数据类型。（错误的）

14. DSS主要基于数据仓库、在线数据分析和数据挖掘技术的应用。（正确的）

15、OLAP技术侧重于分析数据库中的数据并将其转换为辅助决策信息。它是继数据库技术发展之后迅速发展起来的一项新技术。（正确的）

16. 商业智能系统和一般交易系统在系统设计上的主要区别在于后者将结构强加于业务。制度一旦设计好，其程序和规则就不会轻易改变；而前者是一个学习的过程。能够自动适应不断变化的业务需求的系统。（正确的）

17、数据仓库中间层OLAP服务器只能使用关系型OLAP（错误）

18、数据仓库系统的组成部分包括四个部分：数据仓库、仓库管理、数据提取、分析工具。（错误的）

19、Web数据挖掘就是通过数据库中的一些属性来预测另一个属性。它在验证用户所做假设的过程中提取信息。（错误的）

21、关联规则挖掘过程是发现满足最小支持度的所有项集所表示的规则。（错误的）

22. 使用先验原则可以帮助减少生成频繁项集时需要探索的候选项（对）的数量。

23. 先验原则可以表示为：如果一个项集是频繁的，那么包含它的所有项集也是频繁的。（错误的

24. 如果规则不满足置信度阈值，则该形式的规则也必须不满足置信度阈值，其中是 X 的子集。（右）

25. 具有较高支持度的项目集具有较高的置信度。（错误的）

26. () 是查找描述和区分数据类或概念的模型（或函数）的过程，以便能够使用模型预测的类来标记未知对象类。（错误的）

27. 分类和回归都可以用于预测。分类的输出是离散的分类值，而回归的输出是连续的数值。（正确的）

28、对于SVM分类算法，待分类样本集中的大部分样本都不是支持向量，去除或减少这些样本对分类结果没有影响。（正确的）

29.贝叶斯方法是一种基于已知后验概率和类bar的方法