零基础学习大数据挖掘的33个知识点整理
副标题[/!--empirenews.page--]
9月15日技术沙龙 | 与东华软件、AWS、京东金融、饿了么四位大咖探讨精准运维!
下面是一些关于大数据挖掘的知识点,笔者和大家一起来学习一下。 1. 数据、信息和知识是广义数据表现的不同形式。 2. 主要知识模式类型有:广义知识,关联知识,类知识,预测型知识,特异型知识 3. web挖掘研究的主要流派有:Web结构挖掘、Web使用挖掘、Web内容挖掘 4. 一般地说,KDD是一个多步骤的处理过程,一般分为问题定义、数据抽取、数据预处理、.数据挖掘以及模式评估等基本阶段。 5. 数据库中的知识发现处理过程模型有:阶梯处理过程模型,螺旋处理过程模型,以用户为中心的处理结构模型,联机KDD模型,支持多数据源多知识模式的KDD处理模型 6. 粗略地说,知识发现软件或工具的发展经历了独立的知识发现软件、横向的知识发现工具集和纵向的知识发现解决方案三个主要阶段,其中后面两种反映了目前知识发现软件的两个主要发展方向。 7. 决策树分类模型的建立通常分为两个步骤:决策树生成,决策树修剪。 8. 从使用的主要技术上看,可以把分类方法归结为四种类型:
9. 关联规则挖掘问题可以划分成两个子问题:
10. 数据挖掘是相关学科充分发展的基础上被提出和发展的,主要的相关技术:
11. 衡量关联规则挖掘结果的有效性,应该从多种综合角度来考虑:
12. 约束的常见类型有:
13. 根据规则中涉及到的层次,多层次关联规则可以分为:
14. 按照聚类分析算法的主要思路,聚类方法可以被归纳为如下几种。 划分法:基于一定标准构建数据的划分。 属于该类的聚类方法有:k-means、k-modes、k-prototypes、k-medoids、PAM、CLARA、CLARANS等。
15. 类间距离的度量主要有:
16. 层次聚类方法具体可分为:
层次凝聚的代表是AGNES算法。层次分裂的代表是DIANA算法。 17. 文本挖掘(TD)的方式和目标是多种多样的,基本层次有:
18. 在web访问挖掘中常用的技术: 路径分析 路径分析最常用的应用是用于判定在一个Web站点中最频繁访问的路径,这样的知识对于一个电子商务网站或者信息安全评估是非常重要的。 关联规则发现 使用关联规则发现方法可以从Web访问事务集中,找到一般性的关联知识。 序列模式发现 在时间戳有序的事务集中,序列模式的发现就是指找到那些如“一些项跟随另一个项”这样的内部事务模式。 分类 发现分类规则可以给出识别一个特殊群体的公共属性的描述。这种描述可以用于分类新的项。 聚类 可以从Web Usage数据中聚集出具有相似特性的那些客户。在Web事务日志中,聚类顾客信息或数据项,就能够便于开发和执行未来的市场战略。 19. 根据功能和侧重点不同,数据挖掘语言可以分为三种类型:
(编辑:徐州站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |