Intelligent Science Home   设为首页  |   收藏本站 |   English Version  
 
智能科学实验室
-  何清
- 联系我们
智能系统开发工具
- 专家系统工具OKPS
- 应急联动GEIS
人工智能
  - 心智模型
 
搜索智能科学网站

智能科学网站
欢迎合作
 

基于Hadoop的并行分布式数据挖掘平台

PDMiner(Parallel Distributed Miner)

      

一、概述

    数据挖掘作为知识获取的一门重要技术,已经得到了广泛的研究。数据挖掘,就是从大量的数据中挖掘出有用的信息,提供给决策者做决策支持。由于要挖掘的信息源中的数据大多是海量的,而且以指数级增长,因此扩展数据挖掘算法处理大规模数据的能力,提高运行速度和执行效率,已经成为一个不可忽视的问题。在云计算平台Hadoop基础上,中国科学院计算技术研究所开发的并行分布式数据挖掘平台,是中国最早的基于云计算平台的并行数据挖掘系统之一;该系统已经用于中国移动通信企业TB级实际数据的挖掘;达到了商用软件的精度,云计算平台和同样硬件成本的小型机作比较,数据处理规模远远超出远远超出商用软件。在商用软件能承受的相同数据规模下、采用相同方法和相同参数设置,在商用软件有结果的条件下,得了一致的挖掘结果。我们开发的并行数据挖掘工具平台PDMiner的主要特点有:(1)提供一系列并行挖掘算法和ETL操作组件,开发的并行ETL算法绝大多数达到了线性加速比;(2)可实现TB级海量数据的并行挖掘分析处理,且大部分算法拥有较好的加速比;(3)提供良好的拖拽工作流/浏览器的用户接口,操作简单方便;(4)可运行在成百上千个节点组成的Linux集群环境下,具有高可扩展性;(5)多个工作流任务可在云计算环境下的任意节点同时启动,互不干扰;(6)利用心跳包技术,可自动处理失败节点,具有高容错能力;(7)开放式架构,算法组件可通过简单配置方便地封装加载到平台中;(8)Java开发,提供系统日志,可管理能力,具有较好的可移植性。(9)基于云计算平台Hadoop的DFS对数据进行管理和维护。

该系统为企业决策和智能信息处理提供数据挖掘总体解决方案。系统提供了多种并行数据转换规则和并行数据挖掘算法,全面支持企业的生产、销售、市场营销、财务管理、企业决策等领域活动,具有广阔的应用前景。同时,多策略的数据挖掘工具也可以应用于其它一些国民经济的关键领域,如税务稽查、商业营销决策、金融部门等。
二、体系结构
 
 
   
     
 
 

 

有什么问题或者合作意向,请联系:

 

何 清: heq@ics.ict.ac.cn,电 话:010-62600542

庄福振: zhuangfz@ics.ict.ac.cn,电话:010-62600506

 

 
您是本站的第 free web hit counters 位客人 | 关于本站 | 站点维护
Copyright © 2002-2008 中国科学院计算技术研究所智能信息处理重点实验室智能科学课题组