新书推介:《语义网技术体系》
作者:瞿裕忠,胡伟,程龚
   XML论坛     W3CHINA.ORG讨论区     计算机科学论坛     SOAChina论坛     Blog     开放翻译计划     新浪微博  
 
  • 首页
  • 登录
  • 注册
  • 软件下载
  • 资料下载
  • 核心成员
  • 帮助
  •   Add to Google

    >> 搜索引擎, 信息分类与检索, 语义搜索, Lucene, Nutch, GRUB, Larbin, Weka
    [返回] 中文XML论坛 - 专业的XML技术讨论区计算机技术与应用『 Web挖掘技术 』 → 数据挖掘新手常见疑问解答(至2007-6-20) 查看新帖用户列表

      发表一个新主题  发表一个新投票  回复主题  (订阅本版) 您是本帖的第 24949 个阅读者浏览上一篇主题  刷新本主题   树形显示贴子 浏览下一篇主题
     * 贴子主题: 数据挖掘新手常见疑问解答(至2007-6-20) 举报  打印  推荐  IE收藏夹 
       本主题类别: 数据挖掘 | 信息检索    
     DMman 帅哥哟,离线,有人找我吗?魔羯座1984-1-11
      
      
      威望:1
      头衔:数据挖掘青年
      等级:研二(Pi-Calculus看得一头雾水)(版主)
      文章:803
      积分:5806
      门派:W3CHINA.ORG
      注册:2007/4/9

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给DMman发送一个短消息 把DMman加入好友 查看DMman的个人资料 搜索DMman在『 Web挖掘技术 』 的所有贴子 点击这里发送电邮给DMman 访问DMman的主页 引用回复这个贴子 回复这个贴子 查看DMman的博客楼主
    发贴心情 数据挖掘新手常见疑问解答(至2007-6-20)

    说明:这些问题以及他们的解答来自数据挖掘者的博客http://blogger.org.cn/blog/blog.asp?name=idmer,由DMman整理,日期截止到2007-6-20。挑选了其中比较有实际应用意义的若干。涉及到数据挖掘的前景、学习数据挖掘需要学什么、如何学习;数据挖掘的算法、应用等技术问题....希望大家能有所得。


    请教:高水平论文与英文的重要性

    数据挖掘青年发表留言于2007-6-20 14:46:11

    1 现在博硕士论文大都肤浅而处于总结性质,有东拼西凑之嫌。请先生推荐点高水平的数据挖掘方面的论文的来源。英文的也可以(估计好的都是英文的)。

    2 关于数据挖掘工作中英语的重要性。现在英语方面,阅读能力还可以,写也勉强,听说就过不去了。请先生谈谈数据挖掘工作过程中要求英语的使用场所。当然英语肯定是水平越高越好了,但至少需要达到什么程度才可以呢?

    以下为blog主人的回复:

    1.我以前经常用以下的论文检索站点(前两个,特别是第二个):
    注意要检索经典论文,需要看它被引用的情况,即citation。

    http://dblp.uni-trier.de/

    http://citeseer.ist.psu.edu/cs

    http://scholar.google.com/schhp?hl=zh-CN

    2.其实大家学英语的情况都一样,读写强而听说能力差。我觉得要达到这样的程度会有利于自己的发展:可以顺利地和国外的同行交流,不一定要非常流利,但可以听懂,并且能将自己的意思表达出来。

    用数据挖掘做社会研究

    xiaomissy(游客)发表留言于2007-6-19 20:02:24

    你好,偶然之间浏览到这个博客,非常高兴,因为我现在正好需要了解数据挖掘。我打算做网络的传播学研究,希望能从新的研究方法进行突破。但由于是文科出身,对数据挖掘比较陌生。请问什么样的软件可以帮我:1)快速、自动地下载所需要的网络上的信息; 2)处理和统计这些信息? 没有统计软件,我自己不能进行什么复杂的计算的。也许我的问题比较幼稚,不过请对我这个新手加外行进行指导。谢谢了。

    以下为blog主人的回复:

    呵呵,有这样的软件吗?如果有人知道,麻烦也介绍给我。不好意思,开个玩笑。;)

    不过坦率地说,可能你的希望要落空了,要达到你的期望,我觉得去学习相应的软件工具,甚至去学会编程,应该是不可避免的。也许你可以找个计算机专业的同学或朋友一起来做这方面的研究。
    高飞(游客)发表留言于2007-6-9 17:06:34

    我是铁通的,因为在市场部,很想问一下有没有对固话用户一个数据分析的指标体系,即那哪些指标对市场经营分析是有用的,

    以下为blog主人的回复:

    不知道你想了解的是对于整个企业的KPI呢?还是在市场经营分析中常见分析主题(比如长话流失、交叉销售等)中用到的主要变量?

    就电信行业来说,很多BI厂商都有行业解决方案,其中就包含了以上两方面的内容。当然在具体的项目实施中,还会进一步根据企业的实际情况进行调整和定制。

    电信行业已经是经营分析系统应用得很广泛的行业了。国外有很多的参考案例,国内象中国移动、中国联通、中国电信也都上马了经营分析系统、数据仓库、营销再造等项目。对于铁通而言,这些项目都是很好的参考。当然,从关注固话的角度看,电信的营销再造(MR,即Marketing Rebuild)应该是和你们需求最接近的。

    请教挖掘软件的使用

    数据挖掘青年发表留言于2007-6-3 21:58:32

    请教: 1 为甲方做的针对行业的数据挖掘中,如果通过SAS等通用的软件,如何体现行业不同、部门不同的特色要求?为他建立预测模型的过程中会对SAS的功能进行插件式的扩展吗,还是SAS本身已经足够建立特定的模型?
      也就是说所谓的量身定制,也就是使用同一个软件建立不同的模型,开发过程中不涉及软件的改造?
    2 是否数据挖掘人员不必是一个程序员?日常的工作已经很少涉及编程?

    以下为blog主人的回复:

    1.SAS的Enterprise Miner是通用型的数据挖掘软件,所以要满足客户的特定分析需求,常常会采取两种方法实现:一是做项目,通过项目团队的开发和实施,来建立客户所需的应用;另一种是采用SAS的行业解决方案(是SAS通过多年来对行业需求及解决方案的总结,形成的完整的solution),然后进行客户化定制。
    大多数情况下,不需要对SAS的功能进行扩展,而是用SAS的软件就可以解决业务问题。所以我们通常做的项目不是软件开发,而是项目实施。

    2.如果单纯从建立挖掘模型的角度来说,挖掘人员的确不必是程序员,只要应用合适的挖掘算法,基于分析数据进行建模,并对模型进行调优就可以了。但实际上,挖掘人员并不只做这些,更多的时候是做数据准备和数据探索,其中就可能需要进行编程,当然这些程序通常用于数据处理、模型结果的发布等等。
    就我个人的经验和了解,数据准备常常占一个数据挖掘项目工作量的60%~70%左右。

    数据挖掘中银行方面的应用?

    candy(游客)发表留言于2007-5-28 8:37:10

    您好:
      有个问题向您咨询下。我正在做数据挖掘中的CRM的应用。我在网上搜索到了一个Finacial 方面的数据,无非是一些帐户的转帐等信息,我就是有点搞不清楚我需要从这方面得到些什么有用的信息。我初步打算做一个简易的银行交易系统,利用那些数据,然后决策树以及K均值算法来分析。可是我们导师老是在我的创新点在哪里。其实国内关于这个问题的研究已经很多,我实在不知道怎么办了,希望你能够指导我下:)

    以下为blog主人的回复:

    呵呵,“创新”是个很尖锐的问题。以前我帮导师审论文时,给论文评分包括几个要素,分别是理论基础是否坚实、研究问题的重要性、研究成果的创新性等。

    所谓创新,就是你解决问题的方法是否和其他人的解决方法有所不同,而这种不同又是否更有利于解决问题。因此,要发现创新点,实际上需要充分的准备和深入的研究。

    ①充分的准备:既然创新是找出解决问题的更好方法,那么首先你就要发现问题,而且要发现有价值的问题。当找到这种问题时,再去查找有没有人提出了解决这个问题的方法,他们的方法是怎样的,还存在什么不足之处。
    这个阶段需要做大量的调查搜集的工作,也是做研究的准备阶段,常常需要通读相关研究领域的经典文献以及最新进展,写读书笔记予以总结。

    ②深入的研究:当你发现了值得研究的问题,并且知道在这个问题上还没有很好的解决方法时,你就有了创新的机会。找出现有解决方法的不足之处,提出自己的解决思路,并予以验证,通过试验或者推理证明你的方法是有效的,创新点也就产生了。说起来容易做起来难,就象酝酿一个新发明一样,常常会需要大量的试验和周密的思考,而且也有可能忙了很久而一无所获。

    希望说到这里没有让你心生惧怕,但我见过的一些认真做研究的人的确投入了很多的时间和精力才有所成就。当然对于国内的研究生来说,我倒是觉得在硕士阶段去追求显著的创新是不切实际的(个人的一管之见),其实把第一步做好已经不错了。如果没有做好第一步,打好基础,就急于找些创新点,那么这些所谓的创新点常常是毫无意义的,写出来的论文最终避免不了被扔到垃圾桶的命运(我以前写的一些论文也是如此)。大家常常说国内的研究论文质量很差,很大程度上也是源于我们现在的教育制度,要求研究生毕业前必须在SCI、EI或核心期刊上发表若干篇论文,重量而不重质,造就了现在的核心期刊完全变成了完成毕业任务的自留地。

    话题扯远了,回到你关心的问题-如何找创新点。必要的文献阅读是不可缺的,了解研究现状和背景,才可能发现创新点。如果你想这个阶段快一些的话,也有些捷径,比如你可以到一些研究单位或学者的站点上,察看他们目前的研究动态,一般来说他们正在研究的内容常常是目前还未解决的,这样你可以尽快找到创新点的主攻方向。

    很遗憾我无法给你指出具体的方向,因为毕业已经好几年了,工作内容也与研究没什么关系。如果读到我这篇回复的朋友中,和candy有类似的研究方向,欢迎给candy提些建议。

    anthea(游客)发表留言于2007-5-23 21:12:58

    你好,想请教一下,我想了解数据挖掘的一些基本知识,看什么教材比较好(中外文均可),谢谢!

    以下为blog主人的回复:

    先看《数据挖掘:概念与技术》吧。
    如何编写分类算法

    wistaria(游客)发表留言于2007-5-22 11:50:43

    我要自己写一个分类算法,可是我没有搞清楚那个buildClassifier和ClassifyInstance是如何调用的。另外问一下哪个分类算法是基于关联规则的?多谢了。

    以下为blog主人的回复:

    关于buildClassifier等的调用,建议你可以到Weka中文论坛(http://bbs.wekacn.org/)问一下。

    基于关联规则的分类算法,如CMAR等,你可以通过Google搜索诸如“Classification Based on Multiple Class-Association Rules”即可。

    紫菱(游客)发表留言于2007-4-5 10:28:20

    老师对这方面也不是很了解,就是给我这个方向的,然后让我自己查文献,自己确定做什么,以前没有接触过这些,我觉得挺难的,自己也根本不知道做什么

    以下为blog主人的回复:

    这种情况很常见,而且我觉得这时更是一个锻炼和培养自己能力的好机会。就我个人的经历来说,读书的不同阶段都是培养自己不同能力的过程:

    读本科时是打基础,掌握相关学科专业的最基本知识,这时是老师告诉自己要做什么以及教会自己怎么做,然后自己把它做出来;

    读硕士时则强化了解决问题的能力,导师告诉我要做什么,而我则需要找出方法来把它做出来;

    读博士时最主要的是培养自己发现问题的能力,发现研究领域内值得研究的而且尚未解决的问题,然后再设法去解决它。这时你会发现,其实你想到的问题,常常已经有人想到了;你想到的一些解决方法,也有国内外的同行已经做过尝试。这个阶段常常是让人有些气馁,因为感觉不知该做什么,而发现问题就是这个阶段最重要的能力培养。

    当然,不同的人会在不同的阶段培养这些能力,有的朋友聪明而且勤奋,可能会很快跨越这三个阶段,而有的人则可能需要很长的时间。

    就你的问题,其实是导师已经基于他对这个研究领域的理解,给你指了一个方向。这个方向或许有意义,或许价值不大,其实对你来说不是最重要的问题。我觉得可能你要做的是先去收集这方面的文献资料,了解该方向目前的研究进展,掌握目前的解决方法,然后在适当地深入研究部分的问题并解决。
    紫菱(游客)发表留言于2007-4-2 16:19:29

    您好!我是一名在校研究生,我现在已经开题,因为题目是老师给选的,所以在开题之前对数据挖掘的东西一点也不了解,现在只是知道一些皮毛。现在有许多问题自己都弄不明白。特来请教。

    我做的是油田开发数据挖掘,用VC++编程,老师让用ArcGIS平台,可我现在也搞不懂它们之间有什么联系,能否指点指点。

    谢谢!

    以下为blog主人的回复:

    我对ArcGIS也是只闻其名,只知道它是类似MapInfo的地理信息系统平台。莫非你们老师是希望将油田的相关数据标注在不同的图层之上,然后使用数据挖掘算法来对这些数据进行处理,最后再通过ArcGIS予以展示(例如对油田产油潜力用不同颜色来标注)?

    数据挖掘青年 (游客)发表留言于2007-3-28 18:05:28

    您好,谢谢提供开源学习网址!

    我是一名非名牌大学的研一学生,专业方向号称数据库,但只是服从导师安排做些小或中的项目(甚至根本用不到数据库,更不用说数据挖掘),没有实质的理论性学习。

    1数据挖掘人员从事的工作内容
    是不是开发数据挖掘平台、为别的企业单位量身制作DM、DW系统?除了这些还能有些什么?

    2读博深造的必要性
    现在只是无指导的自学状态,能否在硕士毕业后胜任数据挖掘方面的工作呢?考取名校的博士进一步深入学习的必要性大不大?

    3自学时的大方向
    文本、Web等,读博时肯定就某种具体方向深入研究,现在是否应该也自己重点专注于一种方向,而不是仅泛泛的熟悉各个方面?

    以下为blog主人的回复:

    1.数据挖掘人员从事的工作和你所说的差不多,我认识的一些朋友大多在IT公司,为甲方实施DM、DW和BI等项目;还有一些是在甲方做分析人员,利用所掌握的数据挖掘知识来解决一些业务问题。

    2.就以上的工作内容来说,我觉得硕士已经足以胜任,当然最重要的不是学位,而是运用你学到的知识来解决问题的能力。如果希望在理论研究上进一步发展,读博也不错,但发展方向会有所不同。

    3.在硕士阶段,我觉得还是全面了解会更好一些。当然,因为数据挖掘涉及的内容较多,还是应该在一些方面有所侧重,比如那些得到广泛应用的算法及其应用上,包括决策树、聚类、回归、神经网络等等。这样即便你以后不去读博,对找工作也会有所帮助。数据挖掘青年 (游客)发表留言于2007-3-26 10:46:03

    请问:现在数据挖掘开发主流平台和编程语言。那些更有优势呢?现在大都用什么呢 谢谢

    以下为blog主人的回复:

    现在一般应该是用Java开发的比较多,据我所知的,SAS Enterprise Miner客户端是用Java开发,开源的数据挖掘工具Weka也是用Java开发的。当然其后台服务器端的软件有部分可能会是C开发的,主要是出于性能的考虑。

    如果你对数据挖掘平台开发有兴趣的话,建议你去开源代码网站SourceForge(http://sourceforge.net/)看看,可以找到相应的源代码,也可以参加到他们的开发团队中,共同开发。


       收藏   分享  
    顶(0)
      




    ----------------------------------------------
    数据挖掘青年 http://blogger.org.cn/blog/blog.asp?name=DMman
    纪录片之家 (很多纪录片下载)http://www.jlpzj.com/?fromuid=137653

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2007/7/9 10:31:00
     
     DMman 帅哥哟,离线,有人找我吗?魔羯座1984-1-11
      
      
      威望:1
      头衔:数据挖掘青年
      等级:研二(Pi-Calculus看得一头雾水)(版主)
      文章:803
      积分:5806
      门派:W3CHINA.ORG
      注册:2007/4/9

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给DMman发送一个短消息 把DMman加入好友 查看DMman的个人资料 搜索DMman在『 Web挖掘技术 』 的所有贴子 点击这里发送电邮给DMman 访问DMman的主页 引用回复这个贴子 回复这个贴子 查看DMman的博客2
    发贴心情 
    身不由己(游客)发表留言于2007-2-1 10:51:55

    我想开始学数据挖掘

    1.请问下,什么挖掘工具适合我这样的初学者,最好是很容易操作,还要是中文的,我英文有点差...希望您能推荐下.

    2.能不能发给我这个您推荐给我的数据挖掘的工具.因为我下的数据挖掘工具都不能用.

    谢谢您了 我用数据挖掘来做毕业设计的,以前没学过,指导老师也不懂,凡事都靠自己找,我只能4处求教了,希望您能帮我下,3Q
    以下为blog主人的回复:

    首先,我建议你别着急选工具,先看看数据挖掘的综述资料,选择一个合适的课题,再往下深入了解和研究。

    对于毕业设计来说,也许你去找些公开的数据挖掘源程序,并使用这些源码进行改进或者应用到你要研究的课题上,可能比选择商用的数据挖掘软件更合适一些。因为这样你会了解算法的内幕,而不是简单地应用。

    如果你需要下载一些数据挖掘软件,我建议你到Kdnuggets网站或数据挖掘研究院网站上找找看。这些网址在我的Blog上有链接。

    关于数据挖掘软件的推荐,商用的我推荐SAS Enterprise Miner、SPSS Clementine、KXEN;研究方面的我推荐Weka。

    我现在在做一些文本校对相关的一些事情,但是手头缺乏一些语料库的资料(主要是语料库本身以及相关调用代码),所以我想向您咨询一下您手头没有关于语料库的资料或者是相关网址等,麻烦您了,谢谢

    以下为blog主人的回复:

    可以到北京大学计算语言研究所的网站上看看:
    http://icl.pku.edu.cn/icl_res/
    有人民日报切分/标注语料库下载
    uveil(游客)发表留言于2006-5-16 10:08:04

    有个问题想请教一下,你既然是研究数据挖掘的,肯定对其有关会议比较了解,想问ICMLC这个国际会议怎么样?它可是被EI检索的。

    以下为blog主人的回复:

    请参考:Computer Science Conference Rankings(http://www.w3china.org/blog/more.asp?name=idmer&id=6910)
    以及:http://www.kdnuggets.com/meetings/

    debby(游客)发表留言于2006-4-26 11:49:42

    我的毕业设计题目:文本挖掘。首先要在现成的语料库中提取特征,想用词频统计的算法,但是以前没有接触过这方面的内容,不知道怎么下手,希望能给与帮助。谢谢!

    以下为blog主人的回复:

    请参考北京大学自然语言学研究所主页(http://www.icl.pku.edu.cn/default_cn.asp)。

    微软亚洲研究院-自然语言计算组(http://research.microsoft.com/asia/group/nlc/

    计算语言学和自然语言信息处理研究和应用综述(http://ling.cass.cn/yingyong/courses/nlpbase.htm

    dmdou(游客)发表留言于2006-4-14 23:20:46

    请教一下,我最近开始学习数据挖掘技术,您能介绍一下这方面的前景吗?庸俗一点就是找工作是否很有需求?嘿嘿 多谢

    以下为blog主人的回复:

    现在和以后对数据挖掘人才的需求还是有一些的,不过由于数据挖掘是对数据的深层分析,所以一般除了要求深入了解数据挖掘技术之外,还要求对数据库(数据仓库)、行业业务、分析等方面的能力和经验。因此建议你熟悉数据库技术,同时有机会的话多参与一些实际项目,这样可以扩大你的择业范围。

    jeff(游客)发表留言于2006-4-4 10:18:15

    您好,我是的毕业设计题目定了,基于分区的算法的孤立点分析,但是感觉到没有头绪,另外也没有找到合适的数据源.现在我应该应该看那些书呢?从哪个地方下手呢?

    以下为blog主人的回复:

    关于孤立点分析,我了解得很少。唯一做过的相关工作就是将其应用到数据质量检查中,根据历史趋势发现新的数据中是否存在异常。除此之外,孤立点分析应该在网络流量异常检测中应用得比较多。至于需要看哪些书,象《数据挖掘:概念与技术》等书中只有简单介绍,深入的内容建议你尝试一下Google的学术搜索http://scholar.google.com/schhp?hl=zh-CNwww.researchindex.org等等。

    欢迎对这方面熟悉的同行给出宝贵意见,谢谢。
    hello(游客)发表留言于2006-3-21 11:15:00

    我的方向是遗传算法进行关联规则挖掘,但是看的不多,还有50天就NDBC2006就截稿了,您能否给我一些建议,比如看什么书,如何准备,

    谢谢

    以下为blog主人的回复:

    遗传算法我了解得很少,所以无法告诉你去看些什么书,只能给些投稿方面的建议。NDBC(全国数据库年会)接收的稿件主要分为两大类:研究报告类和技术报告类,前者侧重于科学研究(新的模型、新的思路、算法改进等),后者侧重于技术实现(结合具体的应用,一般需要有系统原型、应用效果等)。一般来说,前者比后者的学术价值更高些,稿件的质量也要求较高,所以需要比较长时间的研究和积累才可能做出来。

    因此,如果你希望在没有前期准备的情况下,用50多天来完成论文,可行的方法是向技术报告类的方向靠拢。我建议你首先找到有价值的应用问题(比如商业或企业等方面对关联分析的应用),然后应用遗传算法和其它关联分析方法(比如Apriori算法)来进行分析,对不同算法的性能效果进行评估比较,总结各种算法的特点及适用范围。当然,如果能对算法做些有益的改进更好,可以让论文的学术性更强。最后,描述出应用了关联分析的结果能带来什么效益(比如对货架位置的调整、对客户的交叉销售等到)。

    以上是论文的大致思路,但需注意的是,一定要有创新。如果仅仅是对算法的简单应用,则被录用的可能性很小。因为你的文章中的内容,在其他人的文章中都可以找到,那么你的文章就失去了存在的意义,也就不会被评委所接受

    cathy(游客)发表留言于2006-3-2 17:12:42

    你好,我是一名在校硕士生,方向是数据挖掘,我就要开始写论文拉,我想请问大侠数据挖掘能否应用在股票市场上?肯请给我些建议!谢拉

    以下为blog主人的回复:

    我没有研究过相关内容,你可以在Google中检索“数据挖掘股票”,或者在Google学术搜索(http://scholar.google.com/schhp?hl=zh-CN) 中检索亦可。应该有些方向可以研究,不过我对用预测算法来预测股价并不看好,因为一方面无法获得庄家的内幕消息(而他们对股价变动常常有很大的影响),另一方面一些重要信息难以量化,比如政策面的因素。

    青椒(游客)发表留言于2005-10-31 15:18:51   
    数据挖掘在国外的应用现状?  
    老大,能不能提供一些数据挖掘在国外的行业应用的资料,先谢谢了! (zhouyimm@163.com) 

    Sunstone:如果你希望了解数据挖掘在行业应用上的成功案例,可以查看SAS、SPSS等公司网站上的Success stories,例如http://www.sas.com/success/index.html
    如果想了解具体的实施过程,一般可以参考一些相应的图书,例如《构建面向CRM的数据挖掘应用》、《Organizational Data Mining - Leveraging Enterprise Data Resources for Optimal Performance》、《Data Mining Techniques For Marketing, Sales, and Customer Relationship Management》等,这些图书可以提供比较好的导引。
    更详细更具体的技术文档一般难以获得,因为大都是各个公司的保密文档。

    ----------------------------------------------
    数据挖掘青年 http://blogger.org.cn/blog/blog.asp?name=DMman
    纪录片之家 (很多纪录片下载)http://www.jlpzj.com/?fromuid=137653

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2007/7/9 10:32:00
     
     DMman 帅哥哟,离线,有人找我吗?魔羯座1984-1-11
      
      
      威望:1
      头衔:数据挖掘青年
      等级:研二(Pi-Calculus看得一头雾水)(版主)
      文章:803
      积分:5806
      门派:W3CHINA.ORG
      注册:2007/4/9

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给DMman发送一个短消息 把DMman加入好友 查看DMman的个人资料 搜索DMman在『 Web挖掘技术 』 的所有贴子 点击这里发送电邮给DMman 访问DMman的主页 引用回复这个贴子 回复这个贴子 查看DMman的博客3
    发贴心情 
    回复:数据挖掘模型的评估问题
    在07-5-11,Changjiang写道:


    Mr Zhang,我是一名大四学生,想请教你一下数据挖掘模型评估方面的问题。配置数据源,进行挖掘设置,选择挖掘算法,运行产生挖掘模型后,给出的结果很难让人信服。如那简单的购物篮分析来讲,产生关联规则和频繁集后,还是需要进一步分析才能弄清楚结果的含义。让某个不太懂数据挖掘的人一时很难获得应有的信息,是结果可视化的问题,还是模型评估的问题?我不太明白,希望给予解答和帮助。还有模型评估的资料从哪找啊?网上挺少的感觉?

    以下为IDMer的回复:

    Hi, Changjiang,

      数据挖掘模型的评估和数据挖掘模型的解释其实是两个不同的层面。对于模型评估来说,我们可能会列举出一系列的评估指标来说明模型的优劣,比如Precision、Recall、LIFT、ROC图等等。但要让用户接受一个模型的结果,仅靠这些评估指标却是不够的,还需要从模型结果的可用性上进一步阐述,即数据挖掘模型到底能带来什么业务上的价值。

      就我对你的email的理解,感觉你是希望能找到对于各种挖掘算法的评估指标和方法,然后以此作为衡量模型优劣的标准。资料其实也并不是很难找,但你首先要明白对于不同的算法,评估的方法也可能不同。所以你要针对自己想研究的算法和模型,去搜索该领域内的经典论文(包括算法的发明者所写的,以及业界权威对同类算法的综述和评比等等),在这些论文中常常都会包含常见的评估方法。

      从我个人的经验来说,在具体的数据挖掘项目中,算法的选择、模型的调优、获得一个从技术指标上来说还算不错的模型,这些都不是很困难的事情。而将模型的结果向业务人员解释,让他们感觉到模型所挖掘出来的东西是有价值的,这才是数据挖掘人员面临的最大挑战。当然这就需要比较强的行业知识和对业务的敏感。

      再回过头来看你提出的问题,对于大四的学生来说,我想你可能会更关注技术上的东西。对于模型解释这个方面,可以暂时不去触及太多,因为那常常需要一些项目实践才能有深入的认识。

    Sunstone Zhang

    ----------------------------------------------
    数据挖掘青年 http://blogger.org.cn/blog/blog.asp?name=DMman
    纪录片之家 (很多纪录片下载)http://www.jlpzj.com/?fromuid=137653

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2007/7/10 10:30:00
     
     figofly 帅哥哟,离线,有人找我吗?
      
      
      等级:大一新生
      文章:3
      积分:63
      门派:XML.ORG.CN
      注册:2008/2/18

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给figofly发送一个短消息 把figofly加入好友 查看figofly的个人资料 搜索figofly在『 Web挖掘技术 』 的所有贴子 引用回复这个贴子 回复这个贴子 查看figofly的博客4
    发贴心情 
    请问哪里有IBM intelligent miner for data 软件的下载?
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2008/2/20 14:29:00
     
     langzi112 帅哥哟,离线,有人找我吗?
      
      
      等级:大一新生
      文章:1
      积分:54
      门派:XML.ORG.CN
      注册:2008/3/4

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给langzi112发送一个短消息 把langzi112加入好友 查看langzi112的个人资料 搜索langzi112在『 Web挖掘技术 』 的所有贴子 引用回复这个贴子 回复这个贴子 查看langzi112的博客5
    发贴心情 
    你好 请问在网上怎么找那些适合WEKA软件的数据 进行训练  我是新手 对这个不是很清楚 ,请指教 谢谢
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2008/3/4 11:47:00
     
     lchsi324 美女呀,离线,快来找我吧!
      
      
      等级:大一新生
      文章:9
      积分:51
      门派:XHTML.ORG.CN
      注册:2008/3/20

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给lchsi324发送一个短消息 把lchsi324加入好友 查看lchsi324的个人资料 搜索lchsi324在『 Web挖掘技术 』 的所有贴子 引用回复这个贴子 回复这个贴子 查看lchsi324的博客6
    发贴心情 
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2008/3/20 12:17:00
     
     chyong168 帅哥哟,离线,有人找我吗?
      
      
      等级:大一新生
      文章:12
      积分:95
      门派:XML.ORG.CN
      注册:2008/12/21

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给chyong168发送一个短消息 把chyong168加入好友 查看chyong168的个人资料 搜索chyong168在『 Web挖掘技术 』 的所有贴子 引用回复这个贴子 回复这个贴子 查看chyong168的博客7
    发贴心情 
    真是太好了,太感谢了!
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2009/1/16 20:24:00
     
     GoogleAdSense
      
      
      等级:大一新生
      文章:1
      积分:50
      门派:无门无派
      院校:未填写
      注册:2007-01-01
    给Google AdSense发送一个短消息 把Google AdSense加入好友 查看Google AdSense的个人资料 搜索Google AdSense在『 Web挖掘技术 』 的所有贴子 访问Google AdSense的主页 引用回复这个贴子 回复这个贴子 查看Google AdSense的博客广告
    2024/5/3 21:48:46

    本主题贴数7,分页: [1]

    管理选项修改tag | 锁定 | 解锁 | 提升 | 删除 | 移动 | 固顶 | 总固顶 | 奖励 | 惩罚 | 发布公告
    W3C Contributing Supporter! W 3 C h i n a ( since 2003 ) 旗 下 站 点
    苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
    109.375ms