Blog信息 |
|
blog名称:IDMer (数据挖掘者) 日志总数:175 评论数量:848 留言数量:119 访问次数:2510864 建立时间:2005年6月24日 |
我的相册 |
|

|
联系方式 |
 |
|
| |
公告 |
“数据挖掘者”博客已经搬家,欢迎光临新博客网址:http://idmer.blog.sohu.com 我的新浪微博:@张磊IDMer |
网络日志 |
|
征文:第六届SIAM数据挖掘国际会议 |
|
|
|
|
|
数据挖掘者 发表于 2005/7/28 22:22:32 |
|
|
|
CALL FOR PAPERS, WORKSHOPS AND TUTORIALS
Sixth SIAM International Conference on Data Mining http://www.siam.org/meetings/sdm06
Washington, DC, USA &nbs |
|
|
|
阅读全文(4397) | 回复(0) | 编辑 | 精华 | 删除 |
|
|
|
|
|
|
|
如何在Windows中快速查找文档  |
|
|
|
|
|
数据挖掘者 发表于 2005/7/27 12:12:13 |
|
|
|
http://blog.joycode.com/moslem/articles/2128.aspx 如何在 Windows 中快速查找文档
李彦智
近几年,随着硬盘介质价格的大幅度下降,各位电脑迷们的个人硬盘容量越来越大,动辄五六十G,甚至上百G都不足为奇,这在前几年是无法想象的。但是硬盘大了,存放的文档多了,查找速度慢的烦恼也随之来了。其实在Windows 2000/XP的操作系统中,有一个索引服务的功能,可以有效提高查找文档的速度,尤其在进行全文检索的时候,其运行效率可以和 Google 媲美。
一、索引服务的概念
索引服务(Index Service)被用来对硬盘上文档及文档属性进行索引,并存储在编录(Catalog)中,可以使用索引服务来查找文档。 索引服务从一组文档中提取相关信息(包含文档中的文本,文档的特性和参数,如作者姓名等),并进行索引,一旦索引被创建后,你就可以 |
|
|
|
阅读全文(3216) | 回复(0) | 编辑 | 精华 | 删除 |
|
|
|
|
|
|
|
当当的交叉销售 |
|
|
|
|
|
数据挖掘者 发表于 2005/7/19 13:39:32 |
|
|
|
本贴包含了我在数据仓库之路论坛上的回贴:
repou: 当当的交叉销售。买Zippo,提示
购买过该商品的顾客还购买过这些商品 (1).黑曜石手链 (2).芊娟吸油纸(体验装) (3).爱丽丝漫游奇境(世界十大著名哲理童话,彩色插图本) (4).激励女人:55篇女性喜与悲、感动与成长的故事 (5).zippo-打火机专用棉线 (6).感谢你,大五郎:亚马逊书店五星级畅销书 (7).绿檀佛珠手链 (8).火玛瑙手链 (9).美丽人生:获28项国际大奖(简装DVD) (10).哆啦A梦“冰一冰”双效护眼罩
呵呵 差好远啊
qinghero: 有意思。说明了什么问题? 好像里面有些东西很女性化的呀?
bruce_lee: 呵呵,我觉得亚马逊的交叉销售做的比较好,现在对web的点击流做挖掘好像是一个大趋势呀,尤其是关联分析,在一些专业性很强的电子商务网站上还是有很多应用空间的!
casoline: 据说当当的交叉销售并没有采用关联分析,好像是直接的SQL查询做出的,没有关联分析中最小支持度和可信度的限制。不知道国外是怎么做的?请教中
Sunstone: 分析应重于技术手段
我同意楼上的看法,当当的交叉销售看起来只是进行了SQL查询,把包含Zippo的交易中的其它商品按频次排序,然后输出了To |
|
|
|
阅读全文(3329) | 回复(0) | 编辑 | 精华 | 删除 |
|
|
|
|
|
|
|
关于聚类咨询一个问题 |
|
|
|
|
|
数据挖掘者 发表于 2005/7/19 13:27:06 |
|
|
|
本贴包含了我在数据仓库之路论坛上的回贴:
kaoro: 关于聚类咨询一个问题。对一个公司员工对企业的满意度调查,得到的样本以5、3、1、-1这样的数据来表示,直接用这些离散数据进行标准化(是否有标准化的需要?),然后主成分分析(把38个指标表示成12个),再利用系统聚类法中的最小方差法,得到7个类比较满意。 但是老师和师兄都说聚类方法只适用于连续数据,那么我是否需要把初始数据转化成连续的再作,还是说通过其他聚类方法呢?查了好久,还是没找到结果,初学者,请大家多多指教。
neptune: 试试clementine的kohonen算法,是个基于神经网络的聚类算法控件,被推荐应用于许多行业的聚类分析应用中。
civilstar: 的确,聚类分析的前提事连续变量,因此,我认为需要进行前期处理
cm0531: 同感。在进行顾客细分研究中经常假设一个价格区间和购买数量区间,最终得到的消费额也是离散的。同时收入水平等也是离散的,聚类也碰到类似如何标准化的问题。不知道楼主的这个问题解决了没有。如果有办法,敬请指教一二。
范蠡: 关注中
seabiscuit: 关注中
Sunstone: 聚类中的变量类型及标准化
首先关于变量类型的问题:kaoro给出的满意度数据应该是次序型变量,变量值之间 |
|
|
|
阅读全文(4928) | 回复(4) | 编辑 | 精华 | 删除 |
|
|
|
|
|
|
|
SAS V8的组件列表 |
|
|
|
|
|
数据挖掘者 发表于 2005/7/15 14:53:21 |
|
|
|
SAS V8的组件信息(\SAS v8\SAS\core\sasinst\data.zh\目录下的所有ini文件):
组件名称
说明
存储空间(M)
Base SAS
“SAS 系统”的基础,提供数据访问、管理、分析和展示功能
510
Core of SAS System
SAS 系统的核心
151614
IT Service Vision
IT Service Vision
1549 |
|
|
|
阅读全文(2872) | 回复(0) | 编辑 | 精华 | 删除 |
|
|
|
|
|
| | |