本站首页    管理页面    写新日志    退出

公告

宿命宽恕轮回修仙


我的分类(专题)

日志更新

最新评论

留言板

链接

-----------数据挖掘-----------

Data Mining Community's Top Resource(KDnuggets)
Information Management(DMReview)
STATISTICA Software(StatSoft)
IIR USA(CRM Community)
Editor's Picks(CustomerThink)
Data Mining Group
ACM SIGKDD(DM顶级国际会议)
SourceForge.NET(Open Source Software)

SAS
SPSS
KXEN
WEKA
AlphaMiner
RapidMiner

中国万维网联盟(W3CHINA)
中国统计网
数据库专委会
数据挖掘研究院(China Data Mining Research)
LAMDA机器学习与数据挖掘研究组
北京大学计算语言学研究所
北京大学Dlib组
哈工大信息检索研究室论坛
神威学术资源中心

CRMSKY
数据挖掘学习交流论坛
计算机科学论坛
数据分析论坛
Weka中文站
R语言中文论坛
SAS中文论坛

ECT 584

-----------同行博客-----------

数据挖掘者(IDMer)
数据挖掘青年(DMman)
数据挖掘斗士(DMFighter)
神威异度空间
一维空间
不准阁
不断学习
欧燊怡
Datamining&BI
王义
Koala++

-----------学者信息-----------

Jiawei Han(韩家炜)
张鹏
曾元顯
吴俊杰

-----------回忆过去-----------

www.5im.cn
www.ustbhrm.com
www.finance3399.cn
www.xueyuanlu.cn
www.ccesr.com
econometrics.buaa.edu.cn

 


Blog信息
blog名称:宿命宽恕轮回修仙
日志总数:18
评论数量:3
留言数量:0
访问次数:116109
建立时间:2009年3月18日

«December 2025»
123456
78910111213
14151617181920
21222324252627
28293031




[WEKA]如何将英文文本数据集转换为ARFF格式
原创空间

宿命宽恕轮回修仙 发表于 2009/6/2 17:05:24

若采用的是英文文本语料库,利用WEKA将英文文本数据转换到ARFF格式中,需要用到以下两个工具:TextDirectoryToArff和TextDirectoryLoader。TextDirectoryToArff是一个JAVA类(Class),它负责将一个目录文件中的文本数据转换到一个ARFF文件中。TextDirectoryLoader是一个转换器(Converter),它是基于TextDirectoryToArff类的,并且处于weka.core.converters包中。 在转换之前,我们需要将文本数据集按照TextDirectoryLoader转换器所要求形式布局: -----------------------------------------------------------... | +- example    |    +- class1    |  |    |  + file1.txt    |  |    |  + file2.txt    |  |    |  ...    |    +- class2    |  |    |  + another_file1.txt    |  |    |  + another_file2.txt    |  |    |  ...----------------------------------------------------------- 按照上图所示的目录布局好文本数据后,将example文件夹放置在weka根目录下,我们利用WEKA的命令行界面(Simple CLI)输入以下命令: java weka.core.converters.TextDirectoryLoader -dir example > example.arff 此时,可以发现在weka根目录下生成了一个example.arff文件,这说明文本数据已经成功转换成了WEKA需要的ARFF文件了。 example.arff文件内容下图所示,从图中可以发现example文件夹下的子文件夹名变成了每个文档的类标记。 -----------------------------------------------------------@relation D__workspace_weka_example@attribute text string@attribute class {class1,class2,class3}@data‘文本内容’,class1‘文本内容’,class3‘文本内容’,class2‘文本内容’,class1‘文本内容’,class3...----------------------------------------------------------- 该方法对于中文文本数据不适用,生成的ARFF中的中文会变成乱码,需要修改WEKA的源码才能实现对中文文本数据的处理。 参考文献:http://weka.wiki.sourceforge.net/Text+categorization+with+Weka


阅读全文(3953) | 回复(0) | 编辑 | 精华
 



发表评论:
昵称:
密码:
主页:
标题:
验证码:  (不区分大小写,请仔细填写,输错需重写评论内容!)



站点首页 | 联系我们 | 博客注册 | 博客登陆

Sponsored By W3CHINA
W3CHINA Blog 0.8 Processed in 0.391 second(s), page refreshed 144811113 times.
《全国人大常委会关于维护互联网安全的决定》  《计算机信息网络国际联网安全保护管理办法》
苏ICP备05006046号