新书推介:《语义网技术体系》
作者:瞿裕忠,胡伟,程龚
   XML论坛     W3CHINA.ORG讨论区     计算机科学论坛     SOAChina论坛     Blog     开放翻译计划     新浪微博  
 
  • 首页
  • 登录
  • 注册
  • 软件下载
  • 资料下载
  • 核心成员
  • 帮助
  •   Add to Google

    >> 搜索引擎, 信息分类与检索, 语义搜索, Lucene, Nutch, GRUB, Larbin, Weka
    [返回] 中文XML论坛 - 专业的XML技术讨论区计算机技术与应用『 Web挖掘技术 』 → LJParser文本搜索与挖掘开发平台 查看新帖用户列表

      发表一个新主题  发表一个新投票  回复主题  (订阅本版) 您是本帖的第 8362 个阅读者浏览上一篇主题  刷新本主题   树形显示贴子 浏览下一篇主题
     * 贴子主题: LJParser文本搜索与挖掘开发平台 举报  打印  推荐  IE收藏夹 
       本主题类别:     
     lingjoin 帅哥哟,离线,有人找我吗?
      
      
      等级:大一新生
      文章:13
      积分:87
      门派:XML.ORG.CN
      注册:2010/3/5

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给lingjoin发送一个短消息 把lingjoin加入好友 查看lingjoin的个人资料 搜索lingjoin在『 Web挖掘技术 』 的所有贴子 引用回复这个贴子 回复这个贴子 查看lingjoin的博客楼主
    发贴心情 LJParser文本搜索与挖掘开发平台

    LJParser文本搜索与挖掘开发平台
    白皮书下载:http://www.lingjoin.com/download/LJParser%20Manual.doc
    软件下载:http://www.lingjoin.com/download/LJParser.rar

    一、简介
    LJParser文本搜索与挖掘开发平台包括:全文精准搜索,新词发现,汉语分词标注,词语统计与术语翻译,自动聚类与热点发现,分类过滤,自动摘要,关键词提取,文档去重,正文提取等十余项功能。针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,提供了用于技术二次开发的基础工具集。开发平台由多个中间件组成,各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系统平台,可以供Java,C,C#等各类开发语言使用。
    LJParser是一套专门针对原始文本集进行处理和加工的软件,提供了中间件处理效果的可视化展示,也可以作为小规模数据的处理加工工具。用户可以使用该软件对自己的数据进行处理。
    二、功能
       LJParser文本搜索与挖掘开发平台的十大功能:
    1. 全文精准检索
    支持文本、数字、日期、字符串等各种数据类型,多字段的高效搜索,支持AND/OR/NOT以及NEAR邻近等查询语法,支持维语、藏语、蒙语、阿拉伯、韩语等多种少数民族语言的检索。可以无缝地与现有文本处理系统与数据库系统融合。
    2. 新词发现:
    从文件集合中挖掘出内涵的新词语列表,可以用于用户专业词典的编撰;还可以进一步编辑标注,导入分词词典中,从而提高分词系统的准确度,并适应新的语言变化。
    3. 分词标注:
    对原始语料进行分词、自动识别人名地名机构名等未登录词、新词标注以及词性标注。并可在分析过程中,导入用户定义的词典。
    4. 统计分析与术语翻译
    针对切分标注结果,系统可以自动地进行一元词频统计、二元词语转移概率统计(统计两个词左右连接的频次即概率)。针对常用的术语,会自动给出相应的英文解释。
    5. 文本聚类及热点分析
    能够从大规模数据中自动分析出热点事件,并提供事件话题的关键特征描述。同时适用于长文本和短信、微博等短文本的热点分析。
    6. 分类过滤
    针对事先指定的规则和示例样本,系统自动从海量文档中筛选出符合需求的样本。
    7. 自动摘要
    能够对单篇或多篇文章,自动提炼出内容的精华,方便用户快速浏览文本内容。
    8. 关键词提取
    能够对单篇文章或文章集合,提取出若干个代表文章中心思想的词汇或短语,可用于精化阅读、语义查询和快速匹配等。
    9. 文档去重
    能够快速准确地判断文件集合或数据库中是否存在相同或相似内容的记录,同时找出所有的重复记录。
    10. HTML正文提取
    自动剔除导航性质的网页,剔除网页中的HTML标签和导航、广告等干扰性文字,返回有价值的正文内容。适用于大规模互联网信息的预处理和分析。

    白皮书下载:http://www.lingjoin.com/download/LJParser%20Manual.doc
    软件下载:http://www.lingjoin.com/download/LJParser.rar

    [此贴子已经被作者于2010-5-4 17:25:50编辑过]

       收藏   分享  
    顶(0)
      




    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2010/5/4 15:28:00
     
     xhp3057 帅哥哟,离线,有人找我吗?
      
      
      等级:大一新生
      文章:3
      积分:64
      门派:XML.ORG.CN
      注册:2011/12/31

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给xhp3057发送一个短消息 把xhp3057加入好友 查看xhp3057的个人资料 搜索xhp3057在『 Web挖掘技术 』 的所有贴子 引用回复这个贴子 回复这个贴子 查看xhp3057的博客2
    发贴心情 
    好东西,支持啊
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2011/12/31 11:22:00
     
     GoogleAdSense
      
      
      等级:大一新生
      文章:1
      积分:50
      门派:无门无派
      院校:未填写
      注册:2007-01-01
    给Google AdSense发送一个短消息 把Google AdSense加入好友 查看Google AdSense的个人资料 搜索Google AdSense在『 Web挖掘技术 』 的所有贴子 访问Google AdSense的主页 引用回复这个贴子 回复这个贴子 查看Google AdSense的博客广告
    2024/5/2 22:31:00

    本主题贴数2,分页: [1]

    管理选项修改tag | 锁定 | 解锁 | 提升 | 删除 | 移动 | 固顶 | 总固顶 | 奖励 | 惩罚 | 发布公告
    W3C Contributing Supporter! W 3 C h i n a ( since 2003 ) 旗 下 站 点
    苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
    70.313ms