首   页 首席简介 快乐搜索 产品下载 产品论坛 网络日志  首席风采 合作推广 网站地图
快乐超级搜索
火速桌面搜索
GSearch
Crusher
GoldMiner
SameFinder
CodeFinder
 
 
当前位置:【产品下载 】--【Crusher】
Crusher概述  
Crusher是一个能够从大规模语料中挖掘频繁模式的系统,能够在几十G、甚至上T的文本中快速发现重复串。Crusher可以有效使用有限的内存空间,适合于处理语料规模远远大于内存规模的情景。
rusher 提供了一种语料的完美划分策略,即使语料规模远远大于内存时同样可以高效查找语料的重复串。Crusher的语料划分策略是一种无损划分策略,不会由于语料划分导致重复串的遗漏。

Crusher可以由用户设定待输出重复串的频次阈值,Crusher在查找过程中能够对没有达到阈值的重复串剪枝,从而节省大量的计算代价。

Crusher是一个可扩展的重复串解决方案,当语料规模进一步增大时,Crusher不需要增加内存即可发现所有满足条件的重复串。

Crusher是一个非常适合并行化的解决方案,当有多个节点可用时,Crusher可以将划分后的语料分别放到不同节点运行,分别发现各子语料的重复串,其并集就是原始语料的重复串。各子语料的处理可以完全独立。

查看用户对Crusher的评论、向作者反馈使用感受、报告软件bug

Crusher优势
Crusher 提供了一种语料的完美划分策略,即使语料规模远远大于内存时Crusher同样可以高效查找语料的重复串。同时,Crusher的语料划分策略是一种无损划分策略,不会由于语料划分导致重复串的遗漏。

Crusher可以由用户设定待输出重复串的频次阈值,Crusher在查找过程中能够对没有达到阈值的重复串剪枝,从而节省大量的计算代价。

Crusher是一个可扩展的重复串解决方案,当语料规模进一步增大时,Crusher不需要增加内存即可发现所有满足条件的重复串。

Crusher是一个非常适合并行化的解决方案,当有多个节点可用时,Crusher可以将划分后的语料分别放到不同节点运行,分别发现各子语料的重复串,其并集就是原始语料的重复串。各子语料的处理可以完全独立。

 

Crusher运行环境
Microsoft Windows NT/2000/2003/XP
Read Hat Linux
内存:256M以上,建议2G以上

 

Crusher相关成果
龚才春,贺敏,张华平,许洪波,程学旗.大规模语料频繁模式发现算法.NetSec2007.青岛.

龚才春在大会所做报告的PPT