|
当前位置:【产品下载
】--【Crusher】 |
| Crusher概述
|
 |
Crusher是一个能够从大规模语料中挖掘频繁模式的系统,能够在几十G、甚至上T的文本中快速发现重复串。Crusher可以有效使用有限的内存空间,适合于处理语料规模远远大于内存规模的情景。 |
rusher
提供了一种语料的完美划分策略,即使语料规模远远大于内存时同样可以高效查找语料的重复串。Crusher的语料划分策略是一种无损划分策略,不会由于语料划分导致重复串的遗漏。
Crusher可以由用户设定待输出重复串的频次阈值,Crusher在查找过程中能够对没有达到阈值的重复串剪枝,从而节省大量的计算代价。
Crusher是一个可扩展的重复串解决方案,当语料规模进一步增大时,Crusher不需要增加内存即可发现所有满足条件的重复串。
Crusher是一个非常适合并行化的解决方案,当有多个节点可用时,Crusher可以将划分后的语料分别放到不同节点运行,分别发现各子语料的重复串,其并集就是原始语料的重复串。各子语料的处理可以完全独立。
【查看用户对Crusher的评论、向作者反馈使用感受、报告软件bug】 |
|
Crusher优势 |
Crusher
提供了一种语料的完美划分策略,即使语料规模远远大于内存时Crusher同样可以高效查找语料的重复串。同时,Crusher的语料划分策略是一种无损划分策略,不会由于语料划分导致重复串的遗漏。
Crusher可以由用户设定待输出重复串的频次阈值,Crusher在查找过程中能够对没有达到阈值的重复串剪枝,从而节省大量的计算代价。
Crusher是一个可扩展的重复串解决方案,当语料规模进一步增大时,Crusher不需要增加内存即可发现所有满足条件的重复串。
Crusher是一个非常适合并行化的解决方案,当有多个节点可用时,Crusher可以将划分后的语料分别放到不同节点运行,分别发现各子语料的重复串,其并集就是原始语料的重复串。各子语料的处理可以完全独立。 |
|
Crusher运行环境 |
Microsoft Windows
NT/2000/2003/XP
Read Hat Linux
内存:256M以上,建议2G以上 |
|
Crusher相关成果 |
|
|
| |