首   页 首席简介 快乐搜索 产品下载 产品论坛 网络日志  首席风采 合作推广 网站地图
相关软件
快乐超级搜索
火速桌面搜索
GSearch
Crusher
GoldMiner
SameFinder
CodeFinder
 
 
 
 
 
当前位置:【最新消息 】--【大规模短文本去重算法效率取得大幅度提高】
 大规模短文本去重算法效率取得大幅度提高
【龚才春个人信息网2007年05月18日消息】经过近20天的细致研究和反反复复的试验,大规模短文本语料近似去重算法研究取得重大突破,对1200万条短文本做近似去重,重复判断模块由最初的15分钟左右时间提高到目前的55秒左右时间。

在互联网高度发到的今天,每时每刻有大量文本信息通过互联网发布,网页、博客、论坛、即时消息、新闻等是互联网文本信息的主要形式。由于这些信息都是人工整理和发布,其标题在很大程度上反映了正文的总体内容,因此很多研究都是针对这些信息形式的标题,从而形成了庞大的短文本语料。而网页、博客、论坛中存在严重的转载现象,即时消息也有大量重复信息转发,导致短文本语料中重复现象非常严重。

去除短文本语料中完全相同的短文本,也就是短文本的精确去重问题,技术比叫成熟,速度也非常快。本人开发的SameFinder V2.0查找1200万条短文本的完全重复文本,从读取语料内容,到建立重复判定索引,到检测重复,到对文本按照频次排序,到将去掉完全重复后的短文本集合写入文件,总共耗时不到70秒,其中核心模块--重复检测模块耗时不到1.5秒。

去除海量文本语料中近似重复的文本是一个比较复杂的问题,近年出现了大量相关的研究工作。龚才春博士在阅读大量相关工作的基础上,通过观察大量短文本语料的重复规律,提出了一套专门针对短文本语料的高效去重算法。目前算法处理前面提到的1200万条短文本,耗时为219秒,其中去除完全重复文本耗时65秒,去除近似重复文本耗时154秒。在去重近似重复的过程中,建立近似重复判定索引耗时91秒,检测近似重复文本耗时56秒。更详细的实验报告将于近期与读者见面。近似去重的演示版本也将于今日面向互联网发布。

龚才春个人信息网报导(2007.05.18)

 

龚才春个人信息网       Email:gongcaichun@gmail.com       MSN:gongcaichun@hotmail.com        京ICP备07016545号
Copyright (C) 2007 GONG Caichun, All rights reserved. 未经授权,不得复制、转载、摘要或建立镜像,如有违反,追究法律责任.