首   页 个人简介 快乐搜索 产品下载 产品论坛 网络日志  个人风采 合作推广 网站地图 站内搜索
精彩推荐
快乐超级搜索
火速桌面搜索
GSearch
Crusher
GoldMiner
SameFinder
CodeFinder
 
首席精彩报告:
【FTP检索】
【短文本动态话题检测】
【浅入深出关联挖掘】
【数字图书馆索引系统】
【挑战索引极限】
【2005年度年终总结】
【知识搜索模型的研究】
当前位置:【 个人简介 】
龚才春,男,湖南益阳人,1978年出生,中国科学院计算技术研究所博士生。龚首席主要从事知识搜索与短文本舆情计算的研究。
开发的主要文本处理工具软件有:
基于双数组的快速中文分词;
大规模词典的近似完美哈希函数;
基于双数组结构的多级编码识别系统;
海量数据的快速查重;
短文本的快速近似去重;
短文本的快速聚类。
幽默短信的识别
龚才春博士开发的软件产品:
火速桌面搜索: Windows下第一款功能强大、界面友好、性能卓越的桌面搜索软件,被太平洋电脑网等多家媒体评为“功能最强大的桌面搜索软件”。
快乐超级搜索: 快乐超级搜索是一款 集桌面搜索、网页搜索、新闻搜索、文档搜索、音乐搜索、软件搜索、论文搜索、国学搜索、词语查询、词典查询、天气查询、列车时刻表查询、航班查询、手机号码归属地查询等功能于一体的综合性桌面元搜索引擎,是目前功能最强大、界面最友好、速度最快的桌面超级搜索软件。快乐超级搜索中的桌面搜索采用 先进的索引技术,索引文件一般不超过20M,却实现了文件内容的全文搜索,索引文件大小只有目前市场上已有商用桌面搜索索引文件的2%。快乐桌面搜索采用Windows资源管理器类似的界面,实现在资源管理器中打开搜索界面,同时记录用户所在的文件夹,实现对搜索结果文件的打开 、删除、复制、剪切、显示属性、压缩等功能。
Crusher: 一款从大规模语料中挖掘频繁模式的软件,能够在几十G、甚至上T的文本中快速发现重复串。Crusher提供了一种语料的完美划分策略,即使语料规模远远大于内存时Crusher同样可以高效查找语料的重复串。同时,Crusher的语料划分策略是一种无损划分策略,不会由于语料划分导致重复串的遗漏。
GSearch: GSearchLinux平台下第一款高效桌面搜索软件。GSearch采用了高效并行硬盘扫描算法,实现Linux下文件系统的高速扫描和索引。GSearch使用高效索引实现文件属性信息的快速搜索,采用高效模式匹配算法实现文本文件内容的搜索,在2006年开源软件竞赛中脱颖而出。

GoldMiner:

是一款从大规模语料挖掘有意义串和特定敏感字符串的软件,能够从几十G、甚至上T的文本中快速发现词典中没有的有意义串和特定敏感字符串,辅助生成领域术语、领域词典,辅助索引词优化,挖掘流行语和语料特征语。

SimFinder: 是一款快速去除大规模短文本语料中的近似冗余文本的软件。SimFinder在指纹的基础上将短文本语料聚为若干可能重叠的簇,从而将冗余短文本限制在簇的范围内。SimFinder还提出短文本语料的重复等价类的概念,进一步对短文本去重过程进行优化。SimFinder的准确率和召回率都很高,而且时间复杂度和空间复杂度接近线性。
CodeFinder: 单条短文本长度短,特征非常稀疏,短文本实时性非常强,数量异常庞大,再加上一般很难获取完整的短文本,导致中文短文本流的编码识别工作异常困难。CodeFinder通过构造一个编码识别专用词典,并对每一个汉字字符和每一个词典词语赋予不同的权值,扫描待识别文本,计算待识别文本在各种可能编码形式下的概率,概率最大的编码形式即视为待识别文本的编码形式。CodeFinder适合短文本的编码识别,对于超过10个汉字的有意义文本几乎都能正确识别其编码形式。
龚才春博士期间参加的项目:
大规模内容计算: 国家重大基础研究973项目,编号2004CB318109,负责索引词分析、词典查找算法、索引性能分析。

面向国家网络与信息内容安全基础设施若干理论与技术的研究

国家重点基础研究发展计划973项目(2007CB311100),负责舆情指标体系系统、舆情热点挖掘、舆情趋势预测的研究

邮件的编码识别与转换: 负责编码识别算法和语种识别算法,算法已经申请专利。
其它信息安全领域项目: 由于安全性问题,在此不便给出。
   
龚才春博士期间申请的专利:
一种汉字字符编码识别方法: 专利申请号:200610171655.0。该编码识别方法不仅可以快速有效的识别常规文本的编码形式,还可以识别文本长度特别短、特征非常稀少、文本可能不完整的短文本流的编码形式。对于常规文本,如网页、txt文件、doc文件等的编码识别比较简单,已经有不少相关研究工作,其识别效果也不错,本专利提到的编码识别方法用来识别这些文本文件的编码形式时几乎不可能出错,而且对于有意义的文本字符串,一般只需要10个汉字即可准确识别文本编码形式。对于那些短文本流,例如从即时通信软件发出的一条即时消息,很可能只截取了该消息的某个片段,本方法即使对这种长度很短、特征稀少、获取不完整的短文本流也能准确识别其编码形式。更详细的描述可以参考本人拟投稿的论文。
一种适用于大规模词典的完美哈希函数构造算法: 专利申请号:200610171640.4。该完美哈希函数主要用于对大规模静态词典构建没有冲突的哈希函数,通过该哈希函数,对于长度为n的输入单词,可以在O(n)的时间复杂度内判断该单词是否属于词典,从而实现词典的快速查找。由于哈希函数不存在冲突,没有两个不同的单词映射到同一个哈希值,因此查找速度特别快。在那些实时性要求很强的应用中可以采用,如编译器中的关键词和预定义标志符的判断、IDE中关键词的着色、编辑器中的拼写检查、搜索引擎的关键词Postlist定位等应用中都可以使用。
专利文献的领域术语抽取方法以及专利搜索辅助系统: 专利申请号:200710121839.0。该方法能够有效提取专利文献中的领域术语。发明人:张华平、黄玉兰、龚才春。

面向互联网的有意串挖掘:

专利申请号:200710120755.5该方法能够有效发现大规模互联网语料的有意义串。张华平、贺敏、黄玉兰、龚才春。
一种短文本的新词发现方法和系统: 专利申请号:200710121877.6该方法能够有效发现短文本中新词,即便该新词在短文本中只出现一次。发明人:龚才春、黄玉兰。
一种新词发现方法和系统: 专利申请号为200710175229.9。该方法既能有效发现语料中频次较高的新词,也能够发现语料中频次不是很高的新词。发明人:龚才春、黄玉兰。
   
龚才春目前已经登记的软件著作权:
Windows文件系统快速索引和快速搜索软件: 软件登记号:2006SR13200【查看】
海量字符串查重和串频统计软件: 软件登记号:2006SR13201【查看】
gsearch桌面搜索软件 软件登记号:2007SR01996【查看】
   
龚才春目前完成的学术论文:
[1] Gong Caichun, Li Yang, Bai Shuo. An Efficient Double-Array Establishing Algorithm Based on Following-set.“21世纪计算机科学与技术”第九届研究生学术研讨会, 青岛,2006.7.
【下载论文】
[2] Gong Caichun,Zhang Huaping, Xu Hongbo, Cheng Xueqi, Bai Shuo. SmoothPerf:A Perfect Hash Function Based on Smoothing Techniques. Journal of Computer Science and Technology. Under review.
【下载论文】
[3] 龚才春,贺敏,张华平,许洪波,程学旗.大规模语料的频繁模式快速发现算法.全国网络与信息安全技术研讨会, 青岛,2007.7
【下载论文】
[4] 龚才春,张华平,许洪波,程学旗,白硕.面向短文本流的快速编码识别算法. In Proceeding of International Conference on Chinese Computing 2007, Wuhan, Nov 2007.
【下载论文】
[5] Gong Caichun,Zhang Huaping, Xu Hongbo,Cheng Xueqi,Bai Shuo.An Efficient Code Recognizing Algorithm for Short Text Streams. ICCC 英文论文集.新加坡中文与东方语言学会信息处理学会出版.
【下载论文】
[6]

Caichun Gong,Yulan Huang,XueqiCheng,Shuo Bai.Detecting Near-Duplicates in Large-Scale Short Text Databases.In

Proceeding of the Pacific-Asia Conference on Knowledge Discovery and Data Mining 2008. Under review.

【下载论文】
[7]

龚才春,黄玉兰,许洪波,白硕.基于多重索引模型的大规模词典近似匹配算法.第三届全国信息检索与内容安全学术会议.苏州,2007.11.

【下载论文】

[8]

龚才春,黄玉兰,许洪波,白硕. 基于多重索引模型的大规模词典近似匹配算法.已推荐到《计算机学报》.

【下载论文】

[9]

黄玉兰,龚才春,许洪波,程学旗. 一种基于有意串挖掘的领域词典生成方法. 第三届全国信息检索与内容安全学生会议.苏州,2007.11.

【下载论文】

[10]

黄玉兰, 龚才春, 许洪波, 程学旗. 一种基于有意串挖掘的领域词典生成方法.已推荐到《中文信息学报》2007年第6.

【下载论文】

[11] 贺敏 龚才春 张华平 程学旗. 一种基于大规模语料的新词发现方法. 计算机工程与应用,2007,43(21):157-159.
【下载论文】
[12] 龚才春,刘荣兴.面向字符识别的快速小形变细化算法.计算机应用与软件,2005, 22(2),88-89.硕士时论文
【下载论文】
[13] 龚才春,刘荣兴. 基于整体特征的快速手写体数字字符识别.计算机工程与应用,2004, 40(19). 82-83. 硕士时论文
【下载论文】
[14] 龚才春,刘荣兴.脱机手写体汉字字符的笔顺信息恢复.山东大学学报理学版,2004, 39(1),73-75. 硕士时论文
【下载论文】
[15] 龚才春,刘荣兴. 基于背景场的手写体数字字符识别方法. 计算机应用与研究,2004, 增刊. 硕士时论文
【下载论文】
   
   
龚才春个人信息网   Email: gongcaichun@gmail.com MSN: gongcaichun@hotmail.com 京ICP备07016545号
Copyright (C) 2007 GONG Caichun, All rights reserved. 未经授权,不得复制、转载、摘要或建立镜像,如有违反,追究法律责任.