首   页 首席简介 快乐搜索 产品下载 产品论坛 网络日志  首席风采 合作推广 网站地图
精彩推荐
快乐超级搜索
火速桌面搜索
GSearch
Crusher
GoldMiner
SameFinder
CodeFinder
 
首席精彩报告:
【FTP检索】
【短文本动态话题检测】
【浅入深出关联挖掘】
【数字图书馆索引系统】
【挑战索引极限】
【2005年度年终总结】
【知识搜索模型的研究】
当前位置:【首席简介 】
龚才春,男,湖南益阳人,1978年出生,中国科学院计算技术研究所博士生 ,承蒙实验室师弟师妹看得起,赐予我“计算所首席博士”的称谓,这就是龚首席的来由。龚首席主要从事知识搜索与短文本舆情计算的研究。
龚首席开发的主要文本处理工具软件有:
基于双数组的快速中文分词;
大规模词典的近似完美哈希函数;
基于双数组结构的多级编码识别系统;
海量数据的快速查重;
短文本的快速近似去重;
短文本的快速聚类。
龚才春博士开发的软件产品:
火速桌面搜索: Windows下第一款功能强大、界面友好、性能卓越的桌面搜索软件,被太平洋电脑网等多家媒体评为“功能最强大的桌面搜索软件”。
快乐超级搜索: 快乐超级搜索是一款 集桌面搜索、网页搜索、新闻搜索、文档搜索、音乐搜索、软件搜索、论文搜索、国学搜索、词语查询、词典查询、天气查询、列车时刻表查询、航班查询、手机号码归属地查询等功能于一体的综合性桌面元搜索引擎,是目前功能最强大、界面最友好、速度最快的桌面超级搜索软件。快乐超级搜索中的桌面搜索采用 先进的索引技术,索引文件一般不超过20M,却实现了文件内容的全文搜索,索引文件大小只有目前市场上已有商用桌面搜索索引文件的2%。快乐桌面搜索采用Windows资源管理器类似的界面,实现在资源管理器中打开搜索界面,同时记录用户所在的文件夹,实现对搜索结果文件的打开 、删除、复制、剪切、显示属性、压缩等功能。
Crusher: 一款从大规模语料中挖掘频繁模式的软件,能够在几十G、甚至上T的文本中快速发现重复串。Crusher提供了一种语料的完美划分策略,即使语料规模远远大于内存时Crusher同样可以高效查找语料的重复串。同时,Crusher的语料划分策略是一种无损划分策略,不会由于语料划分导致重复串的遗漏。
GSearch: GSearchLinux平台下第一款高效桌面搜索软件。GSearch采用了高效并行硬盘扫描算法,实现Linux下文件系统的高速扫描和索引。GSearch使用高效索引实现文件属性信息的快速搜索,采用高效模式匹配算法实现文本文件内容的搜索,在2006年开源软件竞赛中脱颖而出。
GoldMiner: 是一款从大规模语料挖掘有意义串和特定敏感字符串的软件,能够从几十G、甚至上T的文本中快速发现词典中没有的有意义串和特定敏感字符串,辅助生成领域术语、领域词典,辅助索引词优化,挖掘流行语和语料特征语。
SameFinder: SameFinder完成对用户给定的文件中的字符串的快速查重,并对各字符串统计频次。软件能够根据系统的硬件配置自动调整相关参数,提高查重速度。软件允许用户指定字符串分隔符,并提供了对处理结果按照出现频次排序的功能。对我们采集的1200万条短文本的处理结果表明,完成1200万条短文本的去重和文本频次统计耗时只需44秒。
CodeFinder: 本人申请的编码识别专利在项目中的具体实施,本软件正在工程编码阶段,前期的研究实验表明,对从各主流论坛站点采集了大陆地区和港澳台地区的BBS标题共计500万条,145M字节,平均每个标题不到15个字符。采用该发明提到的编码识别方法,识别500万短文本的编码共耗时不到16秒,所有文本都能正确识别其编码。其中99.93%的待识别文本能在分词阶段识别编码,90%待识别文本能用不到5个字符识别其编码,对超过10个汉字的有意义文本几乎都能在分词阶段正确识别其编码形式。
龚才春博士期间参加的项目:
大规模内容计算: 国家重大基础研究973项目,编号2004CB318109,负责索引词分析、词典查找算法、索引性能分析。
境内特定信息搜索系统: 系统获国家科技进步一等奖,独立完成ftp搜索部分和数据库管理部分。
索引词分析: 计算所知识创新工程,编号200056550,完成大规模因特网基础语料建设和候选索引词提取。
邮件的编码识别与转换: 负责编码识别算法和语种识别算法,算法已经申请专利。
其它信息安全领域涉密项目: 若干其它高密级的国家重大项目,负责项目申请书的书写、需求分析说明书的写作、总体设计说明书的写作、答辩PPT的制作等。
   
龚才春博士期间申请的专利:
一种汉字字符编码识别方法: 一种快速高效编码识别算法,正在审批中,90%以上的文本可以用不到5个字符就能识别其编码形式,对超过10 个汉字的有意义文本几乎都能正确识别其编码形式
一种适用于大规模词典的完美哈希函数构造算法: 一种基于平滑的哈希函数构造算法 ,能够对上百万单词的静态词典快速构建完美哈希函数,哈希函数工作空间小,计算简单,速度很快。
   
龚才春目前已经登记的软件著作权:
Windows文件系统快速索引和快速搜索软件: 软件登记号:2006SR13200
海量字符串查重和串频统计软件: 软件登记号:2006SR13201
gsearch桌面搜索软件 软件登记号:2007SR01996
   
龚才春目前完成的学术论文:
An Efficient Double-Array Establishing Algorithm Based on Following-set “21世纪计算机科学与技术”第九届研究生学术研讨会,已发表。
SmoothPerf:A Perfect Hash Function Based on Smoothing Techniques SIGMOD被拒,唉,继续投稿中...
大规模语料的频繁模式快速发现算法 全国网络与信息安全技术研讨会,审稿中。
面向字符识别的快速小形变细化算法 计算机应用与软件,硕士时论文
基于整体特征的快速手写体数字字符识别 计算机工程与应用,硕士时论文
脱机手写体汉字字符的笔顺信息恢复 山东大学学报理学版,硕士时论文
基于背景场的手写体数字字符识别方法 计算机应用与研究,硕士时论文
   
   
龚才春个人信息网    Email:gongcaichun@gmail.com      MSN: gongcaichun@hotmail.com
Copyright (C) 2007 GONG Caichun, All rights reserved. 未经授权,不得复制、转载、摘要或建立镜像,如有违反,追究法律责任.