|
|
当前位置:【首席简介
】 |
 |
| 龚才春,男,湖南益阳人,1978年出生,中国科学院计算技术研究所博士生
,承蒙实验室师弟师妹看得起,赐予我“计算所首席博士”的称谓,这就是龚首席的来由。龚首席主要从事知识搜索与短文本舆情计算的研究。 |
| 龚首席开发的主要文本处理工具软件有: |
| 基于双数组的快速中文分词; |
| 大规模词典的近似完美哈希函数; |
| 基于双数组结构的多级编码识别系统; |
| 海量数据的快速查重; |
| 短文本的快速近似去重; |
| 短文本的快速聚类。 |
|
|
龚才春博士开发的软件产品: |
|
火速桌面搜索: |
Windows下第一款功能强大、界面友好、性能卓越的桌面搜索软件,被太平洋电脑网等多家媒体评为“功能最强大的桌面搜索软件”。 |
|
快乐超级搜索: |
快乐超级搜索是一款
集桌面搜索、网页搜索、新闻搜索、文档搜索、音乐搜索、软件搜索、论文搜索、国学搜索、词语查询、词典查询、天气查询、列车时刻表查询、航班查询、手机号码归属地查询等功能于一体的综合性桌面元搜索引擎,是目前功能最强大、界面最友好、速度最快的桌面超级搜索软件。快乐超级搜索中的桌面搜索采用
先进的索引技术,索引文件一般不超过20M,却实现了文件内容的全文搜索,索引文件大小只有目前市场上已有商用桌面搜索索引文件的2%。快乐桌面搜索采用Windows资源管理器类似的界面,实现在资源管理器中打开搜索界面,同时记录用户所在的文件夹,实现对搜索结果文件的打开
、删除、复制、剪切、显示属性、压缩等功能。 |
|
Crusher: |
一款从大规模语料中挖掘频繁模式的软件,能够在几十G、甚至上T的文本中快速发现重复串。Crusher提供了一种语料的完美划分策略,即使语料规模远远大于内存时Crusher同样可以高效查找语料的重复串。同时,Crusher的语料划分策略是一种无损划分策略,不会由于语料划分导致重复串的遗漏。 |
|
GSearch: |
GSearch是Linux平台下第一款高效桌面搜索软件。GSearch采用了高效并行硬盘扫描算法,实现Linux下文件系统的高速扫描和索引。GSearch使用高效索引实现文件属性信息的快速搜索,采用高效模式匹配算法实现文本文件内容的搜索,在2006年开源软件竞赛中脱颖而出。 |
|
GoldMiner: |
是一款从大规模语料挖掘有意义串和特定敏感字符串的软件,能够从几十G、甚至上T的文本中快速发现词典中没有的有意义串和特定敏感字符串,辅助生成领域术语、领域词典,辅助索引词优化,挖掘流行语和语料特征语。 |
|
SameFinder: |
SameFinder完成对用户给定的文件中的字符串的快速查重,并对各字符串统计频次。软件能够根据系统的硬件配置自动调整相关参数,提高查重速度。软件允许用户指定字符串分隔符,并提供了对处理结果按照出现频次排序的功能。对我们采集的1200万条短文本的处理结果表明,完成1200万条短文本的去重和文本频次统计耗时只需44秒。 |
|
CodeFinder: |
本人申请的编码识别专利在项目中的具体实施,本软件正在工程编码阶段,前期的研究实验表明,对从各主流论坛站点采集了大陆地区和港澳台地区的BBS标题共计500万条,145M字节,平均每个标题不到15个字符。采用该发明提到的编码识别方法,识别500万短文本的编码共耗时不到16秒,所有文本都能正确识别其编码。其中99.93%的待识别文本能在分词阶段识别编码,90%待识别文本能用不到5个字符识别其编码,对超过10个汉字的有意义文本几乎都能在分词阶段正确识别其编码形式。 |
|
|
龚才春博士期间参加的项目: |
|
大规模内容计算: |
国家重大基础研究973项目,编号2004CB318109,负责索引词分析、词典查找算法、索引性能分析。 |
|
境内特定信息搜索系统: |
系统获国家科技进步一等奖,独立完成ftp搜索部分和数据库管理部分。 |
|
索引词分析: |
计算所知识创新工程,编号200056550,完成大规模因特网基础语料建设和候选索引词提取。 |
|
邮件的编码识别与转换: |
负责编码识别算法和语种识别算法,算法已经申请专利。 |
|
其它信息安全领域涉密项目: |
若干其它高密级的国家重大项目,负责项目申请书的书写、需求分析说明书的写作、总体设计说明书的写作、答辩PPT的制作等。 |
| |
|
|
|
龚才春博士期间申请的专利: |
|
一种汉字字符编码识别方法: |
一种快速高效编码识别算法,正在审批中,90%以上的文本可以用不到5个字符就能识别其编码形式,对超过10
个汉字的有意义文本几乎都能正确识别其编码形式 |
|
一种适用于大规模词典的完美哈希函数构造算法: |
一种基于平滑的哈希函数构造算法
,能够对上百万单词的静态词典快速构建完美哈希函数,哈希函数工作空间小,计算简单,速度很快。 |
| |
|
|
|
龚才春目前已经登记的软件著作权: |
|
Windows文件系统快速索引和快速搜索软件: |
软件登记号:2006SR13200 |
|
海量字符串查重和串频统计软件: |
软件登记号:2006SR13201 |
|
gsearch桌面搜索软件 |
软件登记号:2007SR01996 |
| |
|
|
|
龚才春目前完成的学术论文: |
|
An
Efficient Double-Array Establishing Algorithm Based on
Following-set |
“21世纪计算机科学与技术”第九届研究生学术研讨会,已发表。 |
|
SmoothPerf:A
Perfect Hash Function Based on Smoothing Techniques |
SIGMOD被拒,唉,继续投稿中... |
|
大规模语料的频繁模式快速发现算法 |
全国网络与信息安全技术研讨会,审稿中。 |
|
面向字符识别的快速小形变细化算法 |
计算机应用与软件,硕士时论文 |
|
基于整体特征的快速手写体数字字符识别 |
计算机工程与应用,硕士时论文 |
|
脱机手写体汉字字符的笔顺信息恢复 |
山东大学学报理学版,硕士时论文 |
|
基于背景场的手写体数字字符识别方法 |
计算机应用与研究,硕士时论文 |
| |
|
| |
|
|