【龚才春个人信息网2007年06月13日消息】计算所办事真是神速,我的两项专利已经公布了。两项专利分别为【一种构造用于处理大规模词典的完美哈希函数的方法】,另外一个是【一种识别中文文本编码形式的方法】,专利
申请号分别为200610171640.4 和 200610171655.0 。
该完美哈希函数主要用于对大规模静态词典构建没有冲突的哈希函数,通过该哈希函数,对于长度为n的输入单词,可以在O(n)的时间复杂度内判断该单词是否属于词典,从而实现词典的快速查找。由于哈希函数不存在冲突,没有两个不同的单词映射到同一个哈希值,因此查找速度特别快。在那些实时性要求很强的应用中可以采用,如编译器中的关键词和预定义标志符的判断、IDE中关键词的着色、编辑器中的拼写检查、搜索引擎的关键词Postlist定位等应用中都可以使用。
该编码识别方法不仅可以快速有效的识别常规文本的编码形式,还可以识别文本长度特别短、特征非常稀少、文本可能不完整的短文本流的编码形式。对于常规文本,如网页、txt文件、doc文件等的编码识别比较简单,已经有不少相关研究工作,其识别效果也不错,本专利提到的编码识别方法用来识别这些文本文件的编码形式时几乎不可能出错,而且对于有意义的文本字符串,一般只需要10个汉字即可准确识别文本编码形式。对于那些短文本流,例如从即时通信软件发出的一条即时消息,很可能只截取了该消息的某个片段,本方法即使对这种长度很短、特征稀少、获取不完整的短文本流也能准确识别其编码形式。更详细的描述可以参考本人拟投稿的论文。
龚才春个人信息网报导(2007.06.13)
|