对关键字提取有什么好的准确的算法?
时间: 2019-03-21来源:博客园
前景提要
对关键字提取有什么好的准确的算法?
0 [待解决问题] 有没有大佬知道对一段文本关键字进行提取的比较好的算法,很多算法可以说极其不准确,就是那种可以提取隐形关键字那种,比如下面这段话,好歹也得把智能家居提取出来啊:
智能家居主要采用安全防范、网络通信、 自动控制等先进技术,基于住宅平台,集成了人们的家居生活有关的设施,从而构建智能的住宅设施与家庭事务结合的管理系统,全面提升了家居安全性、舒适性、艺术性和便利性,打造一个环保节能的居住环境。
我试了很多算法jieba、hanlp、textrank4zh、tfidf等等吧,提取都非常不准确,求解!!! 小程大序的猿 | 初学一级 | 园豆: 7
提问于:2019-03-21 16:40 显示帮助
使用"Ctrl+Enter"可进行快捷提交,评论支持部分 Markdown 语法:[link](http://example.com) _italic_ **bold** `code`。
< > 分享
分享您的问题
所有回答(2) 0 这种分词程序的原理是什么,是不是根据词典库来分词的,那你把“智能家居”加入词典是不是就可以了 会长 | 园豆:8408 (大侠五级) | 2019-03-21 17:00 那你有没有想过我要是对很长的文档进行分词 关键字的提取 很麻烦的 支持( 0 ) 反对( 0 ) 小程大序的猿 | 园豆:7 (初学一级) | 2019-03-21 17:01 @小程大序的猿: 好的 支持( 0 ) 反对( 0 ) 会长 | 园豆:8408 (大侠五级) | 2019-03-21 17:03 编辑文本 预览 上传图片
Ctrl+Enter键快速提交 2 首先 jieba , hanlp 和 textRank , tfidf
前者和后者不是同一层面的东西,后者是基于前者。前者是分词算法,而后者是关键词权重计算或者提取的算法。
你要明确自己是的问题,是正确分词,还是提取关键词?
如果你用分词算法无法把 智能家居 切分出来,只能切分成 智能 和 家居 ,但是你依然可以用关键词提取算法将 智能 和 家居 都提取出来。这样效果是一样的啊。
所以使用好的分词算法+好的关键词提取算法,绝对可以满足你的绝大部分需求。
另外,JIEba分词有三种模式,你都试过了吗? 关键词提取算法,除了 TextRank , TFIDF ,还有 LDA模型 , .主成成分分析(PCA) , 卡方检验 你都试了吗?
关键词提取是个很难的过程。所以要耐心尝试。 Shendu.CC | 园豆:1914 (小虾三级) | 2019-03-21 17:21 很详细 嗯我会慢慢来的 支持( 0 ) 反对( 0 ) 小程大序的猿 | 园豆:7 (初学一级) | 2019-03-21 17:23 哇 膜拜大神! 支持( 0 ) 反对( 0 ) 古宇 | 园豆:276 (菜鸟二级) | 2019-03-21 18:29 编辑文本 预览 上传图片
Ctrl+Enter键快速提交
清除回答草稿
您需要 登录 以后才能回答,未注册用户请先 注册 。

科技资讯:

科技学院:

科技百科:

科技书籍:

网站大全:

软件大全:

热门排行