主题模型使用经验
时间: 2020-08-21来源:V2EX
前景提要
最近学术圈和工业界都玩变形金刚和注意力都很开心,时不时的还搞个不大不小的新闻。不过说到具体真的用起来,不是所有的 transformer 都能直接应用到所有场合。Topic Models 也有很久了,其实结果很惊艳的。只是大家都去做深度学习,没有太多实用化的推进。之前也看过腾讯内部有改进主题模型,不过那个算是企业内部模型,不开源,接触到的人很少。
前几天发现了一个叫做 TopSBM 的模型,2018 年发表的。将网络分析和主题模型结合在一起,彻底抛去了那个奇怪的 Dirichlet 先验分布,所以拟合出来的主题效果很好。在公司的数据上跑了一下,好到惊艳。下面总结一下自己使用主题模型的经验。 如果不知道主题数,那么用 TopSBM 。 如果知道了主题数,而且知道了每个主题中需要包括哪几个词,用 CorEX,也就是 anchored topic models. 两者结合也是个不错的主意。
虽然说 TopSBM 是一个特别好的模型,但是也是一个主题模型,纯 CPU 计算,数据量一上来就特别特别慢。在大概 11K 文档上跑了接近 9 个小时才跑出来结果。

科技资讯:

科技学院:

科技百科:

科技书籍:

网站大全:

软件大全:

热门排行