DiVoMiner® 使用手册

  1. 主页
  2. 文档
  3. DiVoMiner® 使用手册
  4. 算法挖掘
  5. 主题模型(LDA)

主题模型(LDA)

(一)模型介绍

LDA(Latent Dirichlet Allocation,隐含狄利克雷分布)是一个三层的贝叶斯模型(文档集层、主题层、特征词层),每层均有相应的随机变量或参数控制。其基本思想是文本由隐含的主题随机混合生成,每个主题对应特定的特征词分布。LDA模型假设所有文档存在多个隐含主题,要生成一篇文档,首先生成该文档的一个主题分布,然后再生成词的集合;要生成一个词,需要根据文档的主题分布随机选择一个主题,然后根据主题中的词的分布随机选择一个词,重复这个过程直至生成文档。通过寻找分布参数从而确定最终主题分布。

(二)研发依据

[1] 华南理工大学,广东省新媒体与品牌传播创新应用重点实验室.基于LDA的“一带一路”国家品牌形象传播与主题模型计算的实证研究.2017.
[2] Jason Hou-Liu.Benchmarking and Improving Recovery of Number of Topics in Latent Dirichlet Allocation Models.2018,4.

(三)算法说明

由文档、主题、单词组成的三层贝叶斯生成模型,每篇文档由服从多项式分布的主题组成,每个主题由服从多项式分布的词项组成。

(四)适用场景

(1) 整体概览文本的主题,适合文本主题分类。
(2) 相似文档发现,结合回归分析做内容推荐,话题排名。

这篇文章对您有用吗? 4 2

我们要如何帮助您?