在上一个帖子已经获得并处理好了相当的文本数据。接下来将开始进行文本分析。
笔者将使用LDA(Latent Dirichlet Allocation,狄利克雷分布)主题模型方法进行文本建模,运用无监督学习的方式对文档聚类、判断文本主题,最后观点提取;同时,运用Gibbs抽样算法可以得出文本内容和主题观点之间的概率分布关系
用人话说,就是机器学习不断迭代,自动划分出文本的主题,从而形成文本之间的观点。
笔者将希望划分不同时段下评论区的不同主题。时段的划分可见上个帖子最后一段
首先,需要将重复的文本进行删除,各自时段的“独特的”评论数如图所示![](http://tiebapic.baidu.com/forum/w%3D580/sign=7ae94fd88d95d143da76e42b43f18296/d7e2a1fb513d269761a0ab8610fbb2fb4216d88e.jpg?tbpicau=2025-02-28-05_01c6e7860a59504b19271a81e28f6e01)
笔者将使用LDA(Latent Dirichlet Allocation,狄利克雷分布)主题模型方法进行文本建模,运用无监督学习的方式对文档聚类、判断文本主题,最后观点提取;同时,运用Gibbs抽样算法可以得出文本内容和主题观点之间的概率分布关系
用人话说,就是机器学习不断迭代,自动划分出文本的主题,从而形成文本之间的观点。
笔者将希望划分不同时段下评论区的不同主题。时段的划分可见上个帖子最后一段
首先,需要将重复的文本进行删除,各自时段的“独特的”评论数如图所示
![](http://tiebapic.baidu.com/forum/w%3D580/sign=7ae94fd88d95d143da76e42b43f18296/d7e2a1fb513d269761a0ab8610fbb2fb4216d88e.jpg?tbpicau=2025-02-28-05_01c6e7860a59504b19271a81e28f6e01)