4soul吧 关注:35,070贴子:3,524,025

对510官号评论区进行统计和文本分析(下)

只看楼主收藏回复

在上一个帖子已经获得并处理好了相当的文本数据。接下来将开始进行文本分析。
笔者将使用LDA(Latent Dirichlet Allocation,狄利克雷分布)主题模型方法进行文本建模,运用无监督学习的方式对文档聚类、判断文本主题,最后观点提取;同时,运用Gibbs抽样算法可以得出文本内容和主题观点之间的概率分布关系
用人话说,就是机器学习不断迭代,自动划分出文本的主题,从而形成文本之间的观点。
笔者将希望划分不同时段下评论区的不同主题。时段的划分可见上个帖子最后一段
首先,需要将重复的文本进行删除,各自时段的“独特的”评论数如图所示


IP属地:广东来自iPhone客户端1楼2022-07-24 11:56回复
    随后,在使用LDA模型进行文本分析前,首先要将每一文本划分成为有意义的单词,由于语言逻辑,英语已经自动划分为各个单词。但是中文是文字自动连接成为语句,为了进行分词工作,本研究采用了Python语言中的“jieba”中文分词组件,并加入部分自定义词典以提高相应文本的分词准确度,自定义词典如图所示和相应命令


    IP属地:广东来自iPhone客户端2楼2022-07-24 11:57
    回复
      分词前和分词后的结果如图所示


      IP属地:广东来自iPhone客户端4楼2022-07-24 11:59
      回复
        dd


        IP属地:四川来自iPhone客户端5楼2022-07-24 12:04
        回复
          快进到结论


          IP属地:湖南来自Android客户端6楼2022-07-24 12:05
          回复
            👀


            IP属地:贵州来自Android客户端7楼2022-07-24 12:05
            回复
              呃呃版本回溯了


              IP属地:北京来自Android客户端8楼2022-07-24 12:05
              回复
                👁️👁️


                来自Android客户端9楼2022-07-24 12:06
                回复
                  我现在更好奇eoe的官号下面评论


                  IP属地:广东来自Android客户端10楼2022-07-24 12:06
                  回复
                    随后,对文本的内容进行再处理


                    IP属地:广东来自iPhone客户端11楼2022-07-24 12:09
                    回复
                      然后选择时段,并设定停用词(机器在跑的时候忽略这些词),就可以开始进行机器学习文本建模了
                      停用词库选择哈工大停用词库,且笔者加上了一部分语气助词,介词和连接词
                      建模的时间比较久,要等一会儿才有结果


                      IP属地:广东来自iPhone客户端12楼2022-07-24 12:12
                      回复
                        高技术力啊


                        IP属地:北京来自Android客户端13楼2022-07-24 12:15
                        回复
                          这就那你的帖子水周报


                          IP属地:江西来自Android客户端14楼2022-07-24 12:15
                          收起回复
                            得出结果前先对模型的设置加以说明
                            本研究将对文本分别分时段建立LDA模型,每一时段的文本将通过模型划分为10个主题,其中,Gibbs采样将在500次循环后终止迭代,超参数α取值为0.25,超参数β取值为0.1,Gibbs抽样算法所得出的“文本——主题”概率分布和“词语——主题”概率分布标准化为0-1的区间的数值。由于这一模型只能得出主题及其概率,但是主题的意义需要人为分析得出。
                            用人话说,就是机器会自动得出十个主题和各个文本在这个主题里面的分布概率,需要各位自己通过这些结果总结这个主题的意义是什么


                            IP属地:广东来自iPhone客户端15楼2022-07-24 12:17
                            回复
                              dd


                              IP属地:北京来自Android客户端16楼2022-07-24 12:18
                              回复