足球论坛

注册

 

发新话题 回复该主题

课程预告定量俱乐部社会科学中的文本 [复制链接]

1#

一、课程时间

日期

年4月27日(周三)

时间

19:00-21:00

二、课程地点

线下

公管教室

线上

雨课堂扫码进入班级

三、课程主题

生成文本主题——主题模型之LDA(I)

?

课程概览

清华定量俱乐部社会科学中的文本分析与机器学习应用由清华大学学生学习与发展指导中心、清华大学公共管理学院党委研究生工作组和清华大学计算社会科学与国家治理实验室共同支持。课程涉及基础原理讲解、代码复制、顶级期刊学术论文复现和品鉴。本讲是系列课程的第七讲,将介绍广泛使用的LDA主题模型,分为实现与应用两个部分。实现部分包含LDA系列模型的原理,并将以应用为导向详细介绍使用主题模型完成文本分析的流程和代码细节。应用部分涵盖主题模型结果解读、与理论研究的结合方法等内容讲解,并将针对模型优化这一难点提出解决思路,达到更好完成文本主题生成任务的效果。

?

课程提要

假设有一组文本文档需要提取主题,但由于数量过多无法全部阅读,LDA主题模型是完成这一任务的合适方法。

本讲承接前期课程的内容,讲解如何利用主题模型完成文本主题生成任务,主要是针对广泛使用的主题模型——隐含狄利克雷分布(LatentDirichletAllocation,LDA)模型进行介绍。课程前半部分重在阐明主题模型的原理和最基本的代码实现,将首先介绍隐语义模型的发展脉络并解释LDA可以从海量文本中提取主题的原理,接下来将用最精简的代码来介绍使用LDA主题模型进行文本分析的数据格式与一般流程。后半部分重在阐明实际应用,包括主题模型结果的基本解读,结果在数据挖掘、因果推论两种研究方向上的应用,如何通过研究设计与其他机器学习算法相结合等。最后围绕模型优化这一应用难点,通过实际研究案例分享在最优主题数选取、参数调优等方面的经验,分析困惑度、一致性等评价指标的原理与解读方法。

整个课程注重实践和操作,兼顾基本原理讲解,并将结合具体文献介绍、分析、复现其实现过程。通过理论与实践一体化的课程设计,帮助实现对LDA主题模型“读懂、跑通、会改”目标。

?

参考文献

[1]BleiDM,NgAY,JordanMI.LatentDirichletallocation.JournalofMachineLearningResearch[J],3:-.

四、主讲人介绍

车尚锟

清华大学经济管理学院级博士生

研究兴趣:信息系统(讲解理论部分)

许乾威

清华大学公共管理学院级研究生

研究兴趣:政策智能与政策信息学

(讲解实践部分)

关于我们

“清华定量俱乐部”是由清华大学学生学习与发展指导中心、清华大学公共管理学院党委研究生工作组和清华大学计算社会科学与国家治理实验室共同发起,对标世界一流大学的学业支撑体系,旨在提升清华同学们定量操作水平,营造朋辈互助、教学相长的良好氛围,打造专业性、特色性、持续化的学术交流与学业发展品牌,为清华师生搭建了一个定量研究方法学习交流平台。

排版

柯宇萱

审核

陈思丞雷渌瑨

熊剑亮郑旭扬

预览时标签不可点收录于合集#个上一篇下一篇
分享 转发
TOP
发新话题 回复该主题