Social ScienceSurvey Data Analysis
社会经济调查数据分析
2020年秋季
北京大学国家发展研究院
任课教员:赵耀辉
上课时间、地点:周六:2-4节,9:00-12:00, 理教206;线上同步直播
答疑时间:每周五16:00-17:00,国发院504
助教:蒋昊、毕汝岱、牟泓禹等
学分:3
课程介绍
本课是为以优良成绩完成中国健康与养老追踪调查田野访问的同学开设。通过培训课程和实地调研,学生们已经熟悉了调查数据收集的过程,获得了关于老百姓如何生活、工作、如何与家人和社会交往的一手材料。本课将教会学生如何利用这些数据开展研究工作、撰写研究论文。具体来说,学生将学习如何使用Stata统计软件处理数据,如何制作描述性的统计表格,如何进行比较复杂的统计分析,以及如何使用数据写作规范的研究论文。
本课基于一个理念,即研究论文的写作是一个可以分解的过程,本课课程的安排就是遵循了研究的过程,循序渐进,这就要求同学们紧密跟随课程的步骤,每周完成布置的作业,这样到期末的时候学期论文将水到渠成。本课安排紧凑,如果不紧跟课程进度,你会跟不上。所以,如果你没有足够的时间投入,建议不要选课。
如果你已经学过中级计量经济学,本课的统计部分会相对容易,否则需要同时选修中级计量经济学(推荐使用伍德里奇教材的课程),或者自学,也可以等明年再修本课。
本课成绩比例为:作业60%,期末论文40%。
阅读材料:
JefferyWooldridge, Introductory Econometrics: A Modern Approach. 特别是最后一章“Carryingout an empirical project.”
Joshua Angrist, Mastering ‘Metrics,Princeton University Press
Joshua Angrist and Jorn-SteffenPischke, Mostly Harmless Econometrics: An Empiricist's Companion
网络资源:
https://www.masteringmetrics.com/
Marginal Revolution Universityhttps://mru.org/
课程安排(初步版,可能根据情况进行调整):
课次 | 时间 | 题目 |
1 | 9月26日 | 课程介绍;什么是研究;如何选题;研究程序/论文构成;如何查文献;注册下载CHARLS |
| | 作业1:(1)选取研究题目,按照研究论文的格式,用MS Word文档搭建文章架构,包括题目作者页、摘要页、文献页,各个部分的标题(介绍、文献、理论框架/假说、数据介绍、模型、回归结果、总结、文献、图表);(2)写论文的“介绍”部分;(3)选取对你研究有帮助的文献,在“文献”部分进行介绍,文献列表放在“参考文献”部分;(4)在“数据介绍”部分,写一段介绍CHARLS调查的文字,(5)提交论文。 |
2 | 10月10日 | 如何组织文档;如何组织stata codes;stata基本操作;CHARLS数据库介绍; 数据库合并:保留研究所用数据和变量;数据库改变形状 |
| | 作业2:(1)做一个表格,描述CHARLS所有数据库的特征(变量数量、观测值数量);(2)生成一个只包含你研究所需要变量的数据库,并且在“数据介绍”部分描述数据库。(3)提交论文。 |
3 | 10月17日 | 变量分类;变量描述(histogram;pie charts;描述性统计);数据清理:如何识别、处理outlier;重新构造变量:变量重新分类;连续变量变分类变量;高阶变量构造 |
| | 作业3:(1)清理、构造你研究所需要的变量;做一个统计描述表格,写一段文字来描述样本的基本统计特征(年龄、性别、教育、城乡分布等基本情况),放入“数据介绍”部分;(2)作图详细描述你研究中的关键变量(Y)的分布特征,写一段文字进行描述;(3)重新提交论文。 |
4 | 10月24日 | 研究要素:理论假说;讨论研究计划 |
5 | 10月31日 | 描述两个连续变量之间的关系:scatter plots,lowess graphs;相关系数表。制作二维表格表示分类变量之间的关系,或者分类变量与连续变量之间的关系; 描述三个变量之间的关系:画图;制作三维表格 |
| | 作业4:(1)定义你的关键原因变量(X),并且提出你的理论假说(放入“理论框架”部分);(2)用图和(或者)表格描述Y和重要X变量的相关关系,如有必要做三维图形或者表格,把发现的关系写入论文(可以进入理论假说部分);(3)提交修改过的研究论文。【如果题目有变动,补充在新题目下的所有内容。】 |
6 | 11月7日 | 检验假说:组间均值、分布是否相同; 最小二乘法回归基础 - 单变量回归:基础概念、假说检验 |
| | 作业5:(1)根据研究需要,对你的关键X变量(如性别)分组,检验Y变量和其它X变量是否相同,文字补充进论文中(根据需要放入数据介绍或者理论假说部分);(2) 做单变量回归,解释回归结果,解释回归报告中各个数字的含义(暂且放入回归结果部分,下次课用新内容替代);(3)重新提交论文。 |
7 | 11月14日 | 最小二乘法回归基础 - 多变量回归:系数的含义,分类变量用法,交叉项用法和含义; 如何写论文?如何引用文献?如何写文章的介绍、总结、摘要; 学习Note Express |
| | 作业6:(1)在论文中的“模型设定”部分,写下你的回归模型的数学表达式,写一段文字描述每个变量的含义和定义;(2)在数据介绍部分加入(或者替换)回归中所有变量的描述表格;(3)在“回归结果”部分写一段文字描述你的研究结果,介绍所有变量的系数的具体数值及其含义;(4)用endnotes重新组织文献;(5)重新提交论文。 |
8 | 11月21日 | 缺失变量的识别和处理:数据库制作过程表 回归模型变种:probit,ordered probit,mlogit, Tobit, duration model |
| | 作业7:(1)制作与你研究相关的研究样本的生成过程表,impute除关键X变量以外的控制变量,并且在“数据介绍”部分详细描述此过程;(2)在此基础上更新所有部分的图表和文字;修改描写数据、回归结果的文字;(3)仔细阅读一篇与你研究最相关的论文,注意样本论文写作方法,做成详细PPT,在课题小组中报告。(4)根据研习的结果,重新format并且提交论文。 |
9 | 11月28日 | 判别作用渠道– 分步加入渠道变量; 解释回归结果:什么是因果关系?处理内生性的方法概述:IV;DID |
| | 作业8:(1)如果更换了回归模型,更新回归表格;(2)如果适用,在你的研究中加入渠道变量,并且写一段文字进行表述(如有必要可以加一个“影响渠道”部分);(3) 修改论文中关于因果关系的表述;(4)查找你的研究结果与文献中的发现有什么异同,在回归结果的相应部分进行讨论;(5)在研究结果的基础上改写论文的介绍、文献、结论部分;(6)重新写摘要;(7)重新提交论文;(7) 准备好2013年数据下次课用。 |
10 | 12月5日 | Panel data处理介绍;权重的概念,统计量加权 |
| | 作业9:(1)将你的描述性统计表格做加权处理;(2)更新论文 |
11 | 12月12日 | 如何自动生成表格?如何组织研究结果?开始安排分组报告论文;老师点评 |
| | 作业10:(1)用自动生成excel表格的办法重新跑程序;(2)提交自动生成的excel表格、stata codes。(3)重新提交图表格式正确的论文,图表统一放在论文最后。 |
12-14 | 12月19、26日、1月2、9 | 分组报告论文;老师点评 |
| | 1月15日交期末论文 |