2019年8月17-19日 机器学习及Stata、R应用研讨会-陈强 >>
主讲老师:陈强
上午:09:00-12:00
下午:14:00-17:00
培训费用:3600元(食宿差旅自理)
培训地点:上海财经大学
课程概要
近年来人工智能迅速进入大众视野,并在全球范围内迎来了行业的快速发育期。机器学习作为人工智能的组成部分,无疑是人工智能科学研究和应用领域的重要驱动力,将带来一系列传统决策机制的根本性变革,势必推动社会科学研究范式的重大转型。 机器学习最基本的做法,是使用算法来解析数据、从中学习,然后对真实世界中的事件做出决策和预测。与传统的为解决特定任务、硬编码的软件程序不同,机器学习是用大量的数据来“训练”,通过各种算法从数据中学习如何完成任务。
本课程主要介绍机器学习的基本思想与算法,并结合具体案例,介绍Stata和R语言实践操作。全程采用Stata16最新版本演示。
第一天
第一讲
机器学习引论
(1) 什么是机器学习
(2) 机器学习的分类与术语
(3) 案例:垃圾邮件过滤;手写体数字识别;图像识别;自动驾驶
第二讲
惩罚回归
(1) OLS
(2) Ridge Regression
(3) Lasso
(4) Elastic Net
(5) 交叉验证 (Cross-validation)
(6) Post Double Lasso and IV Lasso
(7) Stata案例
第三讲
线性分类
(1) Logit
(2) 多项Logit
(3) 贝叶斯决策理论
(4) 线性判别分析
(5) 二次判别分析
(6) ROC/AUC
(7) Stata案例
第四讲
R语言快速入门
(1) Why R?
(2) 安装R与RStudio
(3) R的对象(vector, matrix, data frame, list)
(4) 面向对象的函数式语言
(5) R语言画图
课程答疑
第二天
第五讲
朴素贝叶斯
(1) 朴素贝叶斯
(2) 拉普拉斯修正
(3) R案例
第六讲
K近邻法
(1) KNN for Regression
(2) KNN for Classification
(3) 偏差与方差的权衡
(4) 维度灾难
(5) R案例
第七讲
决策树(Decision Tree)
(1) 分类树
(2) 分裂准则(错分率、基尼指数、信息熵)
(3) 修枝与交叉验证
(4) 回归树
(5) R案例
第八讲
装袋法与随机森林
(1) 集成学习(Ensemble Learning)
(2) 装袋法(Bagging)
(3) 随机森林(Random Forest)
(4) 变量重要性(Variable Importance)
(5) 偏依赖图(Partial Dependence Plot)
(6) R案例
课程答疑
第三天
第九讲
提升法
(1) 自适应提升法 (AdaBoost)
(2) AdaBoost的统计解释
(3) 梯度提升法 (Gradient Boosting Machine)
(4) R案例
第十讲
支持向量机
(1) Maximal Margin Classifier
(2) Soft Margin
(3) Support Vector Machine
(4) Kernel Trick
(5) R案例
第十一讲
人工神经网络
(1) 前馈神经网络
(2) 反向传播算法(Back-propagation Algorithm)
(3) 随机梯度下降(Stochastic Gradient Descent)
(4) 神经网络的过拟合
(5) 深度学习的发展
(6) R案例
第十二讲
机器学习在经济学的应用
精读几篇在经济学顶刊发表的经典机器学习论文
课程答疑
2019年8月22-24日 空间计量与机器学习研讨会-王群勇>>
主讲老师:王群勇
上午:09:00-12:00
下午:14:00-17:00
培训费用:3600元(食宿差旅自理)
培训地点:上海财经大学
课程概要
本课程全程采用Stata16最新版本演示, 将为参会者更好的理解面板数据的计量经济分析,以正确使用现代微观计量经济学方法进行政策评估和因果反事实建模。使学员能够在可观察和不可观察的选择下建立和管理正确的评估设计:确定政策框架,收集和管理合适的数据集,使用适当的计量经济学方法解释结果。传统计量经济学通常忽略横截面单位的空间分布与相互影响,而空间计量经济学(Spatial Econometrics)则是考察空间效应、溢出效应等的重要工具。包括空间权重矩阵、空间自回归、空间误差模型与空间面板等。通过【机器学习】中再抽样方法、正则化方法、非参数方法和半参数方法等内容。关注正则化本身的问题,在面对实际问题时导致的结果有什么差异?
第一天:面板数据的计量经济分析
案例1:精英教育与阶层流动
案例2:控烟法对香烟销售的效应评估
案例3:政治资源诅咒
第一讲
面板数据
线性面板数据模型(固定效应、随机效应、相关的随机效应)
动态面板(差分GMM估计、系统GMM估计)
面板门限回归模型
第二讲
微观面板数据的整理
中国家庭跟踪调查数据(CFPS)
数据整理与清洗
数据合并
案例
课程答疑
第二天:内生性、样本选择与因果推断
案例1:公共交通与交通拥堵
案例2:移民对犯罪率的影响
案例3:最低工资对就业的政策评估
案例4:贷款市场的歧视
第三讲
因果推断
倾向得分法、匹配法
双重差分、合成控制法
断点回归设计
第四讲
内生性问题
内生转换模型
线性模型的内生性、样本选择与干预变量
受限因变量模型的内生性、样本选择与干预变量
课程答疑
第三天:空间计量与机器学习
案例1:军事支出的邻居效应
案例2:房价与犯罪率
案例3:税收对劳动力供给的影响
案例4:领导人与交流风格
案例5:罚金与酒驾
第五讲
空间计量经济模型
定义空间权数矩阵(相邻矩阵,距离矩阵,俱乐部形式,政治距离,经济距离等)
定义空间数据
空间分布图
空间计量模型(空间滞后模型,空间误差模型,SLX模型 , SAC模型, 空间Durbin模型, 空间Durbin误差模型)
空间效应的Moran检验
空间权数矩阵的选择
空间面板模型(固定效应和随机效应)
第六讲
机器学习
再抽样方法(交叉校正法、自举法)
正则化方法(领回归、弹性网回归、LASSO方法)
非参数方法和半参数方法(核回归、局部线性回归、样条函数)
课程答疑