Python作为一门面向对象的编程语言,简洁的语法使得编写十几行代码即可实现爬虫功能,获取海量互联网数据。使用Python来编写爬虫实现简单且效率高,同时爬取的数据可以使用Python强大的第三方数据处理库来进行分析,最重要的是学习成本低,如此之好的东西怎能不学习呢?
2017年,北京友万信息科技有限公司联合雪晴数据网举办了三期Python爬虫与机器学习应用案例研讨会,取得了非常好的效果。之后不断有人询问我们何时再次举办类似的研讨会,经过我们的反复调研,对原有的培训内容做全新升级,定于今年11月16日至18日再次举办一期研讨会。
2018年11月16日-- 18日 广州市(具体地点报名后通知)
(时间安排:外地参会人员11月15日报到,16日~18日正式会议)
从事金融、医疗、保险、生态、卫生、计量、统计、银行、通信、环境、基金等与数据分析统计相关的企事业单位技术骨干、科研院所研究人员和大专院校相关专业教学人员及在校研究生、硕士、博士等相关人员,以及广大Python爱好者。
我们会根据学员的意愿从案例库里来选择案例讲解,学员也可以提供自己想要抓取数据的链接,老师现场讲解
第一天:python基础语法和网络知识简介 |
|
第一讲:Python环境的搭建 |
1. 操作系统的配置 2. 安装anaconda套件 3. Jupyter Notebook的使用 |
第二讲:Python基础语法 |
1. 基本数据结构(列表、字典、元组) 2. 基本语法(条件、循环、函数、类) |
第三讲: 数据导入导出、数据整理与变换 |
1. 使用Pandas模块导入/导出数据 2. 使用Pandas筛选、整理数据,分组汇总 3. 数据变换,重编码 |
第四讲: 可视化与描述性统计 | 1. 饼图、柱形图、折线图、箱线图 2. 在线可视化的工具 |
第五讲: 网络和网页基础知识 | 1. 网络协议 2. 网页加载过程 3. 网页结构 4. HTML简介 5. CSS选择器 6. Xpath |
第二天:静态网站的抓取 |
|
第六讲:相关Python模块 |
1. 用Requests模块获取网页 2. 用BeautifulSoup模块解析网页元素 3. 用requests和Beautiful Soup写简单的爬虫程序 案例: 爬取电影票房数据 |
第七讲: 静态网站抓取的高级策略 |
1. 寻找目标内容的真正网址 2. 翻页的处理 3. 提交表单后才能获取内容的网页如何爬取 4. 如何下载文件 5. 伪造Cookie绕过网站反爬机制 案例: 抓取北京交通委公布的交通指数 案例: 批量下载上交所上市公司公告 案例: 抓取全国土地交易数据 案例:生态环境部网站全国城市空气质量日报 案例:大众点评店铺信息的抓取 |
第三天:动态网站的抓取 | |
第八讲: 通过API接口获取数据 | 1. 什么是Ajax异步加载 2. 什么是JSON格式 3. API接口返回JSON数据时如何解析 4. API接口返回其他数据格式时如何解析 5. 从动态地图中抓取并解析数据 案例: 从东方财富网抓取基金数据 案例:上海医疗服务信息便民查询系统网站 案例:财政部PPP项目储备清单 案例:汽车消费者投诉受理处置信息的抓取 |
第九讲: 用Selenium模拟浏览器获取数据 | 1. Selenium的简介 2. 用Selenium结合Xpath Helper抓取数据 3. 模拟浏览器登录网站、绕开验证码 案例: 中国保险行业协会新闻列表的抓取 案例: 抓取电商网站商品信息和评论 案例:抓取历史航班信息 案例:微博数据的抓取 |
第十讲: 疑难问题的应对 | 1. 网站内容定时更新,要怎么自动去抓取 2. 正则表达式的使用 3. 使用异常处理,让程序更稳健 4. 能定位到网页元素但不知如何提取 5. 几种反爬虫机制的应对策略 |
陈堰平
雪晴数据网创始人,北京友万信息科技有限公司首席技术官,北京理工大学大数据创新学习中心业界导师团成员,2017年1月获“微软最有价值专家”荣誉称号。曾获CQF国际数量金融认证,先后任新华社指数中心技术总监、SupStat Analytics中国区首席技术官。在统计咨询、数据挖掘、开发数据驱动的商业解决方案等领域有近十年的经验,曾为人保财险、国家统计局、微软、惠普、野村综研、德勤咨询、联想、丰田、招商银行、花旗银行、东方航空、中国移动、中国电信、中国联通等机构做过数据科学方面的培训和咨询。2017 年先后两次担任教育部高等学校计算机类专业教学指导委员会主办的“全国高校大数据系列课程高级研修班”主讲老师。
不论您是想要做市场调查、趋势分析、还是想要做科研,都需要从自己机构外部找数据,但是网站有千百种,从单纯的下载文件,到整理成干净的数据表,数据藏在哪里,要拿甚么钥匙去敲门,都是透过每个精心设计的范例去学习的。拿到数据之后,不同的数据类型有不同的处理方式,最后怎么有能力说出一个故事,都是这堂课的学习主轴。
市场上真的有各种爬虫课程,各有各的特色及优点,有的还是免费的,这里我们不比较各自的不同,就说说我们有什么优点吧:
优秀的讲师团队:我们的讲师不但有多年的工作经验,也有丰富的教学经验,不但技术过硬,也善于用通俗的语言讲解复杂的知识点,更有耐心为学员解答学习过程中的问题。每次课程我们都会反复研究,花大量时间准备课程材料,力求用最适合的案例和方式为学员讲解。
在职人员3200元,学生2500元(可开具正规发票),此价格含会议注册费、资料费、午餐费、场地费。食宿费用自理。
雪晴数据网、友万科技的老学员8折优惠
参与北理工大数据创新学习中心活动9折优惠
三人以上同时报名9折优惠
五人以上同时报名8折优惠
请前往 http://t.cn/RmyEZvz 填写报名表(点击文本左下角阅读原文进入表单),我们的工作人员随后会联系您。确认报名后,请通过以下三种支付方式中的一种来缴费(请保留支付凭证,拍照或截图发给我们的工作人员 ):
方式一: 对公转账
开户名 绘辰科技(北京)有限公司
开户银行 中国工商银行股份公司北京大钟寺东路支行
账号 0200151609100034763
方式二: 支付宝
账号 pay@xueqingtv.com
户名 绘辰科技(北京)有限公司
方式三: 现场缴费
外地学员请于11月15号提前报到,广州学员可于16号早上8点~8点半报到,缴费并领取发票和纸质邀请函,以及上课教材。
由于16号早上现场人比较多,鼓励北京学员也于15号报到。
主办方:雪晴数据网
协办方:
北京友万信息科技有限公司
北理工大数据创新学习中心
北京友万信息科技有限公司,简称:友万科技。英文全称:Beijing Uone Info&Tech Co.,Ltd,( Uone-Tech )是中国大陆领先的教育和科学软件分销商,已在中国300多所高校建立了可靠的分销渠道。拥有最成功的教学资源和数据管理专家。同时作为Stata软件在中国大陆的授权商业合作伙伴,希望能给Stata中国用户提供更多服务与支持,并帮助中国用户建立完善的软件售后服务体系。初冬来临,伴手礼相送陪您暖意浓浓,凡于本季度(2018年10-12月份)购买软件的新老客户都可以参加买软件送Stata水杯活动。另外凡采购一套以上者,就可以享受折上折优惠。Stata15新版本和中文版本已经发布,如需申请新版本软件采购及老版本更新升级请联系我们,感谢您的支持与关注。联系方式:徐经理Tel/WeChat: 18610597626 Email: crystal@uone-tech.cn。
相关新闻链接:
>> Stata冬季训练营—
Stata空间计量经济与结构方程模型研讨会 火热报名中
>> 详细了解 Stata软件
>> Stata夏季训练营-王群勇专场
>> Stata夏季训练营-连玉君专场
>> Stata春季训练营(上海站)
>>第二届Stata中国用户大会
>>第一届Stata中国用户大会
公众号:友万软件,欢迎扫码关注我们
北京友万信息科技有限公司,英文全称:Beijing Uone Info&Tech Co.,Ltd ( Uone-Tech )是中国大陆领先的教育和科学软件分销商,已在中国300多所高校建立了可靠的分销渠道。拥有最成功的教学资源和数据管理专家。如需申请软件采购及老版本更新升级请联系我们,咨询热线:010-56548231 ,咨询邮箱:info@uone-tech.cn 感谢您的支持与关注。