机器学习课程
课程天数:3天
课程介绍
通过3天的面授让学员了解Python 机器学习Scikit-Learn框架的使用,特征工程分析、机器学习的常见算法。重点讲解了K-近邻、线性回归、朴素贝叶斯、决策树、K-均值算法。并且介绍了每种算法的使用场景与经典案例实践。学习完此课程完全可以胜任机器学习工作岗位也为后续深度学习打下坚实基础。
课程收益
掌握Numpy,Pandas科学库的使用;
熟练掌握基于业务的特征工程实现;
熟练掌握有监督与无监督学习的各种算法与使用场景;
掌握个种算法的优劣评价标准与调优策略;
培训对象
Python中级程序员、数据分析人员、想了解机器学习人员;
课程大纲
第一单元:快速入门与特征工程
1、机器学习分类与应用场景
2、Scikit-Learn安装与介绍
3、数据加载、分析、特征工程
4、One-Hot编码、tf-idf算法
5、归一化、标准化、数据降维
第二单元:K-近邻算法完成酒店入住推荐系统
1、欧式距离与K-近邻算法介绍
2、数据清理、特征值分析
3、Train_test_split分割训练集与测试集
4、交叉验证与精确率
5、K-近邻实现酒店入住推荐系统
第三单元:线性回归实现销售数据预测
1、线性回归介绍与公式推导
2、多变量线性归回与梯度下降
3、数据归一化与模型优化
4、线性回归预测销售数据
5、保存模型,欠拟合与过拟合
第四单元:决策树、随机森林识别银行高风险贷款
1、信息增益与算法原理介绍
2、数据分析、特征工程
3、模型训练与优化参数
4、随机森林、正向激励算法
5、采用决策树识别高风险贷款
第五单元:朴素贝叶斯实现文档分类
1、概率基础 (联合概率、条件概率)
2、贝叶斯定律、分类算法
3、特征工程、TF-IDF与文档分类
4、多项分布与高斯分布
5、贝叶斯算法根据文档关键字实现分类
第六单元:K-mean聚类无监督学习算法
1、有监督与无监督学习介绍
2、K-均值算法与成本函数
3、随机聚类中心点
4、聚类性能评估 (齐次性与完整性)
5、K均值对数据进行聚类分析