培训内容:
一、 作为数据分析程序员,有必要掌握python这门语言;
a) 介绍python支持库;
b) Python对机器学习的重要推动作用。
二、 使用Jupyter notebook进行交互式计算和开发环境;
a) 配置、使用、运行和调试。
三、 Numpy数组和矢量计算;
a) 通用函数;
b) 线性代数运算操作;
c) Numpy张量的文件输入和输出。
四、 Pandas数据结构
a) 汇总和统计计算;
b) 处理残缺数据;
c) 层次化索引;
五、 数据的加载、存储与文件格式;
a) 汇总和统计计算;
b) 处理残缺数据;
c) 层次化索引;
六、 数据的加载、存储与文件格式;
a) 读取文本格式的数据;
b) 读写二进制数据;
c) 使用关系型数据库;
七、 数据的去噪、转换、合并、重塑
a) 合并数据集;
b) 重塑;
c) 数据矩阵变换;
d) 数据轴向旋转;
e) 数据转换;
f) 字符串操作。
八、 数据可视化;
a) Matplotlib使用
b) Pandas中的绘图函数使用
c) 绘制地图类表达数据
九、 数据的聚合和分组运算
a) GroupBy技术
b) 数据聚合
c) 分组级运算和转换
d) 透视表和交叉表
十、 时间序列
a) 日期和时间数据类型及工具;
b) 日期的范围、频率和移动;
c) 时期及算法运算;
d) 重采样及频率转换;
e) 时间序列绘图;
f) 移动窗口函数;
g) 性能和内存的优化;
十一、 金融和经济数据应用
a) 举一个分组变换应用
十二、 Numpy高级应用
a) Numpy内部工作机理;
b) 高级数组操作;
c) 结构化和记录式数组;
d) Numpy的matrix类;
e) 高级数组的输入输出。
十三、 通过神经网络进行相关因素预测分析;
a) CNN和RNN初识;
b) 相关因素时间序列预测分析示例。