利用Python进行数据分析_第13章_Python建模库介绍
第13章 Python建模库介绍
本书中,我已经介绍了Python数据分析的编程基础。因为数据分析师和科学家总是在数据规整和准备上花费大量时间,这本书的重点在于掌握这些功能。
本书正文的最后一章,我们来看一些真实世界的数据集。对于每个数据集,我们会用之前介绍的方法,从原始数据中提取有意义的内容。展示的方法适用于其它数据集,也包括你的。本章包含了一些各种各样的案例数据集,可以用来练习。
案例数据集可以在Github仓库找到,见第一章。
Python
中的logging
模块,功能强大,非常方便调试输出。Django
也使用了Python自带的logging
模块作为日志打印工具。本文简单介绍下logging
模块的使用方法,以及如何在Django中使用。
以前使用miktex编译Letex,很久没更新,没法自动安装缺失的包。Google之后,考虑使用TexLive,并使用清华大学镜像。以下内容简要说明其步骤。
使用pip升级TensorFlow时,发现TF已经升级至1.5版本。以下记录更新步骤 系统信息: 1
2Ubuntu 16.04 LTS x86_64
Python 3.5.4 :: Anaconda custom (64-bit)
在机器学习算法中,经常会遇到两个问题:欠拟合(underfitting)和过拟合(overfitting)。所谓欠拟合就是算法没有学习到足够的特征,预测结果较差,即拟合程度不够;过拟合则刚好相反,算法除了学习到一般特征外,也学习到了样本个体的局部特征,即拟合过度。
造成这两种结果的原因主要有两个:
(1)模型选择不好,简单问题选择了复杂的模型,容易过拟合;复杂的问题选择了简单的模型容易欠拟合。
(2)参数设置和调整有问题。特别存在学习率的方法,学习率调整不当,容易引起这两种结果。
最近追剧《风筝》,从某管下载的视频,前后有不低于1分钟的片头和片尾,片头更是达到了2分40秒,又懒得每次遥控下一个文件,干脆写个脚本裁剪片头和片尾。