第11章 时间序列

时间序列(time series)数据是一种重要的结构化数据形式,应用于多个领域,包括金融学、经济学、生态学、神经科学、物理学等。在多个时间点观察或测量到的任何事物都可以形成一段时间序列。很多时间序列是固定频率的,也就是说,数据点是根据某种规律定期出现的(比如每15秒、每5分钟、每月出现一次)。时间序列也可以是不定期的,没有固定的时间单位或单位之间的偏移量。时间序列数据的意义取决于具体的应用场景,主要有以下几种:

  • 时间戳(timestamp),特定的时刻。
  • 固定时期(period),如2007年1月或2010年全年。
  • 时间间隔(interval),由起始和结束时间戳表示。时期(period)可以被看做间隔(interval)的特例。
  • 实验或过程时间,每个时间点都是相对于特定起始时间的一个度量。例如,从放入烤箱时起,每秒钟饼干的直径。
阅读全文 »

第14章 数据分析案例

本书正文的最后一章,我们来看一些真实世界的数据集。对于每个数据集,我们会用之前介绍的方法,从原始数据中提取有意义的内容。展示的方法适用于其它数据集,也包括你的。本章包含了一些各种各样的案例数据集,可以用来练习。

案例数据集可以在Github仓库找到,见第一章。

阅读全文 »

  Python中的logging模块,功能强大,非常方便调试输出。Django也使用了Python自带的logging模块作为日志打印工具。本文简单介绍下logging模块的使用方法,以及如何在Django中使用。

阅读全文 »

1、写在前面

经典的生产者和消费者模型中,\(N\)个线程根据要求生产出第一步处理结果,\(M\)个消费者线程对上述结果进行第二步处理。生产者与消费者之间有明确的前后顺序关系。

阅读全文 »

以前使用miktex编译Letex,很久没更新,没法自动安装缺失的包。Google之后,考虑使用TexLive,并使用清华大学镜像。以下内容简要说明其步骤。

阅读全文 »

  在机器学习算法中,经常会遇到两个问题:欠拟合(underfitting)过拟合(overfitting)。所谓欠拟合就是算法没有学习到足够的特征,预测结果较差,即拟合程度不够;过拟合则刚好相反,算法除了学习到一般特征外,也学习到了样本个体的局部特征,即拟合过度。

造成这两种结果的原因主要有两个:

  (1)模型选择不好,简单问题选择了复杂的模型,容易过拟合;复杂的问题选择了简单的模型容易欠拟合。
  (2)参数设置和调整有问题。特别存在学习率的方法,学习率调整不当,容易引起这两种结果。

阅读全文 »

以前进行视频转换,用这个那个工具,最后发现神器FFmpeg太强大了。FFmpeg参数众多,以下记录ffmpeg的一些用法。

1.FFmpeg简介

以下内容来自维基百科 > FFmpeg是一个自由软件,可以运行音频和视频多种格式的录影、转换、流功能,包含了libavcodec——这是一个用于多个项目中音频和视频的解码器库,以及libavformat——一个音频与视频格式转换库。

阅读全文 »
0%