0、译序

  Google时,发现了这一篇文章的译文,然而完全看不懂译文的意思,遂找到原文对照阅读,最后有了重新翻译一遍的想法。

  本文结合直观的图形解释,说明了协方差矩阵实质上是一个线性变换,主要思想有如下几点:

  1. 协方差矩阵是怎么来的:方差表征了沿特征轴方向的离散度,但无法表征特征间的相关性,因此引入协方差来进行描述这种相关性;
  2. 线性变换由旋转和缩放组成,通过特征值分解的方法可以导出,协方差矩阵等价于对原特征空间的白数据做了一个线性变换;
  3. 协方差矩阵的最大特征值对应的特征向量,总是指向方差最大的方向;次最大特征值对应的特征向量,正交于最大特征值对应的特征向量,并指向次最大方差指向的方向。
阅读全文 »

  一直没明白,方差、协方差以及相关系数这几个概念的含义及其在统计学中作用和计算方法,这里简单做一个记录和梳理。

1、概念

   方差(Variance) ,表征统计量(随机变量)对均值的误差(偏离度或离散度),方差越小离散度越小,统计量越接近统计平均值。

   协方差(Covariance) 表征统计量(随机变量)不同维度之间的误差,衡量该量不同维度之间的相关性。

   相关系数(Coefficient) ,统计学上常用是皮尔森相关系数(Pearson correlation coefficient),定义为两个维度(特征)之间的协方差和标准差之比,用于度量两个维度之间的(线性)相关程度,其值介于\([-1,1]\)之间。

阅读全文 »

  rsync是常用的数据镜像备份工具,它可以:

  1. 可以镜像保存整个目录树和文件系统。
  2. 可以很容易做到保持原来文件的权限、时间、软硬链接等等。
  3. 无须特殊权限即可安装。

  本文记录使用rsync进行系统备份的基本方法。

阅读全文 »

从最初的Ubuntu 12.04到现在的18.04,随着Ubuntu的更新很多以前的配置无法继续使用,重新开一个帖子,记录新版本的命令和配置。 以下命令,在Ubuntu Server 18.04上测试通过。

阅读全文 »

Box2D是一个著名的2D物理引擎。网上很多文章是老版本,使用cmake编译,最新的git版本,已经移除了cmake支持,使用premake5编译。本文记录了使用mingw编译该版本的方法。

阅读全文 »

序言

目录

阅读全文 »

第1章 准备工作

1.1 本书的内容

本书讲的是利用Python进行数据控制、处理、整理、分析等方面的具体细节和基本要点。我的目标是介绍Python编程和用于数据处理的库和工具环境,掌握这些,可以让你成为一个数据分析专家。虽然本书的标题是“数据分析”,重点却是Python编程、库,以及用于数据分析的工具。这就是数据分析要用到的Python编程。

阅读全文 »

第2章 Python语法基础,IPython和Jupyter Notebooks

当我在2011年和2012年写作本书的第一版时,可用的学习Python数据分析的资源很少。这部分上是一个鸡和蛋的问题:我们现在使用的库,比如pandas、scikit-learn和statsmodels,那时相对来说并不成熟。2017年,数据科学、数据分析和机器学习的资源已经很多,原来通用的科学计算拓展到了计算机科学家、物理学家和其它研究领域的工作人员。学习Python和成为软件工程师的优秀书籍也有了。

阅读全文 »
0%