利用Python进行数据分析_第01章_准备工作

发表于 2018-08-02 更新于 2023-08-22 分类于编程开发， python ，利用Python进行数据分析·第2版

第1章准备工作

1.1 本书的内容

本书讲的是利用Python进行数据控制、处理、整理、分析等方面的具体细节和基本要点。我的目标是介绍Python编程和用于数据处理的库和工具环境，掌握这些，可以让你成为一个数据分析专家。虽然本书的标题是“数据分析”，重点却是Python编程、库，以及用于数据分析的工具。这就是数据分析要用到的Python编程。

阅读全文 »

利用Python进行数据分析__第02章_Python语法基础

发表于 2018-08-02 更新于 2023-08-22 分类于编程开发， python ，利用Python进行数据分析·第2版

第2章 Python语法基础，IPython和Jupyter Notebooks

当我在2011年和2012年写作本书的第一版时，可用的学习Python数据分析的资源很少。这部分上是一个鸡和蛋的问题：我们现在使用的库，比如pandas、scikit-learn和statsmodels，那时相对来说并不成熟。2017年，数据科学、数据分析和机器学习的资源已经很多，原来通用的科学计算拓展到了计算机科学家、物理学家和其它研究领域的工作人员。学习Python和成为软件工程师的优秀书籍也有了。

阅读全文 »

利用Python进行数据分析__第03章_Python的数据结构、函数和文件

发表于 2018-08-02 更新于 2023-08-22 分类于编程开发， python ，利用Python进行数据分析·第2版

第03章 Python的数据结构、函数和文件

本章讨论Python的内置功能，这些功能本书会用到很多。虽然扩展库，比如pandas和Numpy，使处理大数据集很方便，但它们是和Python的内置数据处理工具一同使用的。

阅读全文 »

利用Python进行数据分析_第04章_NumPy基础：数组和矢量计算

发表于 2018-08-02 更新于 2023-08-22 分类于编程开发， python ，利用Python进行数据分析·第2版

第04章 NumPy基础：数组和矢量计算

NumPy（Numerical Python的简称）是Python数值计算最重要的基础包。大多数提供科学计算的包都是用NumPy的数组作为构建基础。

NumPy的部分功能如下：

ndarray，一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。
用于对整组数据进行快速运算的标准数学函数（无需编写循环）。
用于读写磁盘数据的工具以及用于操作内存映射文件的工具。
线性代数、随机数生成以及傅里叶变换功能。
用于集成由C、C++、Fortran等语言编写的代码的A C API。

阅读全文 »

利用Python进行数据分析_第05章_pandas入门

发表于 2018-08-02 更新于 2023-08-22 分类于编程开发， python ，利用Python进行数据分析·第2版

第05章 pandas入门

pandas是本书后续内容的首选库。它含有使数据清洗和分析工作变得更快更简单的数据结构和操作工具。pandas经常和其它工具一同使用，如数值计算工具NumPy和SciPy，分析库statsmodels和scikit-learn，和数据可视化库matplotlib。pandas是基于NumPy数组构建的，特别是基于数组的函数和不使用for循环的数据处理。

阅读全文 »

利用Python进行数据分析_第06章_数据加载、存储与文件格式

发表于 2018-08-02 更新于 2023-08-22 分类于编程开发， python ，利用Python进行数据分析·第2版

第06章数据加载、存储与文件格式

访问数据是使用本书所介绍的这些工具的第一步。我会着重介绍pandas的数据输入与输出，虽然别的库中也有不少以此为目的的工具。

阅读全文 »

利用Python进行数据分析_第07章_数据清洗和准备

发表于 2018-08-02 更新于 2023-08-22 分类于编程开发， python ，利用Python进行数据分析·第2版

第07章数据清洗和准备

在数据分析和建模的过程中，相当多的时间要用在数据准备上：加载、清理、转换以及重塑。这些工作会占到分析师时间的80%或更多。有时，存储在文件和数据库中的数据的格式不适合某个特定的任务。许多研究者都选择使用通用编程语言（如Python、Perl、R或Java）或UNIX文本处理工具（如sed或awk）对数据格式进行专门处理。幸运的是，pandas和内置的Python标准库提供了一组高级的、灵活的、快速的工具，可以让你轻松地将数据规整为想要的格式。

阅读全文 »

利用Python进行数据分析_第08章_数据规整：聚合、合并和重塑

发表于 2018-08-02 更新于 2023-08-22 分类于编程开发， python ，利用Python进行数据分析·第2版

第08章数据规整：聚合、合并和重塑

在许多应用中，数据可能分散在许多文件或数据库中，存储的形式也不利于分析。本章关注可以聚合、合并、重塑数据的方法。

阅读全文 »

利用Python进行数据分析_第09章_绘图和可视化

发表于 2018-08-02 更新于 2023-08-22 分类于编程开发， python ，利用Python进行数据分析·第2版

第09章绘图和可视化

信息可视化（也叫绘图）是数据分析中最重要的工作之一。它可能是探索过程的一部分，例如，帮助我们找出异常值、必要的数据转换、得出有关模型的idea等。另外，做一个可交互的数据可视化也许是工作的最终目标。Python有许多库进行静态或动态的数据可视化，但我这里重要关注于matplotlib（http://matplotlib.org/）和基于它的库。

阅读全文 »

利用Python进行数据分析_第10章_数据聚合与分组运算

发表于 2018-08-02 更新于 2023-08-22 分类于编程开发， python ，利用Python进行数据分析·第2版

第10章数据聚合与分组运算

对数据集进行分组并对各组应用一个函数（无论是聚合还是转换），通常是数据分析工作中的重要环节。在将数据集加载、融合、准备好之后，通常就是计算分组统计或生成透视表。pandas提供了一个灵活高效的gruopby功能，它使你能以一种自然的方式对数据集进行切片、切块、摘要等操作。

阅读全文 »

第1章 准备工作

1.1 本书的内容

第2章 Python语法基础，IPython和Jupyter Notebooks

第03章 Python的数据结构、函数和文件

第04章 NumPy基础：数组和矢量计算

第05章 pandas入门

第06章 数据加载、存储与文件格式

第07章 数据清洗和准备

第08章 数据规整：聚合、合并和重塑

第09章 绘图和可视化

第10章 数据聚合与分组运算

第1章准备工作

第06章数据加载、存储与文件格式

第07章数据清洗和准备

第08章数据规整：聚合、合并和重塑

第09章绘图和可视化

第10章数据聚合与分组运算