利用Python进行数据分析__第03章_Python的数据结构、函数和文件

发表于 2018-08-02 更新于 2023-08-22 分类于编程开发， python ，利用Python进行数据分析·第2版

第03章 Python的数据结构、函数和文件

本章讨论Python的内置功能，这些功能本书会用到很多。虽然扩展库，比如pandas和Numpy，使处理大数据集很方便，但它们是和Python的内置数据处理工具一同使用的。

阅读全文 »

利用Python进行数据分析_第04章_NumPy基础：数组和矢量计算

发表于 2018-08-02 更新于 2023-08-22 分类于编程开发， python ，利用Python进行数据分析·第2版

第04章 NumPy基础：数组和矢量计算

NumPy（Numerical Python的简称）是Python数值计算最重要的基础包。大多数提供科学计算的包都是用NumPy的数组作为构建基础。

NumPy的部分功能如下：

ndarray，一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。
用于对整组数据进行快速运算的标准数学函数（无需编写循环）。
用于读写磁盘数据的工具以及用于操作内存映射文件的工具。
线性代数、随机数生成以及傅里叶变换功能。
用于集成由C、C++、Fortran等语言编写的代码的A C API。

阅读全文 »

利用Python进行数据分析_第05章_pandas入门

发表于 2018-08-02 更新于 2023-08-22 分类于编程开发， python ，利用Python进行数据分析·第2版

第05章 pandas入门

pandas是本书后续内容的首选库。它含有使数据清洗和分析工作变得更快更简单的数据结构和操作工具。pandas经常和其它工具一同使用，如数值计算工具NumPy和SciPy，分析库statsmodels和scikit-learn，和数据可视化库matplotlib。pandas是基于NumPy数组构建的，特别是基于数组的函数和不使用for循环的数据处理。

阅读全文 »

利用Python进行数据分析_第06章_数据加载、存储与文件格式

发表于 2018-08-02 更新于 2023-08-22 分类于编程开发， python ，利用Python进行数据分析·第2版

第06章数据加载、存储与文件格式

访问数据是使用本书所介绍的这些工具的第一步。我会着重介绍pandas的数据输入与输出，虽然别的库中也有不少以此为目的的工具。

阅读全文 »

利用Python进行数据分析_第07章_数据清洗和准备

发表于 2018-08-02 更新于 2023-08-22 分类于编程开发， python ，利用Python进行数据分析·第2版

第07章数据清洗和准备

在数据分析和建模的过程中，相当多的时间要用在数据准备上：加载、清理、转换以及重塑。这些工作会占到分析师时间的80%或更多。有时，存储在文件和数据库中的数据的格式不适合某个特定的任务。许多研究者都选择使用通用编程语言（如Python、Perl、R或Java）或UNIX文本处理工具（如sed或awk）对数据格式进行专门处理。幸运的是，pandas和内置的Python标准库提供了一组高级的、灵活的、快速的工具，可以让你轻松地将数据规整为想要的格式。

阅读全文 »

利用Python进行数据分析_第08章_数据规整：聚合、合并和重塑

发表于 2018-08-02 更新于 2023-08-22 分类于编程开发， python ，利用Python进行数据分析·第2版

第08章数据规整：聚合、合并和重塑

在许多应用中，数据可能分散在许多文件或数据库中，存储的形式也不利于分析。本章关注可以聚合、合并、重塑数据的方法。

阅读全文 »

利用Python进行数据分析_第09章_绘图和可视化

发表于 2018-08-02 更新于 2023-08-22 分类于编程开发， python ，利用Python进行数据分析·第2版

第09章绘图和可视化

信息可视化（也叫绘图）是数据分析中最重要的工作之一。它可能是探索过程的一部分，例如，帮助我们找出异常值、必要的数据转换、得出有关模型的idea等。另外，做一个可交互的数据可视化也许是工作的最终目标。Python有许多库进行静态或动态的数据可视化，但我这里重要关注于matplotlib（http://matplotlib.org/）和基于它的库。

阅读全文 »

利用Python进行数据分析_第10章_数据聚合与分组运算

发表于 2018-08-02 更新于 2023-08-22 分类于编程开发， python ，利用Python进行数据分析·第2版

第10章数据聚合与分组运算

对数据集进行分组并对各组应用一个函数（无论是聚合还是转换），通常是数据分析工作中的重要环节。在将数据集加载、融合、准备好之后，通常就是计算分组统计或生成透视表。pandas提供了一个灵活高效的gruopby功能，它使你能以一种自然的方式对数据集进行切片、切块、摘要等操作。

阅读全文 »

利用Python进行数据分析_第11章_时间序列

发表于 2018-08-02 更新于 2023-08-22 分类于编程开发， python ，利用Python进行数据分析·第2版

第11章时间序列

时间序列（time series）数据是一种重要的结构化数据形式，应用于多个领域，包括金融学、经济学、生态学、神经科学、物理学等。在多个时间点观察或测量到的任何事物都可以形成一段时间序列。很多时间序列是固定频率的，也就是说，数据点是根据某种规律定期出现的（比如每15秒、每5分钟、每月出现一次）。时间序列也可以是不定期的，没有固定的时间单位或单位之间的偏移量。时间序列数据的意义取决于具体的应用场景，主要有以下几种：

时间戳（timestamp），特定的时刻。
固定时期（period），如2007年1月或2010年全年。
时间间隔（interval），由起始和结束时间戳表示。时期（period）可以被看做间隔（interval）的特例。
实验或过程时间，每个时间点都是相对于特定起始时间的一个度量。例如，从放入烤箱时起，每秒钟饼干的直径。

阅读全文 »

利用Python进行数据分析_第12章_pandas高级应用

发表于 2018-08-02 更新于 2023-08-22 分类于编程开发， python ，利用Python进行数据分析·第2版

第12章 pandas高级应用

前面的章节关注于不同类型的数据规整流程和NumPy、pandas与其它库的特点。随着时间的发展，pandas发展出了更多适合高级用户的功能。本章就要深入学习pandas的高级功能。

阅读全文 »

第03章 Python的数据结构、函数和文件

第04章 NumPy基础：数组和矢量计算

第05章 pandas入门

第06章 数据加载、存储与文件格式

第07章 数据清洗和准备

第08章 数据规整：聚合、合并和重塑

第09章 绘图和可视化

第10章 数据聚合与分组运算

第11章 时间序列

第12章 pandas高级应用

第06章数据加载、存储与文件格式

第07章数据清洗和准备

第08章数据规整：聚合、合并和重塑

第09章绘图和可视化

第10章数据聚合与分组运算

第11章时间序列