当前位置：首页 > 域名

实用的Pandas技巧，估计80%的人不知道

之前跟大家分享了在 pandas 的实用 apply 函数中用 pd.Series 功能来拆分文本，文章链接如下：

Pandas 的技计这个知识点，估计 80% 的巧估人都得挂！

数据来源于 akshare，知道由于 akshare 版本的实用更新，部分接口发生变化，技计致使上面文章里的巧估代码运行会出错。因此今天也会更新下代码。知道

此外，实用在上面文章里应用到了 apply 使用自定义函数的技计功能，之前文章里，巧估自定义函数只有一个参数。知道有同学提了一个问题，实用如果自定义函数有两个参数，技计该怎么办？巧估

嗯嗯嗯，这是一个好问题！

今天，Lemon也会分享下自定义函数有两个参数的情况，该如何解决。

接下来，还是先更新此前文章的代码。

01 使用apply拆分文本

Pandas 中 apply 函数，应用广泛，今天要跟大家分享一个使用的云服务器提供商技巧，使用 apply 将 dataframe 中内容为 list 的列拆分为多列。

拆分前的数据情况，如下图红色标注所示：

拆分后，如下图所示：

这个案例中，Lemon 使用的数据来自 akshare ，在开始前，引入相关 package ：

# -*- coding: utf-8 -*- """ @Author: Lemon @出品：Python数据之道 @Homepage: liyangbit.com """ import numpy as np import pandas as pd import akshare as ak

Lemon 使用的几个 Python 库的版本信息如下：

print(numpy版本：{ }.format(np.__version__)) print(pandas版本：{ }.format(pd.__version__)) print(akshare版本：{ }.format(ak.__version__)) # numpy版本：1.18.1 # pandas版本：1.0.3 # akshare版本：0.7.53

如果代码运行出现问题，请先检查下这几个Python库的版本是否与上面的一致

先从 akshare 获取需要的数据，分为两步，第一步是获取基金代码的列表，如下：

df = ak.fund_em_fund_name().head(20).tail(5) dfdf = df[[基金代码,基金简称]] print(df)

第二步是获取基金净值数据和净值日期，通过一个自定义函数来获取，自定义函数如下：

# 自定义函数只有一个参数的情形 # 获取基金单位净值以及净值日期 def get_mutual_fund(code): df = ak.fund_em_open_fund_info(fund=code, indicator="单位净值走势") dfdf = df[[净值日期, 单位净值,日增长率]] # df.columns = [净值日期, 单位净值, equityReturn, unitMoney] df[净值日期] = pd.to_datetime(df[净值日期]) dfdf = df.sort_values(净值日期,ascending=False) unit_equity = df.head(1)[单位净值].values[0] date_latest = df.head(1)[净值日期].values[0] return [unit_equity, date_latest]

对于这个自定义函数，在 pandas 使用 apply 来应用自定义函数，这是使用 apply 的一种常用的方法，如下：

# 获取基金最新的香港云服务器单位净值和净值日期 df[tmp] = df[基金代码].apply(get_mutual_fund) print(df)

获取的数据截图如下：

文本拆分

上图中的 tmp 列，就是我们这次需要进行处理的对象。

处理方法可以有多种，这里 Lemon 使用 pandas 中的 apply 来处理，相对来说，也是比较便捷的方式。

在 apply 函数中，使用 pd.Series 就可以达到我们的目的。

# 将单位净值和净值日期单独成列 df[[最新单位净值,净值日期]] = df[tmp].apply(pd.Series) dfdf = df.drop(tmp,axis=1) print(df)

结果如下：

02 有两个参数的函数

pandas 中的 apply 函数应用自定义函数时，通常情况下，都是没有参数或者一个参数，那么如果有两个参数，是否还可以使用apply函数呢？

答案是可以的。

这里我们也来探讨下。

还是以上面的案例为基础雏形，同样的亿华云，先从 akshare 获取数据

df1 = ak.fund_em_fund_name().head(20).tail(5) df1df1 = df1[[基金代码,基金简称]]

接下来，自定义一个带有两个参数的函数，如下：

# 自定义函数有两个参数的情形 # 获取年度年底基金净值数据 def get_mutual_fund_year(code,year): year = str(year) df = ak.fund_em_open_fund_info(fund=code, indicator="单位净值走势") dfdf = df[[净值日期, 单位净值, 日增长率]] # df.columns = [净值日期, 单位净值, equityReturn, unitMoney] df[净值日期] = pd.to_datetime(df[净值日期]) dfdf = df.sort_values(净值日期,ascending=False) dfdf = df.set_index(净值日期)[year] dfdf = df.reset_index() unit_equity = df.head(1)[单位净值].values[0] date = df.head(1)[净值日期].values[0] return [unit_equity,date]

带有两个参数的自定义函数

然后，使用 apply 来应用上面这个带两个参数的自定义函数，核心要点就是嵌套使用 lambda 函数，固定其中一个参数，具体如下

df1[tmp] = df1[基金代码].apply(lambda code: get_mutual_fund_year(code, 2019))

后续，依旧是文本拆分，实现代码如下：

# 将单位净值和净值日期单独成列 df1[[最新单位净值,净值日期]] = df1[tmp].apply(pd.Series) df1df1 = df1.drop(tmp,axis=1) print(df1)

应用场景

有同学可能会问，使用两个参数的自定义函数，有什么用呢？

这里，Lemon 也分享一个应用场景：

根据上面的基础雏形数据，针对具体的年度，建立一个下拉列表，选择不同的年份时，返回不同年份的结果，包括文本数据、表格数据以及图表等。

效果如下：

涉及到一些个人的数据，就没有完整展示啦~~

其他的应用场景，欢迎大家来分享！

上一篇
什么是网络边缘数据中心?
下一篇
什么是边缘数据中心，为什么它们对 5G 至关重要？

实用的Pandas技巧，估计80%的人不知道

相关推荐

步入AI新纪元：全新沃尔沃EX90 SUV基于NVIDIA DRIVE打造而成

Clio lang 简介：轻松交付性能关键型 JS

用 SwiftUI 实现 3D Scroll 效果

Spirit带你了解CSS各个方向的居中方案

如何知道你是否使用了代理服务器？

为什么说两个 Integer 数值之间不建议使用 “==” 进行比较