
哈佛 Translation Company 推薦:如何選擇最佳翻譯服務(wù)
Pandas 0.23.0 于2018年5月發(fā)布。此版本標(biāo)志著Pandas在數(shù)據(jù)類型處理方面的重要進(jìn)步。主要更新包括引入了Nullable整數(shù)數(shù)據(jù)類型 pd.NA
,這使得數(shù)據(jù)缺失值的處理更加靈活和一致。此外,新版還增加了字符串處理方法,例如 str.cat()
和 str.extract()
,這些方法極大地方便了文本數(shù)據(jù)的處理。
代碼示例:
import pandas as pd
data = pd.Series([1, 2, pd.NA, 4])
print(data)
在這個(gè)版本中,pd.to_datetime()
函數(shù)的更新也不容忽視,它現(xiàn)在支持格式化字符串的錯(cuò)誤處理,提升了時(shí)間數(shù)據(jù)轉(zhuǎn)換的可靠性。
2019年1月發(fā)布的Pandas 0.24.0版本引入了更多的NA處理功能,尤其是 pd.NA
的使用,統(tǒng)一了缺失值表示方法。這一改進(jìn)不僅簡(jiǎn)化了數(shù)據(jù)清洗過(guò)程,還提高了數(shù)據(jù)處理的精確性。
新增的 DataFrame.explode()
函數(shù)是該版本的另一大亮點(diǎn),該函數(shù)可以將列表或Series類型的列展開(kāi)為多行,極大地簡(jiǎn)化了數(shù)據(jù)的平展操作。這對(duì)于處理嵌套數(shù)據(jù)結(jié)構(gòu)尤其有用。
代碼示例:
df = pd.DataFrame({'A': [[1, 2, 3], 'foo', [4, 5]]})
exploded_df = df.explode('A')
print(exploded_df)
此外,pd.to_datetime()
函數(shù)在這一版本中增加了對(duì)Unix時(shí)間戳納秒精度的支持,使得時(shí)間數(shù)據(jù)處理更加精細(xì)。
Pandas 1.0.0于2020年1月發(fā)布,是Pandas發(fā)展的一個(gè)重要里程碑。此版本引入了Nullable整數(shù)數(shù)據(jù)類型 Int64
,取代了之前的 Int32
。這種變化提高了數(shù)據(jù)處理的靈活性,尤其是在處理大數(shù)據(jù)集時(shí)。
字符串處理方法的增強(qiáng)也是該版本的重要更新。新增的 str.replace()
和 str.split()
方法為文本數(shù)據(jù)處理提供了更多的可能性。
此外,DataFrame.plot()
函數(shù)現(xiàn)在使用matplotlib的默認(rèn)樣式,這使得數(shù)據(jù)可視化更加美觀,并與其他Python可視化工具保持一致。
2020年8月發(fā)布的Pandas 1.1.0版本中,DataFrame.explode()
函數(shù)得到了改進(jìn),增加了對(duì)展開(kāi)后行索引設(shè)置的支持。這一功能使得數(shù)據(jù)處理更加靈活,尤其是在多層數(shù)據(jù)結(jié)構(gòu)的分析中。
新增的字符串方法 str.remove()
和 str.wrap()
提供了更多的文本處理技巧,對(duì)于需要大量文本數(shù)據(jù)清洗的項(xiàng)目非常有用。
在數(shù)據(jù)合并方面,pd.merge()
函數(shù)的更新支持指定多個(gè)連接鍵,這一改進(jìn)大大增強(qiáng)了數(shù)據(jù)合并的靈活性和準(zhǔn)確性。
Pandas 1.2.0版本進(jìn)一步擴(kuò)展了Pandas的功能,尤其是在數(shù)據(jù)輸入輸出方面。該版本引入了對(duì)Excel文件的更多支持,能夠處理更復(fù)雜的Excel數(shù)據(jù)結(jié)構(gòu)。
此外,新增的 DataFrame.to_parquet()
方法使得數(shù)據(jù)存儲(chǔ)更加高效,尤其是對(duì)于大規(guī)模數(shù)據(jù)集的存儲(chǔ)和讀取。
代碼示例:
df.to_parquet('data.parquet')
同時(shí),該版本還改進(jìn)了對(duì)JSON數(shù)據(jù)的處理能力,支持更復(fù)雜的嵌套JSON結(jié)構(gòu)的解析和轉(zhuǎn)換。
Pandas 1.3.0 版本在數(shù)據(jù)操作的靈活性和性能方面做出了顯著提升。此版本引入了對(duì)DataFrame的多索引支持,使得數(shù)據(jù)操作更加靈活和高效,特別是在處理復(fù)雜數(shù)據(jù)集時(shí)。
此外,DataFrame.groupby()
方法得到了增強(qiáng),支持更復(fù)雜的聚合操作。這一改進(jìn)為用戶提供了更強(qiáng)大的數(shù)據(jù)分析和匯總工具。
代碼示例:
df.groupby('category').sum()
同時(shí),該版本也對(duì)Pandas的性能做了優(yōu)化,尤其是在大數(shù)據(jù)集的處理上,顯著提高了運(yùn)行速度。
隨著數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的快速發(fā)展,Pandas在未來(lái)版本中預(yù)計(jì)會(huì)引入更多的功能和改進(jìn)。例如,在處理大規(guī)模數(shù)據(jù)集和實(shí)時(shí)數(shù)據(jù)分析方面,Pandas有望引入更多的性能優(yōu)化和并行處理功能。
此外,Pandas的社區(qū)也在不斷壯大,更多的貢獻(xiàn)者正在為Pandas的發(fā)展出力,期待Pandas在未來(lái)能夠?yàn)閿?shù)據(jù)分析提供更為強(qiáng)大和靈活的工具。
問(wèn):Pandas中如何處理缺失值?
pd.NA
統(tǒng)一表示缺失值。處理缺失值的方法包括使用 fillna()
方法填充缺失值,或使用 dropna()
方法刪除包含缺失值的行或列。問(wèn):Pandas如何合并多個(gè)數(shù)據(jù)表?
merge()
函數(shù)合并多個(gè)數(shù)據(jù)表。用戶可以指定連接鍵,并選擇合并的方式,如內(nèi)連接、左連接、右連接等。問(wèn):如何在Pandas中展開(kāi)列表列?
DataFrame.explode()
方法將列表列展開(kāi)為多行。這對(duì)于處理嵌套數(shù)據(jù)結(jié)構(gòu)非常有用。問(wèn):Pandas 1.0.0版本有哪些重要更新?
Int64
,增強(qiáng)的字符串處理方法如 str.replace()
和 str.split()
,以及 DataFrame.plot()
函數(shù)使用matplotlib默認(rèn)樣式。問(wèn):如何提升Pandas的性能?
對(duì)比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力
一鍵對(duì)比試用API 限時(shí)免費(fèi)