- N +

groupby python(groupby的用法及原理詳解)

大家好,今天來為大家分享groupby python的一些知識點,和groupby的用法及原理詳解的問題解析,大家要是都明白,那么可以忽略,如果不太清楚的話可以看看本篇文章,相信很大概率可以解決您的問題,接下來我們就一起來看看吧!

有什么學習Python的網站

其實python非常適合初學者入門。相比較其他不少主流編程語言,有更好的可讀性,因此上手相對容易。自帶的各種模塊加上豐富的第三方模塊,免去了很多“重復造輪子”的工作,可以更快地寫出東西。配置開發環境也不是很復雜,mac和linux都內置了python。

如果想學習python的話,最重要的是有一套比較好的學習教程,可以提高學習效率。可以按照黑馬程序員總結的這一套學習路線圖來學習。

一、python入門

首先要入門,了解python都有哪些知識點。

以上的知識點可以按照這個教程來學習:http://pan.baidu.com/s/1miwZ1WW

學完這些知識點,基本就可以入門教程。最后的飛機大戰項目很實用,通過使用學習過的基礎知識開發出這個經典的游戲,會大大提升你學習的信心!

然后在學習一下,8天深入理解python教程:http://pan.baidu.com/s/1kVNmOar

此教程,讓你對python有更深入的理解!

接下來可以學習一些框架,比如Scrapy,Django

Scrapy視頻教程:http://pan.baidu.com/s/1dF3qhFV

Django框架教程:http://pan.baidu.com/s/1nvFlfU5

如何高效地使用Matplotlib

引言

對新手來說Python可視化實在有些令人挫敗。有很多不同的選項,如何選擇正確的選項是一個挑戰。例如,兩年前這篇文章《OverviewofPythonVisualizationTools》(http://pbpython.com/visualization-tools-1.html)仍然吸引了大量讀者。在那篇文章中,我否定了Matplotlib。但是,在使用過pandas、scikit-learn、seaborn和其他Python數據科學棧之后,我覺得之前否認Matplotlib的行為有點不成熟。坦白講,當時我不是很了解Matplotlib,也不懂如何在我的工作流中高效使用Matplotlib。

現在我學習了一些工具,了解了如何用Matplotlib使用這些工具,Matplotlib逐漸變成了必需工具。本文將展示如何使用Matplotlib。我堅定地認為Matplotlib是Python數據科學棧必不可少的一部分,希望這篇文章可以幫助大家了解如何使用Matplotlib進行Python可視化。

為什么大家都在否定Matplotlib?

我認為,Matplotlib對于新手來說比較難存在幾個原因。首先,Matplotlib有兩個界面。第一個界面基于MATLAB,使用基于狀態的接口。第二個界面是面向對象的接口。本文就不展開介紹Matplotlib有兩個界面的原因,但了解這兩種方法在使用Matplotlib繪圖時會很重要。兩個界面會引起混淆的原因是堆棧溢出和通過谷歌搜索獲取的大量信息,新用戶將發現問題的多個解決方案,但是這些問題看起來類似卻不完全相同。從我的個人經驗來講,從以前的代碼中,我可以看出有一些Matplotlib代碼的混雜,我對此感覺很疑惑(盡管寫它們的人是我……):-)

關鍵點

Matplotlib新手應該學習和使用面向對象的接口。

使用Matplotlib的另一個歷史性挑戰是一些默認的樣式缺乏吸引力。在R使用ggplot就可以生成相當不錯的圖的世界中,Matplotlib相對來說有點丑。好消息是Matplotlib2.0中的樣式好看了很多,你可以用最小的努力生成可視化。

第三個挑戰是你不確定什么時候該使用Matplotlib,什么時候該使用基于Matplotlib構建的工具,如pandas或seaborn。大部分時候做一件事都有多種選擇,但是對于新手來說選擇正確的道路有些困難。這種混淆加上兩種不同API的混淆簡直就是挫敗本敗了……

為什么使用Matplotlib?

盡管Matplotlib有這么多問題,我還是喜歡用它,因為它很強大。這個庫允許你創建幾乎所有可視化。此外,圍繞Matplotlib有一個豐富的Python工具生態環境,很多更高級的可視化工具使用Matplotlib作為基礎庫。如果你想在Python數據科學棧中進行任何操作,你需要對如何使用Matplotlib有一些基礎了解。這就是本文其余部分的重點——提供一種高效使用Matplotlib的基礎方法。

前提

推薦以下步驟學習如何使用Matplotlib:

1.學習Matplotlib的基本術語,具體來說就是什么是Figure和Axes。

2.一直使用面向對象的界面,養成習慣。

3.用基礎的pandas繪圖開始可視化。

4.使用seaborn進行稍微復雜的數據可視化。

5.使用Matplotlib自定義pandas或seaborn可視化。

下圖非常重要,有助于理解圖的不同術語。

大部分術語很直接易懂,需要牢記的是Figure是可能包含一或多個axes的最終圖像。Axes代表單個圖。一旦你理解這些是什么以及如何通過面向對象的API評估它們,其余步驟就很簡單了。

了解這個知識還有一個好處,就是當你在網絡上看東西的時候有一個出發點。如果你花時間了解了這個點,那么其他的MatplotlibAPI才有意義。此外,很多高級Python包,如seaborn和ggplot依賴于Matplotlib構建,因此理解了基礎,學習更強大的框架才更加容易。

最后,我不是說你應該逃避其他優秀選項,如ggplot(又名ggpy)、bokeh、plotly或altair。我只是認為你需要對matplotlib+pandas+seaborn有一個基礎的了解。了解基礎可視化棧之后,你就可以探索其他優秀工具,根據需求做出合適的選擇。

開始

下面主要介紹如何在pandas中創建基礎的可視化以及使用Matplotlib定制最常用的項。了解基礎流程有助于更直觀地進行自定義。

我主要關注最常見的繪圖任務,如標注軸、調整圖形界限(limit)、更新圖標題、保存圖像和調整圖例。

開始,我打算設置輸入,讀取一些數據:

importpandasaspd

importmatplotlib.pyplotasplt

frommatplotlib.tickerimportFuncFormatter

df=pd.read_excel("https://github.com/chris1610/pbpython/blob/master/data/sample-salesv3.xlsx?raw=true")

df.head()

數據包括2014年的銷售交易額。為簡短起見,我將總結這些數據,列出前十名客戶的采購次數和交易額。繪圖時我將對各列進行重命名。

top_10=(df.groupby('name')['extprice','quantity'].agg({'extprice':'sum','quantity':'count'})

.sort_values(by='extprice',ascending=False))[:10].reset_index()

top_10.rename(columns={'name':'Name','extprice':'Sales','quantity':'Purchases'},inplace=True)

下圖是數據。

現在數據在簡單的表格形式呈現,我們再來看一下如何將數據繪制成條形圖。如前所述,Matplotlib具備多種不同風格,可用于渲染圖表。你可以使用plt.style.available查看你的系統可用的風格。

plt.style.available

['seaborn-dark',

'seaborn-dark-palette',

'fivethirtyeight',

'seaborn-whitegrid',

'seaborn-darkgrid',

'seaborn',

'bmh',

'classic',

'seaborn-colorblind',

'seaborn-muted',

'seaborn-white',

'seaborn-talk',

'grayscale',

'dark_background',

'seaborn-deep',

'seaborn-bright',

'ggplot',

'seaborn-paper',

'seaborn-notebook',

'seaborn-poster',

'seaborn-ticks',

'seaborn-pastel']

使用如下簡單風格:

plt.style.use('ggplot')

我鼓勵大家使用不同的風格,找到自己喜歡的。

現在我們有了好看的風格,第一步就是使用標準pandas繪圖函數繪制數據:

top_10.plot(kind='barh',y="Sales",x="Name")

推薦使用pandas繪圖的原因在于它是一種快速便捷地建立可視化原型的方式。

自定義圖表

如果你對該圖表的重要部分都很滿意,那么下一步就是對它執行自定義。一些自定義(如添加標題和標簽)可以使用pandasplot函數輕松搞定。但是,你可能會發現自己需要在某個時刻跳出來。這就是我推薦你養成以下習慣的原因:

fig,ax=plt.subplots()

top_10.plot(kind='barh',y="Sales",x="Name",ax=ax)

生成的圖表和原始圖表基本一樣,不過我們向plt.subplots()添加了一個額外的調用,并將ax傳輸至繪圖函數。為什么要這么做呢?還記得我說在Matplotlib中獲取軸和圖像非常關鍵嗎?這里所做的就是為了達到該目的。通過ax或fig對象可以執行任何自定義。

我們利用pandas實現快速繪圖,現在利用Matplotlib獲取所有功能。通過使用命名慣例,調整別人的解決方案適應自己的需求變得更加直接簡單了。

假設我們想調整x極限,改變一些軸標簽?,F在我們在ax變量中有多個軸,可以進行一些操作:

fig,ax=plt.subplots()

top_10.plot(kind='barh',y="Sales",x="Name",ax=ax)

ax.set_xlim([-10000,140000])

ax.set_xlabel('TotalRevenue')

ax.set_ylabel('Customer');

這是另一種改變標題和標簽的簡單方式:

fig,ax=plt.subplots()

top_10.plot(kind='barh',y="Sales",x="Name",ax=ax)

ax.set_xlim([-10000,140000])

ax.set(title='2014Revenue',xlabel='TotalRevenue',ylabel='Customer')

為了進一步展示該方法,我們還可以調整圖像大小。使用plt.subplots()函數可以定義figsize,以英寸為單位。我們還可以使用ax.legend().set_visible(False)移除圖例。

fig,ax=plt.subplots(figsize=(5,6))

top_10.plot(kind='barh',y="Sales",x="Name",ax=ax)

ax.set_xlim([-10000,140000])

ax.set(title='2014Revenue',xlabel='TotalRevenue')

ax.legend().set_visible(False)

要想修改這個圖像,你可能需要執行很多操作。圖中最礙眼的可能是總收益額的格式。Matplotlib可以使用FuncFormatter解決這一問題。該函數用途多樣,允許用戶定義的函數應用到值,并返回格式美觀的字符串。

以下是貨幣格式化函數,用于處理數十萬美元區間的數值:

defcurrency(x,pos):

'Thetwoargsarethevalueandtickposition'

ifx>=1000000:

return'${:1.1f}M'.format(x*1e-6)

return'${:1.0f}K'.format(x*1e-3)

現在我們有了格式化程序函數,就需要定義它,并將其應用到x軸。完整代碼如下:

fig,ax=plt.subplots()

top_10.plot(kind='barh',y="Sales",x="Name",ax=ax)

ax.set_xlim([-10000,140000])

ax.set(title='2014Revenue',xlabel='TotalRevenue',ylabel='Customer')

formatter=FuncFormatter(currency)

ax.xaxis.set_major_formatter(formatter)

ax.legend().set_visible(False)

這張圖美觀多了,非常好地展示了自定義問題解決方案的靈活性。最后要說的自定義特征是向圖表添加注釋。你可以使用ax.axvline()畫垂直線,使用ax.text()添加自定義文本。就以上示例,我們可以畫一條表示平均值的線,包括代表3個新客戶的標簽。以下是完整代碼:

#Createthefigureandtheaxes

fig,ax=plt.subplots()

#Plotthedataandgettheaveraged

top_10.plot(kind='barh',y="Sales",x="Name",ax=ax)

avg=top_10['Sales'].mean()

#Setlimitsandlabels

ax.set_xlim([-10000,140000])

ax.set(title='2014Revenue',xlabel='TotalRevenue',ylabel='Customer')

#Addalinefortheaverage

ax.axvline(x=avg,color='b',label='Average',linestyle='--',linewidth=1)

#Annotatethenewcustomers

forcustin[3,5,8]:

ax.text(115000,cust,"NewCustomer")

#Formatthecurrency

formatter=FuncFormatter(currency)

ax.xaxis.set_major_formatter(formatter)

#Hidethelegend

ax.legend().set_visible(False)

這可能不是最壯觀的圖,但它確實展示了使用該方法的力量。

圖表

目前,我們所做的所有改變都是針對單個圖表。我們還能夠在圖像上添加多個表,使用不同的選項保存整個圖像。

如果我們確定要在同一個圖像上放置兩個表,那么我們應該對如何做有一個基礎了解。首先,創建圖像,然后創建軸,再將它們繪制成圖表。使用plt.subplots()可以完成該操作:

fig,(ax0,ax1)=plt.subplots(nrows=1,ncols=2,sharey=True,figsize=(7,4))

在這個例子中,我使用nrows和ncols指定大小,這對新用戶來說比較清晰易懂。

在示例代碼中,你會經??吹阶兞咳?、2。我認為使用命名參數便于稍后查看代碼時理解代碼。

我還使用sharey=True以使y軸共享相同的標簽。

該示例很靈活,因為不同的軸可以解壓成ax0和ax1?,F在我們有了這些軸,就可以像上述示例中那樣繪圖,然后把一個圖放在ax0上,另一個圖放在ax1。

#Getthefigureandtheaxes

fig,(ax0,ax1)=plt.subplots(nrows=1,ncols=2,sharey=True,figsize=(7,4))

top_10.plot(kind='barh',y="Sales",x="Name",ax=ax0)

ax0.set_xlim([-10000,140000])

ax0.set(title='Revenue',xlabel='TotalRevenue',ylabel='Customers')

#Plottheaverageasaverticalline

avg=top_10['Sales'].mean()

ax0.axvline(x=avg,color='b',label='Average',linestyle='--',linewidth=1)

#Repeatfortheunitplot

top_10.plot(kind='barh',y="Purchases",x="Name",ax=ax1)

avg=top_10['Purchases'].mean()

ax1.set(title='Units',xlabel='TotalUnits',ylabel='')

ax1.axvline(x=avg,color='b',label='Average',linestyle='--',linewidth=1)

#Titlethefigure

fig.suptitle('2014SalesAnalysis',fontsize=14,fontweight='bold');

#Hidethelegends

ax1.legend().set_visible(False)

ax0.legend().set_visible(False)

現在,我已經在jupyternotebook中用%matplotlibinline展示了很多圖像。但是,在很多情況下你需要以特定格式保存圖像,將其和其他呈現方式整合在一起。

Matplotlib支持多種不同文件保存格式。你可以使用fig.canvas.get_supported_filetypes()查看系統支持的文件格式:

fig.canvas.get_supported_filetypes()

{'eps':'EncapsulatedPostscript',

'jpeg':'JointPhotographicExpertsGroup',

'jpg':'JointPhotographicExpertsGroup',

'pdf':'PortableDocumentFormat',

'pgf':'PGFcodeforLaTeX',

'png':'PortableNetworkGraphics',

'ps':'Postscript',

'raw':'RawRGBAbitmap',

'rgba':'RawRGBAbitmap',

'svg':'ScalableVectorGraphics',

'svgz':'ScalableVectorGraphics',

'tif':'TaggedImageFileFormat',

'tiff':'TaggedImageFileFormat'}

我們有fig對象,因此我們可以將圖像保存成多種格式:

fig.savefig('sales.png',transparent=False,dpi=80,bbox_inches="tight")

該版本將圖表保存為不透明背景的png文件。我還指定dpi和bbox_inches="tight"以最小化多余空白。

結論

希望該方法可以幫助大家理解如何更有效地使用Matplotlib進行日常數據分析。

如何將Excel列表內容轉換成python字典

要將Excel列表內容轉換為Python字典,需要使用Python中的“xlrd”模塊。 首先使用“open_workbook”函數打開Excel文件,并使用“sheet_by_index”函數選擇要讀取的工作表。接下來,使用“for”循環遍歷每一行并將單元格值作為鍵和值添加到Python字典中。為了避免重復的鍵,可以將每一行的第一列指定為鍵。 最后,使用“json.dumps”函數將Python字典轉換為JSON格式的字符串,以便將其保存到文件或進行其他操作。此外,也可以使用Python中的“pandas”庫來直接將Excel數據框轉換為Python字典,但需要先對Excel進行操作并將其轉換為數據框。

idea如何使用python的pandas

使用pandas庫,可以通過以下步驟在idea上使用Python的pandas:1.在IDEA中打開一個Python項目,導入pandas庫。2.使用pandas讀取數據文件,例如read_csv()函數讀取CSV文件。3.通過pandas提供的數據結構,例如DataFrame和Series,對數據進行處理、操作和分析。4.最后,可以使用pandas將處理后的數據保存到文件中,例如to_csv()函數將數據保存為CSV文件。因此,使用Python的pandas庫在IDEA上處理、操作和分析數據是非常方便和實用的。

各位大牛請教下,python如何有條件的合并多行為1行呢

可以使用itertools的groupby來分組,

看看這里Python-進階-itertools模塊小結

好了,文章到這里就結束啦,如果本次分享的groupby python和groupby的用法及原理詳解問題對您有所幫助,還望關注下本站哦!

返回列表
上一篇:
下一篇: