投稿

7月, 2020の投稿を表示しています

データサイエンス100本ノック(構造化データ加工編)のP-030,P-031はgroupbyのほうがいい

Excelのピボットの感覚でpivot_tableを使って攻略していてハマったところがある。 P-030,P-031の標本分散と標本標準偏差は、pivot_tableでaggfunc=np.varやaggfunc=np.stdを使うと、ddof=0じゃなくてddof=1で計算されるから、aaggfunc=lambda x:np.var(x)やggfunc=lambda x:np.std(x)使ったほうがいい。 でも、pivot_tableを使わずにgroupbyのほうがいい。 データが大きくなると遅くなるから。 <参考URL> https://stackoverflow.com/questions/60647377/why-np-std-and-pivot-tableaggfunc-np-std-return-the-different-result