ごちゃまぜ

投稿

7月, 2020の投稿を表示しています

データサイエンス100本ノック（構造化データ加工編）のP-030,P-031はgroupbyのほうがいい

7月 15, 2020

Excelのピボットの感覚でpivot_tableを使って攻略していてハマったところがある。 P-030,P-031の標本分散と標本標準偏差は、pivot_tableでaggfunc=np.varやaggfunc=np.stdを使うと、ddof=0じゃなくてddof=1で計算されるから、aaggfunc=lambda x:np.var(x)やggfunc=lambda x:np.std(x)使ったほうがいい。でも、pivot_tableを使わずにgroupbyのほうがいい。データが大きくなると遅くなるから。＜参考URL＞ https://stackoverflow.com/questions/60647377/why-np-std-and-pivot-tableaggfunc-np-std-return-the-different-result