データサイエンス100本ノック(構造化データ加工編)のP-030,P-031はgroupbyのほうがいい

Excelのピボットの感覚でpivot_tableを使って攻略していてハマったところがある。

P-030,P-031の標本分散と標本標準偏差は、pivot_tableでaggfunc=np.varやaggfunc=np.stdを使うと、ddof=0じゃなくてddof=1で計算されるから、aaggfunc=lambda x:np.var(x)やggfunc=lambda x:np.std(x)使ったほうがいい。

でも、pivot_tableを使わずにgroupbyのほうがいい。

コメント

このブログの人気の投稿

FLEXISPOT昇降デスクでASR(A5R)が表示されたら下限まで下げてから下ボタンを長押しすると直る

FLEXISPOT昇降デスクで異音がしたらコントロールボックスを交換してくれた

Obsidian Memosをもっと手軽にしたいからiPhoneのショートカットを作った