Contribute Media
A thank you to everyone who makes this possible: Read More

pandasによる時系列データ処理

Description

データ分析ライブラリであるpandasを利用して、時系列データのグループ化や集計、サンプリングなどの処理を簡単・高速に行う方法を説明します。また、統計解析パッケージであるstatsmodelsを用いて簡単な時系列モデリングを行います。

Abstract

データ分析では売上データやログデータなどの時系列での傾向を分析したいことがあります。こういった時系列のデータについて、データ分析ライブラリであるpandasを利用してグループ化や集計、サンプリングなどの処理を簡単・高速に行う方法を説明します。pandasでは以下のような処理を少ないコード量で直感的に記述することができます。

  • 日時文字列のパース処理
  • 適当な日時単位(年月, 四半期...)でのグループ化、集計
  • サンプリング、フィルタ (移動平均など)
  • タイムゾーン
  • 可視化

また、API上の利便性と処理のパフォーマンスを両立するために行っているデータの内部表現と内部処理についてもご説明します。

最後に、統計解析パッケージであるstatsmodelsを用いて簡単な時系列モデリングを行い、 時系列中のトレンドや季節性を抽出するとともに、将来の予測を行います。

Improve this page