Description
現在、世界的に普及が進んでいる大規模分散処理フレームワークのApache Sparkについて、その基礎及び、Python APIを通じた各種ライブラリの使い方について、Sparkについて触れた事がない方でもわかるように基本から解説します。 Sparkは集計処理のような従来の操作のほか、機械学習のような複雑なワークロードにも対応しているため、様々な大規模分散処理を簡単に実装することが可能になります。 Abstract
Apache Sparkは2013年にApache Software Foundationに寄贈されて以来、Hadoop MapReduceに変わる新たな大規模分散処理フレームワークとして急速な進化と普及を続けています。
Sparkは早くからPythonを重要な言語と位置付けており、Scala, Javaに加えPythonのAPIが公式から提供されています。そのため、JavaやScalaといった言語の経験がない方でも手軽に大規模分散処理を実装することができる点も非常に魅力的です。
また、Sparkには近年のAIブームにより注目を集めている機械学習を扱うためのライブラリであるMLlibや、SQLで処理を記述するためのSpark SQL、ストリーミング処理を記述するSpark Streamingなど、近年のトレンドに応じたライブラリが公式に提供されているため、単純な集計処理以外にも様々なワークロードに対応することが可能です。
本講演では、Python APIを通じてApache Sparkの使い方及び各種ライブラリの使い方について基本からご説明いたします。