Jupyter with Spark

参考

メモ

よく忘れると思われる、Jupyterをクライアントとしての起動方法をメモ。

Sparkのドキュメント(Environment Variables) の記載の通り、環境変数PYSPARK_DRIVER_PYTHONを使い、 ドライバが用いるPythonを指定する。 GitHub上のpysparkの実装#27 の通り、環境変数PYSPARK_DRIVER_PYTHON_OPTSを使い、 オプションを指定する。

1
PYSPARK_DRIVER_PYTHON=jupyter PYSPARK_DRIVER_PYTHON_OPTS='notebook' ~/Spark/default/bin/pyspark

ちなみに、ガイドにも一応記載されている。

https://github.com/apache/spark/blob/9ccae0c9e7d1a0a704e8cd7574ba508419e05e30/docs/rdd-programming-guide.md#using-the-shell

共有