Scala Archive

【後編】Apache Sparkを使って、メモリ使用量が大きいバッチ処理をスケールアウト

こんにちは、弊社で1ヶ月半ほどインターンとして働いているt_sakaiです。 インターンシップの課題として、メモリ使用量が大きくて将来問題になりそうなバッチ処理をスケールアウトできるように書き換えるという課題に取り組みました。 解決手段として流行りのApache Sparkを使ってみたので、本記事ではこれについて書こうと思います。 本記事で使っている言語はScalaです。 前編ではSparkを選んだ理由とSparkの基礎について説明したので、後編では既存プログラムをSpark用に書き換える際の問 [...] Read More

【前編】Apache Sparkを使って、メモリ使用量が大きいバッチ処理をスケールアウト

初めまして、弊社で1ヶ月半ほどインターンとして働いているt_sakaiです。 インターンシップの課題として、メモリ使用量が大きくて将来問題になりそうなバッチ処理をスケールアウトできるように書き換えるという課題に取り組みました。 解決手段として流行りのApache Sparkを使ってみたので、本記事ではこれについて書こうと思います。 本記事で使っている言語はScalaです。 Scalaについては、弊社のk_oomoriが書いた記事があるのでよろしければご覧ください。 紹介する内容 前編(本記事) [...] Read More

breezing NumPy-bration

 k_oomoriであります!これまで数値計算といえばPythonのNumPy一択かなと思っていたのですが、Scalaでも似たようなライブラリはないものかと調べてみたところ、ありました、breezeが。ここではベクトルや行列の演算について性能を調べてみたいと思います。なお、使用したサーバはAWSのc3.large EC2インスタンス、OSはUbuntu 14.04、ソフトウェアバージョンはPython 2.7.6, NumPy 1.8.2, Scala 2.10.4, breeze 0.10とな [...] Read More