Hadoop Archive

Hadoop Streamingで、MapReduceをPHPで実装する

はじめに こんにちは、t_oookaです。 今回は、Hadoop Streamingを使用して、PHPでmap,reduce処理を実装してみます。 Hadoop Streamingとは、hadoopが提供するユーティリティで、当該ユーティリティを使用することでJava以外の任意の言語やコマンド(標準入力、標準出力を扱える)などでmap,reduce処理を記述することができるようになります。 環境 CentOS 6.5 jdk 1.7.0_55 CDH(Cloudera’s Distr [...] Read More

MongoDBとHiveでごにょごにょ事始め

こんにちは、s_mamedaifukuです。 先頭の ”s” は「塩」の ”s” です。 MongoDBとHiveの連携を試みている今日この頃です。 各ソフトウェアのバージョンは MongoDB : 2.6.1 Hadoop(EMR) : 1.0.3 Hive : 0.11.0.1 です。 HiveからMongoDBのデータを操作する 「MongoDB Java Driver 」と「MongoDB Connector for Hadoop」を使うことで、MongoDBをH [...] Read More

とあるオープンソースの分散処理基盤 -Hadoop(ハドゥープ)-

Introduction – Hadoopとは?  こんにちは、k_oomoriです。今回は、オープンソースミドルウェアのApache Hadoopを取り上げたいと思います。  コンピュータの性能は日々進化しているとはいえ、1台のマシンの性能にはおのずと限界があります。また、その時々で常に最高性能のマシンを維持していこうとすると莫大なコストがかかってしまいます。そこで登場するのが分散処理という考え方です。1台1台は特に高性能ではないマシンでも多数並べて処理を同時並行で行うことにより、 [...] Read More