ブタと巣箱で快適 Hadoop Life!? – Apache Spark と Apache Pig & Apache Hive –

Hadoop エコシステムの中で、よく組み合わせて用いられるのが Pig (Apache Pig) と Hive (Apache Hive) です。直訳するとブタと巣箱 (笑)。ブタさんがゾウさんの仲間だったとは・・・世間は巣箱の中のように狭いですね。

これからの Hadoop は Spark が主流と言われていますが・・・

Hadoop 1.x が MapReduce を実装し、この世に登場してはや10年が経ちました。その後 YARN 上で MapReduce を稼働させる Hadoop 2.x が出現し、その頃から Hadoop エコシステムの開発が急速に進み始めました。

そして今注目されているのは Spark です。 (おや?タイトルと違うぞ??)
SparkHadoop の MapReduce 部分を置き換えることを目標として開発されたインメモリの分散フレームワーク です。

各 Hadoop ディストリビュータからは、今後は Spark へ注力 していくという表明がなされています。それに伴い Spark 対応の Hadoop エコシステムもこれから充実していくことでしょう。  (おや?タイトルと違うぞ??)

しかし、Spark は メモリ上でデータ処理 を行うため、サーバに大量のメモリを搭載する必要があります。でも大容量メモリに対応したハードウェアはまだ高価です。また、対応するエコシステムもまだ出始めたばかりなので、動作の安定性やHadoop環境への適合性など、不安要素がまだまだあります。
その点、(失礼!)Hadoop エコシステム は、コモディティハードウェアで使える のが利点です。さらに、利用者を支援する コミュニティも充実 しており、バグなどの対応も迅速に行われています。まだまだ需要はありそうです。

そこで今回は、改めて 旧(再び失礼!)Hadoop エコシステムの良さを再認識してみようということで、ブタさん(Pig)巣箱(Hive)に登場していただきます。

なぜこのペアが取り上げられているのか?という理由は、この後で説明する データの取り込みから分析した結果を得るまでのプロセス をこの2つで ほとんどカバー してしまうほど 強力なツール であるからなんです。

spark何やら最近の注目株らしい・・・(https://www.mapr.com/products/open-source-engines

 

Pig とは?

Pig は米Yahoo!社により公開されたオープンソースソフトウエアですが、現在では Apacheプロジェクトの一部 になっています。MapReduce をより簡単に記述 できるように開発されました。
Pig は データを採取して処理し、標準化 するというデータフローを記述するのに向いています。そして、その特徴は「Pig Philosophy」として述べられています。

続きはこちらから・・・

本記事は、日本サード・パーティ株式会社(JTP)にて、執筆しています。

JTPは約30年に渡り、様々なベンダーのサポートを行う企業です。 設計、構築、開発、運用、ヘルプデスク、トレーニングなど、ITのライフサイクルを通して技術サービスを提供しています。

中でも、JTP の IT教育サービスでは、クラウド、Hadoop関連技術など、OSS の最新技術 トレーニングを数多く実施しています。

JTPでは、経験豊富なエンジニア、講師陣により、多くの技術記事を公開しております。

 

▼JTPの情報メディア「JTP Technology Port」はこちらから!

https://www.jtp.co.jp/techport/

Be the first to comment

コメント投稿

Your email address will not be published.


*