Apache Drill を使ってみよう!!

みなさんは、Apache Drill をご存知でしょうか?Apache Drill は Hadoop 環境で伝えるデータベースエンジンです。Apache Drill を使えばHadoop のファイルシステムに対して SQL を用いてアクセスしクエリを実行できます。

Apache Drill とは?

みなさんは、Apache Drill をご存知でしょうか?Apache Drill は、Hadoop 環境で伝えるデータベースエンジンです。Apache Drill を使えば Hadoop のファイルシステムに対して SQL を用いてアクセスし、クエリを実行 することができます。

Apache Drill の特徴は2つあります。
1つ目の特徴は、MapReduceを使わないで Hadoop のファイルシステム ( HDFSMapR-FS ) 上にあるデータに直接アクセスできます。もちろん、Apache HBase などの NoSQL にもアクセスできます。
2つ目の特徴は、構造化データ から 非構造化データ まで、どのような構造のデータでも検索できる ことです。JSON 形式CSV 形式 のデータにもアクセスできるということになります。

Hadoop 黎明期には、Java で MapReduce 処理を書いて、バッチ処理アプリケーションを開発していました。その後に Hive が登場しましたが、MapReduce を SQL を介して利用できるようにするものなので、従来通りバッチ処理に適したものでした。MapReduce を使わずに検索できる Impala なども登場しましたが、標準のANSI SQLを使えるわけではなかったのです。その中、Apache DrillANSI SQL 準拠 のため、慣れ親しんでいる SQL の知識や、BI ツールをそのまま使用することができます。

MapR 社から、Apache Drill をお手軽に触れるように sandbox と呼ばれる 仮想アプライアンス が提供されています。今回は、sandbox を使って、Apache Drill の簡単な操作を紹介します。

 

用意するもの

 1. VMware Workstation Player
https://my.vmware.com/jp/web/vmware/free#desktop_end_user_computing/vmware_workstation_player/12_0

 2. MapR-Sandbox-For-Apache-Drill-1.4.0-5.0.0-vmware.ova
https://www.mapr.com/products/mapr-sandbox-hadoop/download-sandbox-drill

 

準備

 1. VMware Workstation Player をインストール

 2. MapR-Sandbox-For-Hadoop-5.0.0-vmware.ova の展開

  2-1.「仮想マシンを開く」をクリックします。

jtp_apache_001
  2-2.ダウンロードした「MapR-Sandbox-For-Hadoop-5.0.0-vmware.ova」を選択し、「開く」をクリックします。

jtp_apache_002

  2-3. 展開が完了後、「仮想マシンの再生」をクリックします。

  2-4. sandbox に ssh 接続します。
    ※ユーザ:root、パスワード:mapr

jtp_apache_003

 

Apache Drill Shell の操作

 

続きはこちらから・・・

本コラムは、日本サード・パーティ株式会社(JTP)にて、執筆しています。

JTPは約30年に渡り、様々なベンダーのサポートを行う企業です。 そこで培われた技術・経験を備え、多くの日本初トレーニングをはじめ、 幅広いトレーニングをご提供しています。

JTP の IT教育サービスでは、クラウド、Hadoop関連技術など、OSS の最新技術 トレーニングを数多く実施しています。

また、経験豊富な講師陣により、毎週コラムを更新しており 多くのエンジニアの方にご覧いただいています。

 

▼JTP IT教育のページはこちらから!

http://edu.jtp.co.jp/

Be the first to comment

コメント投稿

Your email address will not be published.


*