Cluster


クラスタマネージャ


クラスタとは 【 cluster 】 〔 クラスター 〕 - 意味/解説/説明/定義 : IT用語辞典
 企業の情報システムなどで、複数のコンピュータを連結し、利用者や他のコンピュータに対して全体で1台のコンピュータであるかのように振舞うシステムをクラスタ(コンピュータクラスタ)という。また、そのようにコンピュータを束ねることを「クラスタリング」(clustering、クラスタ化)という。

 クラスタ化されたコンピュータ群はまとめて1台のコンピュータを扱うように管理・運用することができ、1台が障害などで停止してもシステム全体が止まることはなく、処理を続行したまま修理や交換が行える。

Apache Hadoop


Hadoop分散ファイルシステム(HDFS)その他のファイルシステムをサポートしているそうです。
Yahoo!、Facebook、IBM、ニューヨーク・タイムズ、楽天、その他様々な組織がHadoopを使って大規模分散システムを構築しているそうです

Hadoop - Wikipedia
 Apache Hadoopは大規模データの分散処理を支えるJavaソフトウェアフレームワークであり、フリーソフトウェアとして配布されている。Hadoopはアプリケーションが数千ノードおよびペタバイト級のデータを処理することを可能としている。HadoopはGoogleのMapReduceおよびGoogle File System(GFS)論文に触発されたものである。

 HadoopはApacheのトップレベルプロジェクトの1つであり、世界規模の開発貢献者コミュニティによって開発され、使用されている。


Apache ZooKeeper


Apache ZooKeeper は、分散処理を補助する「コーディネーションエンジン」です。
小規模のファイルシステムを提供し、設定ファイルの共有化などをサポートします。
各ファイル(ノード)はZnodeと呼ばれ、ディレクトリ構造を実現します。
また、「エフェメラル(ephemeral)ノード」という特別なノードもあります
(詳しくは、下記 @IT 2012/6/22 の記事)

Apache ZooKeeper - Wikipedia
 Apache ZooKeeperは Apacheソフトウェア財団のオープンソースプロジェクトで、大規模分散システムでよく利用される、設定情報の集中管理や名前付けなどのサービスを提供するソフトウェアである。Hadoopのサブプロジェクトの一つである。

 ZooKeeperのアーキテクチャでは、高可用性を冗長サービスにより提供している。つまり、クライアントはあるZooKeeperノードへの問い合わせが失敗したら、他のノードに問い合わせることができる。

 データの更新は一つのマスターノードだけが行うようになっているので、データがノード間で矛盾した内容になることはない(ただし、最新のデータでない可能性はある)。

 更新を担当するマスターノードが何らかの理由で停止した場合には、各ノード間で選挙を行い、新たな更新ノードが選ばれる。

 ZooKeeperはデータを階層的な名前空間に保存しているが、これはファイルシステムやトライ木のデータ構造によく似ている。クライアントはこのノードに読み書きを行うことによって、設定情報共有などのサービスを提供する。

 ZooKeeperはen:Rackspaceやen:Yahoo!などの企業で、またSolrのようなオープンソースのエンタープライズサーチシステムで使用されている。

Apache ZooKeeper へようこそ!
Apache ZooKeeper は Apache Software Foundation の下で進められているボランティアによるオープンソースプロジェクトです。Apache ZooKeeper は Hadoop のサブプロジェクトです。


Apache Spark


Apache Spark は、cluster computing system においてデータ分析を高速に実行する。

Apache Spark - Lightning-Fast Cluster Computing
What is Apache Spark?
Apache Spark is an open source cluster computing system that aims to make data analytics fast ? both fast to run and fast to write.

To run programs faster, Spark offers a general execution model that can optimize arbitrary operator graphs, and supports in-memory computing, which lets it query data faster than disk-based engines like Hadoop.

To make programming faster, Spark provides clean, concise APIs in Scala, Java and Python. You can also use Spark interactively from the Scala and Python shells to rapidly query big datasets.

(Apache Spark は、cluster computing system においてデータ分析を高速に実行する)


Hadoop YARN


YARN は、Hadoopのサブプロジェクトです。
Hadoop 2.0 で、リソース管理を担当します。

Hadoop YARN
A next-generation framework for Hadoop data processing
Apache™ Hadoop® YARN is a sub-project of Hadoop at the Apache Software Foundation introduced in Hadoop 2.0 that separates the resource management and processing components. YARN was born of a need to enable a broader array of interaction patterns for data stored in HDFS beyond MapReduce. The YARN-based architecture of Hadoop 2.0 provides a more general processing platform that is not constrained to MapReduce.


Apache Mesos



クラウドコンピューティング

OpenStack


OpenStack - Wikipedia
OpenStack(オープンスタック)は、2010年にRackspace Cloud(英語版)とNASAによって始められたIaaSクラウドコンピューティングプロジェクト。AMD、インテル、カノニカル、openSUSE、レッドハット、シスコシステムズ、デル、ヒューレット・パッカード、IBM、Yahoo!などをはじめ、150社以上が参加している。



記事


  • 【特集】クラウドOSを探る:“クラウドOS”とは、何なのか? (1/2) - @IT
    • 2013/12/16
    • 「クラウドOS」という言葉が最近よく聞かれるようになった。CloudStackやOpenStackなどのクラウド基盤ソフトウェアが「クラウドOS」と呼ばれるケースが多くなる一方で、マイクロソフトは「クラウドOSビジョン」で同社の戦略を語り、ヒューレット・パッカード(HP)は「HP Cloud OS」を発表している。では、「クラウドOS」とは何なのだろうか。本記事ではその定義と現在の潮流を紹介しながら、その本質を探っていく。



  • 最終更新:2013-12-17 11:30:37

このWIKIを編集するにはパスワード入力が必要です

認証パスワード