Hadoopベンダーはリスニングしています:Hortonworksは実用的になります

これはHadoopの10歳の誕生日(そしてHortonworksの5番目)であり、プラットホームと企業の両方がかなり成長したことは驚くことではありません。

プラットフォーム自体は長い道のりを歩んできました。 Hadoopの初期のストレージシステム(HDFS)とコンピューティング(MapReduce)として定義された今日のプラットフォームには、運用管理からセキュリティ、データ保護まで、データベースに関連するハウスキーピング機能の多くに対応する数多くの主要な競合するオープンソースコンポーネントがあります、およびデータガバナンス。

そしてHortonworksは、単一の製品である純粋なオープンソース企業から遠い道のりを歩んできました。

ビッグデータは、近年のハイテクとハイテクのトレンドの1つから、ITが現在取り組まなければならない最大の課題の1つに移行しています。大きなデータを活用するためのテクノロジとベストプラクティスを検証し、大きなデータを有効に活用している組織を見ていきます。

今後のポストで議論するように、新興のデータプラットフォームのためのオープンソースは、デフォルトの配信モデルになっています。しかし、純粋なオープンソースモデルは、Hortonworksが支持するように、独自のIPがどこにあるのかという疑問のためにまれです。 Hortonworksの場合、答えは、誰が数えているかによって、Apache Hadoopプロジェクトコミュニティのコミッターの最大のブロックであるということでした。

彼らはそれを認めませんが、遅くにHortonworksはライバルのClouderaとMapRのように、ベンダー固有のコンテンツを提供するようにもっと見ています。これは実際には良いことです。特に、データレーキを実装しようとする顧客であり、テクノロジープロバイダーが独自のIP(およびビジネスセンス)を長期的なプレイヤーとすることを保証したい場合は特にそうです。

壁の最初の亀裂は、Hortonworksがデータウェアハウス最適化の使用事例のためにAtScale、Syncsort、およびPivotalで現在持っているOEM契約によるものです。 BIクエリとレポート、ETL処理のためのSyncsort DMX-h、Pivo​​talのHAWQインタラクティブなSQL技術(これは実際にオープンソースになった)のパフォーマンスを向上させるために、HadoopにOLAPの顔を提供するためにAtScaleを転売しています。再販戦略は、データウェアハウスの最適化が、識別可能で十分に大きな目標ベースを持つ成熟した市場であることを考えると意味があります。議論の余地があるのはSmartSenseのような機能で、Ambariのクラスタの健全性統計を示しています。これはHortonworks Data Platformのサブスクリプションでのみ利用可能です。

しかし、エンタープライズの顧客としては、テクノロジプロバイダーが持つオープンソースモデルを気にせず、ビジネスモデルが実行可能かどうかを気にします。

また、Hadoopがエンタープライズプラットフォームとして成熟していることを反映して、Hadoop Summitで発表された拡張機能の重要なテーマは、データガバナンス、パフォーマンスの向上、使いやすさとのつながりです。この発表の中で、Hortonworksは、データ系列ツールであるAtlasの機能を、Hive(データが格納されている場所)のサポートからKafka(メッセージキューイング用)やStorm(ストリーミング用)などの上流の取り込みプロセスまで拡張しました。つまり、Hortonworksでサポートされているストリーミングエンジンのいずれかを使用する場合、データがHiveに到着したときだけでなく、取り込みの時点でAtlasでタグ付けされることができます。

Atlasがデータ系列のメタデータを提供することで、レンジャーはデータセキュリティを実装できるようになり、Hiveの列を動的にマスキングしたり行をフィルタリングする機能を追加して、順番に、Zeppelin、Hortonworksの混雑したデータ科学者のノートブックスペースへの参入は、Sparkを使用している開業医のアクセス制御を強化するためにRangerとの資格情報を統合するようになりました。

Hortonworksはまた、ハイブにACIDを落とすように取り組んでいます。しかし、我々はトランザクションシステムに関連する厳格なACIDについては言及していません。ここでは、Hiveからデータを更新および削除する機能について説明します。それは今まで、MapRの基盤となる独自のファイルシステムでのみ可能でした。重要な点は、単にデータが高速でストリーミングされている場合には、権利を自慢しているのではなく、Hiveを更新するオーバーヘッドを減らすことにあります。この会議では技術プレビューが発表されました。

Hiveのインタラクティブなクエリパフォーマンスを向上させる関連プロジェクトには、長時間実行されるバッチジョブが確実に獲得できるように細粒度のプリエンプション機能が含まれている、LLAP(Star Trekファンには馴染みのある用語)という新しいメモリ内キャッシュテクノロジが活用されています優先度の高いインタラクティブなクエリ要求がボトルネックになります。もう1つの関連プロジェクトは、HBaseにSQLの顔を当てるプロジェクトであるPhoenixの新しいクエリサーバーです。クエリサーバーのアイロニーは、フェニックスがHBaseをSQLに優しくするように設計されていたが、新しいクエリサーバーはC ++、.NET、Pythonなどのプログラミング言語の代わりにAPIに重点を置いているという。

おそらく印象は主観的ですが、Hadoopをより良い管理対象とすることは、データ・レイクを計画している企業にとっての直接的な対応です。データ・レイクは、以前のエンタープライズ・データ・ウェアハウスと同様にエンタープライズ・リソースであるため、そこにあるデータを正確に理解するのに役立つより多くの機能が必要です。別の記事では、データ湖の統治について議論する予定です。 Hortonworksの最新のアナウンスから、Hadoopのベンダーは聞いていると言えば十分です。

LinkedInが新しいブログプラットフォームを発表

Hatoon Summitのニュース:生態系の順序と断片化:Hortonworksは新たな提携とリリースを発表し、Hadoopは道を切り、Hortonworksはそのスタックを改良し、さらにApache Sparkを採用し、HortonworksはHPE

ビッグデータ分析、Big Data Analytics、DataRobotはデータサイエンスの欠点を自動化することを目指している、Big Data Analytics、MapR創設者のJohn Schroederが辞任し、交換するCOO

これはBig OLAPの時代ですか?

DataRobotは、データサイエンスの果実の低さを自動化することを目指しています

MapRの創設者John Schroederが辞任し、COOが辞任