増加するデータ保持のための奥の手？データレイクとは。

前回のビックデータに関する記事でも書いたように、今後データの量は、年々急速に増えていきます。しかも、今後増加するデータは非構造化データが多くを占めるようになります。

データの量が増えていく一方で、企業の IT 予算はほぼ横ばいというのが現状です。既存の環境では、企業は増えていくデータを保持していくことが困難な状況に直面することになります。

そこで「データレイク」の登場です。

データベースなら知っているけれども、データレイクって？データの湖？とあまり聞きなれない言葉かもしれません。データレイクが登場したのはここ数年なので、IT 業界でも関連する仕事をしていない人にはまだなじみがないかと思います。IoT、ビッグデータの分野では、良く名前のでてくるデータレイク。従来のデータベースやデータウェアハウスとは何が違うのでしょうか？

f:id:lapdoglab:20161121082312j:plain

【スポンサーリンク】

データレイクとは？

データレイクとは、大量かつ多様なデータ、特に非構造化データを経済効率よく保存するための仕組みです。データベースやデータウェアハウスとの一番大きな違いは、この非構造化データを含む様々なデータ形式の保存、そして活用のしやすさというところにあります。

データレイクの特徴

データレイクの特徴は、データのサイロ化（分断化）を無くすことで、全てのデータを活用しやすくしています。

特徴としては以下が挙げられます。

統合的：一般的な企業のデータは、アプリケーション毎にデータの容器を作ってしまっていてアプリケーションを超えてのデータにアクセスすることが難しいのですが、データレイクだと全てのデータにアクセス可能となります。
効率的：アプリケーション毎に容器を作っていると、同じデータが異なる容器に存在する事があります。これは容量を無駄に使っていてコスト高になります。データレイクではそれを避けることができます。
スケールアウト型：並列分散型とも言いますが、データが増えて容量が足りなくなった分だけ容器を後から追加することができる仕組みですので、最初は最低限の容量から始めることが可能です。
経済的：データレイクはデータベースやデータウェアハウスに比べて経済的と言われています。理由は上記の3点の他に、高いソフトウェアや特殊なハードウェアを必要としないからです。一般的な企業の場合、容量単価にかかるコストが10分の1以下になると言われています。
階層化：現実では全てのデータが同じ重要度ではないですし、また同じ頻度でアクセスされるものではありません。その為、データレイクでは、データの優先順位をつけて階層化（Tier）という概念があります。これによってデータ管理の工数を減らしてくれます。

データベースは今後データレイクになるの？

データレイクのほうが保存できるデータの種類も多く効率的だし、データ活用の幅も広がるのであれば、今後データベースはすべてデータレイクにとってかわられるのでしょうか？

個人的にはすぐにデータベースがなくなることはないと思います。理由としては、現在のアプリケーションを動作させるには、データベースの方が効率的で、パフォーマンスも良いためです。構造化データだけ扱うのであれば、データベースのほうが適しています。

データレイクとデータベースは性質が異なるので、そもそもの存在理由も異なってきます。データベースとデータレイクは互いに補完関係にあると考えられるでしょう。

今後増加する非構造化データの保持に関しては、データレイクは企業のデータ保持の救いとなってくれるのではないでしょうか。

日本でもデータレイクを構築しているという企業がちらほら聞こえ始めています。まだ黎明期という感じですが、今後もデータが増加していくことを考えると、この2、3年で一気に浸透するのではないかと思います。