5.ストレージ価格ゼロの時代:テラレベルのデータ蓄積コストを無視できる環境。

このエントリーをはてなブックマークに追加
はてなブックマーク - 5.ストレージ価格ゼロの時代:テラレベルのデータ蓄積コストを無視できる環境。
Share on Facebook
Post to Google Buzz
Bookmark this on Yahoo Bookmark
Bookmark this on Livedoor Clip
Share on FriendFeed
5.ストレージ価格ゼロの時代:テラレベルのデータ蓄積コストを無視できる環境。26万社のHP情報から自由に検索/PDBマーケティング株式会社

 技術革新は、実現機能の拡大とともに、その利用コスト低減として世の中に大きなインパクトを与えます。デジタルデータの領域では、累積、蓄積する情報の増大と、蓄積コスト、その利用価値のバランスがいつも課題となってきました。

情報システム停止のリスクまで懸念された、2000年問題は、過去の情報蓄積のストレージコストが
高かったために、西暦年数上二桁、「19」を省略したことが発端です。
ほぼすべてのシステムが日付は、2ケタの省略でした。
この節約によって、膨大な2000年問題対策費用が投下され、今があります。

ストレージ価格の低下は際立っています。
ショップでも1テラバイトディスクが6000円で販売されています。
15年前、64ビットOSがDECから提供された時、1テラバイトのアクセスが可能となりましたが、ディスク設置スペースは教室くらい必要で、価格は数億円ということでした。
OSの64ビット化で、技術的にアクセス可能ということと、その環境を利用できるということにはギャップがありました。
今は完全に解消です。

現時点、当社の対象とする情報は文字情報が中心です。
対象とするHPが20万社から100万社に増加し、各社から1MBの情報を取得しても1テラバイトです。
15年間で数億円から、単純比較ではありませんが、1万円への価格変化です。

情報蓄積コストが、蓄積装置価格の低下で、無視できると収集作業の自動化、収集サイクルを早めて、情報鮮度を上げることが可能です。
膨大なデータをとにかく収集しておいて、必要な情報を抽出する工程が可能となります。

現在、会社INDeXのクローリング(ロボットによる巡回収集)は数日の間隔で行っていますが、
情報更新を準リアルタイムに近づけることも可能です。

                               以上

1. Googleインパクト:HPからの情報を集めることはGoogleから始まった。
2. 電話帳、飲食など特定サイト情報の制約:従来存在する情報サイトの制約、限界
3. 調査会社情報の価値:ネットだけですべての情報が収集できるわけではない
4. 不定型なHPからの情報抽出:見れば明らかな情報を自動的に抽出する困難さ
5. ストレージ価格ゼロの時代:テラレベルのデータ蓄積コストを無視できる環境。
6. 多次元情報からの近似解:特定の権威筋ではなくて、たくさんの情報で、近似する。
7. 増大、迅速化するHPでの情報公開:現在から将来の見通し。
8. 世界への飛躍:海外展開への可能性
9. 情報基盤としてのSorl/Hudoop:利用しているオープンソースツール、ソフトウェアの紹介