大きなデータベースを使う
この例では,テラバイト規模のデータベースを使って,インメモリでは行うことが不可能なクエリを行う.
Open Street Mapは,世界の無料地図を生成するための共同努力である.このプロジェクトは2004年に作成され,200万人をこえるユーザが1テラバイトを超える量のデータをこれまでに生成してきた.これはアウトオブコアのデータサイエンスを示す素晴らしいデータベースの例である.データの取得方法とデータベースサーバの設定方法については,ここに記載されている.
実体を利用するためにデータベースを登録する.
これは非常に大きなデータベースであり,その最大の表である"planet_osm_nodes"には200GB近くのディスク容量が必要である.この表にいくつの行が含まれるかを調べる.
名前にWolfが含まれる通りをすべて求める.
残念ながら,この結果には数多くの重複が含まれるが,他と区別できる名前の数を数えることができる.
さらに興味深いことに,"planet_osm_table"にはさまざまなオブジェクトについてのメタデータが多く含まれている.例えば,何本の木が含まれているかを調べることができる.
最もよくあるスポーツ施設が何であるかを調べることもできる.
結果を可視化する.