큰 데이터베이스 사용하기
이 예는 테라바이트 규모의 데이터베이스를 사용하여 인메모리에서 수행할 수 없는 쿼리를 실시합니다.
Open Street Map은 세계의 무료 지도를 생성하기 위한 공동 노력입니다. 이 프로젝트는 2004년에 만들어진 200만 명이 넘는 사용자가 1 테라바이트를 초과하는 양의 데이터를 지금까지 생성해으며, 이는 아웃 오브 코어 데이터 과학을 나타내는 훌륭한 데이터베이스의 예라할 수 있습니다. 데이터의 취득 방법과 데이터베이스 서버의 설정 방법은 여기에 자세히 설명되어 있습니다.
실체를 이용하기 위해 데이터베이스를 등록합니다.
이것은 매우 큰 데이터베이스이며, 그 가장 큰 테이블인 "planet_osm_nodes"는 200GB 가까운 디스크 용량이 필요합니다. 이 테이블에 몇 개의 행이 포함되어 있는지를 조사합니다.
"Wolf"가 포함된 거리 이름을 모두 구한다고 가정합니다.
불행히도 이 결과는 많은 중복이 포함되지만, 다른 것과 구별할 수 있는 이름의 수를 셀 수 있습니다.
또한 흥미롭게도 "planet_osm_table"에는 다양한 개체에 대한 메타데이터가 많이 포함되어 있습니다. 예를 들어, 몇 그루의 나무가 포함되어 있는지를 조사할 수 있습니다.
또는 가장 일반적인 스포츠 시설이 무엇인지도 조사할 수 있습니다.
결과를 시각화합니다.