суббота, 26 июня 2010 г.

[prog] Несколько фактов из статьи The NoSQL Alternative

В конце мая в Dr.Dobb’s Journal появилась статья The NoSQL Alternative, в которой вкратце рассказывается о хранилищах данных, не использующих SQL.

Сама по себе статья меня не тронула, поскольку с альтернативами реляционным базам – тогда это были объектно-ориентированные базы – я познакомился даже раньше, чем с самими реляционными БД. Поэтому меня не удивляет, что в определенных областях NoSQL рвут SQL как тузик грелку :)

Но вот несколько цифр, которые приведены в статье, заслуживают внимания. Поскольку позволяют оценить масштабы некоторых задач и решений. Итак:

  • на март 2010 года в хранилище Amazon Dynamo находилось порядка 102 миллиардов объектов;
  • сервис YouTube использует BigTable для хранения около 100 миллионов видеороликов общим объемом в 600TB;
  • сервис Twitter со временем перешел от MySQL к комбинированному хранилищу, включающему в себя MySQL/memcahed и 45 узлов, на которых работает хранилище Cassandra. Это комбинированное решение позволяет обрабатывать около 50 миллионов твитов ежедневно;
  • Facebook с помощью Cassandra обрабатывает около 60 миллионов новых фотографий в неделю;
  • в сервисе Digg хранилище Cassandra хранит порядка 3TB данных;
  • исследователи из Yahoo использовали Hadoop MapReduce на 3800 узлах для сортировки петабайта данных. Сортировка заняла 16.25 часов.

Комментариев нет: