Перейти до вмісту

NoSQL

Матеріал з Вікіпедії — вільної енциклопедії.

NoSQL (зазвичай розшифровується як англ. non SQL або англ. non relational[1], іноді англ. not only SQL) — база даних, яка забезпечує механізм зберігання та видобування даних відмінний від підходу таблиць-відношень в реляційних базах даних. Подібні бази даних існували вже в другій половині 1960-х років, але тоді вони ще не здобули гучне ім'я «NoSQL», одержане після сплеску популярності на початку 21-ого століття[2], що був спричинений потребами Web 2.0 компаній, такими як FacebookGoogle, та Amazon.com.[3][4][5] NoSQL бази даних все більше і більше використовуються в задачах із застосуванням великих даних та real-time[en] web-застосунках.[6] NoSQL системи також називають «Not only SQL» (англ. not only SQL — не тільки SQL) для підкреслення того, що вони можуть підтримувати SQL-подібну структуру та мову запитів.[7][8]

Мотиви цього підходу включають: простоту дизайну схеми БД, значно спрощене горизонтальне масштабування на кластери машин (що є проблемою для реляційних баз даних[2]), і тонкий контроль над доступністю. Структури даних, що використовуються в NoSQL (такі як ключ-значення, Wide column store[en], граф, документ) є відмінними від тих, що використовуються за замовчуванням в реляційних базах, що робить тим самим деякі операції над даними значно швидшими на NoSQL. Точна відповідність використання NoSQL бази даних залежить від проблем, які треба вирішити. Іноді структури даних, які використовуються в NoSQL базах можуть розглядатись як більш гнучкі ніж таблиці реляційних моделей.[9]

Багато NoSQL сховищ нехтують узгодженістю даних (у сенсі теореми CAP) на противагу доступності, толерантності до партиціонування, та звісно швидкості. Бар'єрами прийняття парадигми NoSQL сховищ є використання низькорівневої мови запитів (замість добре розвиненого та стандартизованого SQL), брак стандартизованих інтерфейсів і значні інвестиції  в існуючі реляційні бази.[10] Більшість NoSQL сховищ не забезпечують використання ACID транзакцій, однак декілька баз, такі як MarkLogicAerospike, FairCom c-treeACE[en], Google Spanner[en] (що технічно теж NewSQL база даних), Symas LMDB[en], та OrientDB зробили на цьому додатковий акцент. (Див. підтримка ACID та JOIN)

Натомість більшість NoSQL баз даних пропонують концепцію випадкового узгодження даних, в якому зміни в базі продубльовано на всі вузли «випадковим чином» (зазвичай така дія займає мілісекунди), що запити даних можуть не повернути оновлені дані моментально, або ж прочитані дані будуть не точними — давно знана проблема читання станів.[11] На додаток, деякі NoSQL системи можуть містити дротову[уточнити] або іншої форми втрати даних[en].[12] На щастя, деякі NoSQL забезпечують принцип WAL-журналювання англ. write-ahead logging для уникнення втрати даних.[13] Для розподіленої обробки транзакцій, поверх множинних баз даних, узгодженість даних, як наслідок, навіть більше завдання ніж воно постає при реляційному підході. Навіть нинішні реляційні бази  не гарантують цілісність посилальну цілісність для розподілених баз даних.[14] Існує всього декілька систем, які підтримують як ACID транзакції, так і X/Open XA стандарти для обробки транзакцій на розподілених базах даних.

Історія

Термін NoSQL було використано Карлом Строззі у 1998 як назву для його СУБД-легковаговика, Strozzi NoSQL open-source relational database що не слугувався стандартом Structured Query Language (SQL) інтерфейсу, проте все ще залишався реляційним. 

Джоан Оскарссон на Last.fm перепредставив термін NoSQL на початку 2009 року, коли він організував подію-обговорення розподілнених, з відкритим кодом, нереляційних баз даних. Ім'я здійснило спробу ознаменувати несподіваний ріст нереляційних, розподілених сховищ даних, що включає відкрите клонування та доступ до коду. Більшість ранніх NoSQL систем не пробували акцентувати увагу на atomicity, consistency, isolation and durability гарантії, всупереч усталеній практиці серед реляційних систем управління базами даних

Базуючись на даних доходу у 2014 році, лідерами NoSQL ринку є MarkLogicMongoDB та Datastax. Базуючись на 2015 році - найпопулярнішими є NoSQL бази даних, такі як MongoDBApache Cassandra, та Redis.

Типи та приклади NoSQL баз даних

Відомо декілька способів класифікації NoSQL баз даних, кожен зі своїм набором категорій, деякі з них частково збігаються. Розглянемо базову класифікацію за моделями даних:

  • Колонка: Accumulo, Cassandra, Druid, HBase, Vertica
  • Документ: Apache CouchDB, Clusterpoint, Couchbase, DocumentDB, HyperDex, IBM Domino, MarkLogic, MongoDB, OrientDB, Qizx, RethinkDB
  • Ключ-значення: Aerospike, Couchbase, Dynamo, FairCom c-treeACE, FoundationDB, HyperDex, MemcacheDB, MUMPS, Oracle NoSQL Database, OrientDB, Redis, Riak, Berkeley DB
  • Граф: AllegroGraph, ArangoDB, InfiniteGraph, Apache Giraph, MarkLogic, Neo4J, OrientDB, Virtuoso, Stardog
  • Мульти-модель: Alchemy Database, ArangoDB, CortexDB, Couchbase, FoundationDB, MarkLogic, OrientDB

Більш деталізована версія

Оригінальна назва Тип Приклад
Key-Value Cache Ключ-значення: кеш CoherenceeXtreme ScaleGigaSpaces, GemFire, HazelcastInfinispan, JBoss Cache, Memcached, Repcached, TerracottaVelocity
Key-Value Store Ключ-значення: сховище Flare, Keyspace, RAMCloud, SchemaFree, HyperdexAerospike
Key-Value Store (Eventually-Consistent) Ключ-значення: сховище (випадково-узгоджене) DovetailDB, Oracle NoSQL DatabaseDynamoRiak, Dynomite, MotionDb, Voldemort, SubRecord
Key-Value Store (Ordered) Ключ-значення: сховище (впорядковане) Actord, FoundationDB, Lightcloud, LMDB, Luxio, MemcacheDB, NMDB, Scalaris, TokyoTyrant
Data-Structures Server Сервер структурованих даних Redis
Tuple Store Кортеж: сховище Apache River, Coord, GigaSpaces
Object Database Об'єктна база даних DB4O, Objectivity/DBPerst, Shoal, ZopeDB
Document Store Документ: сховище ClusterpointCouchbaseCouchDBDocumentDBIBM DominoMarkLogicMongoDBQizxRethinkDBXML-databases
Wide Column Store Широко-колонкове сховише BigTableCassandraDruidHBaseHypertable, KAI, KDI, OpenNeptune, Qbase

Ключ-значення

Ключ-значення (англ. Key-value, KV) сховище використовує асоціативний масив (знаний як карта або словник) як основну модель даних. В цій моделі дані представляються як колекція з пар типу ключ-значення, при тому що кожен можливий ключ з'являється в колекціях не більше одного разу.

Модель такого типу є однією із найпростіших, і багатші моделі зазвичай реалізовані як їх розширення. Модель типу ключ-значення може бути розширена до скінченно впорядкованої, що підтримує ключі в лексикографічному порядку. Це розширення є обчислювально потужним, в тому, що він може ефективно видобувати селективні діапазони ключів.

Моделі типу ключ-значення можуть використовувати різні рівні узгодженості, починаючи від випадкової і завершуючи серіалізованими даними. Деякі бази даних підтримують впорядковані ключі. Існують різні реалізації апаратного забезпечення, і деякі користувачі підтримують дані в пам'яті (RAM), в той час як інші використовують HDD накопичувачі або класичні обертові диски.

Приклад: Oracle NoSQL DatabaseRedis, and dbm.

Документні сховища

Центральним поняттям такої моделі даних є "документ". У той час кожна документно-орієнтована реалізація бази даних відрізняється від деталей цього визначення, в загальному, всі вони припускають, що документи і інкапсулюють та шифрують збережені дані в деяких стандартних форматах або кодуваннях. Кодування на практиці включає XML, YAML і JSON, а також бінарні форми, як BSON. Документи адресуються в базі даних за допомогою унікального ключа.

Різноманітні способи реалізації пропонують різноманітні підходи і (або) способи групування документів:

  • Колекції
  • Теги
  • Невидимі мета-дані
  • Ієрархія директорій

У порівнянні з реляційними, колекції, до прикладу, можна розглядати як аналоги таблиць а документи - аналоги до записів. Однак існує відмінність: кожен запис в таблиці має сталу послідовність атрибутів, в той час як документні бази можуть містити в колекції набори з абсолютно відмінними атрибутами

Графи

Цей тип баз даних розроблений для даних, де дані можуть бути представлені у вигляді складових вершин графу, об'єднаних скінченним числом зв'язків між ними. Таким типом даних можуть бути соціальні мережі, мережі громадського транспорту, карти доріг тощо.

Графові бази даних та їх мови запитів
База даних (назва) Мова(и) Примітки
AllegroGraph SPARQL RDF кортеж
DEX/Sparksee C++Java.NETPython Графова база даних
FlockDB Scala Графова база даних
IBM DB2 SPARQL RDF кортеж, доданий в DB2 10
InfiniteGraph Java Графова база даних
MarkLogic JavaJavaScriptSPARQLXQuery Мульти модельна документна база та RDF кортеж
Neo4j Cypher Графова база даних
OWLIM JavaSPARQL 1.1 RDF кортеж
Oracle SPARQL 1.1 RDF кортеж 11g
OrientDB Java Мульти-модельна документна база і графова база даних
Sqrrl Enterprise Java Графова база даних
OpenLink Virtuoso C++C#JavaSPARQL Гібрид Middleware та database engine 
Stardog JavaSPARQL Графова база даних

Продуктивність

Бен Скотфілд оцінив різні категорії NoSQL баз даних:

Модель даних Продуктивність Масштабованість Гнучкість Складність Функціональність
Key–Value Store high high high none variable (none)
Column-Oriented Store high high moderate low minimal
Document-Oriented Store high variable (high) high low variable (low)
Graph Database variable variable high high graph theory
Relational Database variable variable low moderate relational algebra

Обробка реляційних даних

Оскільки у більшості NoSQL баз даних відсутня можливість для операцій з'єднання в запитах, схема БД повинна бути спроектована іншим чином. Виділяють три техніки обробки реляційних даних в NoSQL базах:

Множинні запити

Підхід розбиття складних запитів на підмножину простих. NoSQL запити зазвичай простіші за традиційні SQL запити, тож можливість запуску додаткових запитів є доцільною з точки зору сумарного часу виконання. У випадку потреби запуску значної кількості запитів, варто розглянути наступні два підходи.

Кешування/Реплікація/Ненормалізовані дані

На відміну від зберігання вийнятково зовнішніх ключів, звичний підхід зберігати зовнішні значення заразом з даними моделі. До прикладу, кожен коментар блогу може включати ім'я користувача окрім його id, забезпечуючи тим самим легкий доступ до імені користувача, не вимагаючи іншого пошуку. Однак, коли ім'я користувача було змінено - це тепер вимагатиме змін в багатьох місцях. Таким чином, цей підхід працює краще, при частому читанні даних, ніж їх модифікації.

Вкладені дані

В документних базах, таких як MongoDB це цілком звично розміщувати більше даних в меншу кількість колекцій. До прикладу, застосунок типу блог може зберігати коментарі до певного посту як один запис. При цьому підході один документ міститиме всі необхідні дані для певного типу завдань.

Підтримка ACID та JOIN

Якщо база даних відзначена як така, що підтримує ACID чи joins, це означає, що це підтверджено в її документації. Ступінь підтримки в тій чи іншій мірі відповідає потребам конкретного застосування.

Database ACID Joins
Aerospike Так Ні
Apache Ignite Так Так
ArangoDB Так Так
CouchDB Так Так
c-treeACE Так Так
Db2 Так Так
InfinityDB Так Ні
LMDB Так Ні
MarkLogic Так Так[nb 1]
OrientDB Так Так[nb 2]
  1. Приєднання виконуються не обов'язково над документами баз даних, проте MarkLogic може виконати приєднання за допомогою семантики.[15]
  2. OrientDB може зробити 1:1 приєднання за допомогою зберігання прямих посилань на зовнішні записи.[16]

Посилання

  1. http://nosql-database.org/ «NoSQL DEFINITION: Next Generation Databases mostly addressing some of the points: being non-relational, distributed, open-source and horizontally scalable»
  2. а б Leavitt, Neal (2010). Will NoSQL Databases Live Up to Their Promise? (PDF). IEEE Computer.
  3. Mohan, C. (2013). History Repeats Itself: Sensible and NonsenSQL Aspects of the NoSQL Hoopla (PDF). Proc. 16th Int'l Conf. on Extending Database Technology.
  4. NOSQL meetup Tickets, Thu, Jun 11, 2009 at 10:00 AM. Eventbrite.com. Процитовано 6 березня 2017.
  5. Amazon Goes Back to the Future With 'NoSQL' Database. WIRED. 19 січня 2012. Процитовано 6 березня 2017.
  6. RDBMS dominate the database market, but NoSQL systems are catching up. DB-Engines.com. 21 Nov 2013. Процитовано 24 Nov 2013.
  7. NoSQL (Not Only SQL). NoSQL database, also called Not Only SQL
  8. Fowler, Martin. NosqlDefinition. many advocates of NoSQL say that it does not mean a "no" to SQL, rather it means Not Only SQL
  9. Vogels, Werner (18 січня 2012). Amazon DynamoDB – a Fast and Scalable NoSQL Database Service Designed for Internet Scale Applications. All Things Distributed. Процитовано 6 березня 2017.
  10. Grolinger, K.; Higashino, W. A.; Tiwari, A.; Capretz, M. A. M. (2013). Data management in cloud environments: NoSQL and NewSQL data stores (PDF). Aira, Springer. Процитовано 8 Jan 2014.
  11. Jepsen: MongoDB stale reads. Aphyr.com. 20 квітня 2015. Процитовано 6 березня 2017.
  12. Large volume data analysis on the Typesafe Reactive Platform. Slideshare.net. Процитовано 6 березня 2017.
  13. Fowler, Adam. 10 NoSQL Misconceptions. Dummies.com. Процитовано 6 березня 2017.
  14. No! to SQL and No! to NoSQL | So Many Oracle Manuals, So Little Time. Iggyfernandez.wordpress.com. Процитовано 6 березня 2017.
  15. Can’t do joins with MarkLogic? It’s just a matter of Semantics! - General Networks. Gennet.com. Процитовано 6 березня 2017.
  16. SQL Reference · OrientDB Manual. OrientDB.com. Процитовано 24 квітня 2017.