NoSQL
NoSQL (спочатку розшифровувалось як англ. non SQL або англ. non relational[1], іноді англ. not only SQL) — база даних, яка забезпечує механізм зберігання та видобування даних відмінний від підходу таблиць-відношень в реляційних базах даних. Подібні бази даних існували вже в другій половині 1960-х років, але тоді вони ще не здобули гучне ім'я «NoSQL», одержане після сплеску популярності на початку 21-ого століття[2], що був спричинений потребами Web 2.0 компаній, такими як Facebook, Google, та Amazon.com.[3][4][5] NoSQL бази даних все більше і більше використовуються в задачах із застосуванням великих даних та real-time[en] web-застосунках.[6] NoSQL системи також називають «Not only SQL» (англ. not only SQL — не тільки SQL) для підкреслення того, що вони можуть підтримувати SQL-подібну структуру та мову запитів.[7][8]
Мотиви цього підходу включають: простоту дизайну схеми БД, значно спрощене горизонтальне масштабування на кластери машин (що є проблемою для реляційних баз даних[2]), і тонкий контроль над доступністю. Структури даних, що використовуються в NoSQL (такі як ключ-значення , Wide column store[en], граф, документ) є відмінними від тих, що використовуються за замовчуванням в реляційних базах, що робить тим самим деякі операції над даними значно швидшими на NoSQL. Точна відповідність використання NoSQL бази даних залежить від проблем, які треба вирішити. Іноді структури даних, які використовуються в NoSQL базах можуть розглядатись як більш гнучкі ніж таблиці реляційних моделей.[9]
Багато NoSQL сховищ нехтують узгодженістю даних (у сенсі теореми CAP) на противагу доступності, толерантності до партиціонування, та звісно швидкості. Бар'єрами прийняття парадигми NoSQL сховищ є використання низькорівневої мови запитів (замість добре розвиненого та стандартизованого SQL), брак стандартизованих інтерфейсів і значні інвестиції в існуючі реляційні бази. Більшість NoSQL сховищ далеко не забезпечують добре знані ACID транзакції, однак декілька баз, такі як MarkLogic, Aerospike, FairCom c-treeACE, Google Spanner (що технічно теж NewSQL база даних), Symas LMDB, та OrientDB зробили на цьому додатковий акцент.
Натомість більшість NoSQL баз даних пропонують концепцію випадкового узгодження даних, в якому зміни в базі продубльованно на всі вузли «випадковим чином» (зазвичай така дія займає мілісекунди), що запити даних можуть не повернути оновлені дані моментально, або ж прочитані дані будуть не точними — давно знана проблема читання станів. На додаток, деякі NoSQL системи можуть містити дротову або іншої форми втрату даних. На щастя, деякі NoSQL забезпечують принцип write-ahead logging для уникнення втрати даних. Для розподіленої обробки транзакцій, поверх множинних баз даних, узгодженість даних, як наслідок, навіть більше завдання ніж воно постає при реляційному підході. навіть поточні реляційні бази не гарантують цілісність посилань для розширених баз даних. Це всього декілька систем що підтримують як і ACID транзакції так і X/Open XA стандарти для підтримки обробки транзакцій на розподілених базах даних.
Історія
Термін NoSQL було використано Карлом Строззі у 1998 як назву для його СУБД-легковаговика, Strozzi NoSQL open-source relational database що не слугувався стандартом Structured Query Language (SQL) інтерфейсу, проте все ще залишався реляційним.
Джоан Оскарссон на Last.fm перепредставив термін NoSQL на початку 2009 року, коли він організував подію-обговорення розподілнених, з відкритим кодом, нереляційних баз даних. Ім'я здійснило спробу ознаменувати несподіваний ріст нереляційних, розподілених сховищ даних, що включає відкрите клонування та доступ до коду. Більшість ранніх NoSQL систем не пробували акцентувати увагу на atomicity, consistency, isolation and durability гарантії, всупереч усталеній практиці серед реляційних систем управління базами даних
Базуючись на даних доходу у 2014 році, лідерами NoSQL ринку є MarkLogic, MongoDB та Datastax. Базуючись на 2015 році - найпопулярнішими є NoSQL бази даних, такі як MongoDB, Apache Cassandra, та Redis.
Типи та приклади NoSQL баз даних
Відомо декілька способів класифікації NoSQL баз даних, кожен зі своїм набором категорій, деякі з них частково збігаються. Розглянемо базову класифікацію за моделями даних:
- Колонка: Accumulo, Cassandra, Druid, HBase, Vertica
- Документ: Apache CouchDB, Clusterpoint, Couchbase, DocumentDB, HyperDex, IBM Domino, MarkLogic, MongoDB, OrientDB, Qizx, RethinkDB
- Ключ-значення: Aerospike, Couchbase, Dynamo, FairCom c-treeACE, FoundationDB, HyperDex, MemcacheDB, MUMPS, Oracle NoSQL Database, OrientDB, Redis, Riak, Berkeley DB
- Граф: AllegroGraph, ArangoDB, InfiniteGraph, Apache Giraph, MarkLogic, Neo4J, OrientDB, Virtuoso, Stardog
- Мульти-модель: Alchemy Database, ArangoDB, CortexDB, Couchbase, FoundationDB, MarkLogic, OrientDB
Більш деталізована версія
Оригінальна назва | Тип | Приклад |
---|---|---|
Key-Value Cache | Ключ-значення: кеш | Coherence, eXtreme Scale, GigaSpaces, GemFire, Hazelcast, Infinispan, JBoss Cache, Memcached, Repcached, Terracotta, Velocity |
Key-Value Store | Ключ-значення: сховище | Flare, Keyspace, RAMCloud, SchemaFree, Hyperdex, Aerospike |
Key-Value Store (Eventually-Consistent) | Ключ-значення: сховище (випадково-узгоджене) | DovetailDB, Oracle NoSQL Database, Dynamo, Riak, Dynomite, MotionDb, Voldemort, SubRecord |
Key-Value Store (Ordered) | Ключ-значення: сховище (впорядковане) | Actord, FoundationDB, Lightcloud, LMDB, Luxio, MemcacheDB, NMDB, Scalaris, TokyoTyrant |
Data-Structures Server | Сервер структурованих даних | Redis |
Tuple Store | Кортеж: сховище | Apache River, Coord, GigaSpaces |
Object Database | Об'єктна база даних | DB4O, Objectivity/DB, Perst, Shoal, ZopeDB |
Document Store | Документ: сховище | Clusterpoint, Couchbase, CouchDB, DocumentDB, IBM Domino, MarkLogic, MongoDB, Qizx, RethinkDB, XML-databases |
Wide Column Store | Широко-колонкове сховише | BigTable, Cassandra, Druid, HBase, Hypertable, KAI, KDI, OpenNeptune, Qbase |
Ключ-значення
Ключ-значення (англ. Key-value, KV) сховище використовує асоціативний масив (знаний як карта або словник) як основну модель даних. В цій моделі дані представляються як колекція з пар типу ключ-значення, при тому що кожен можливий ключ з'являється в колекціях не більше одного разу.
Модель такого типу є однією із найпростіших, і багатші моделі зазвичай реалізовані як їх розширення. Модель типу ключ-значення може бути розширена до скінченно впорядкованої, що підтримує ключі в лексикографічному порядку. Це розширення є обчислювально потужним, в тому, що він може ефективно видобувати селективні діапазони ключів.
Моделі типу ключ-значення можуть використовувати різні рівні узгодженості, починаючи від випадкової і завершуючи серіалізованими даними. Деякі бази даних підтримують впорядковані ключі. Існують різні реалізації апаратного забезпечення, і деякі користувачі підтримують дані в пам'яті (RAM), в той час як інші використовують HDD накопичувачі або класичні обертові диски.
Приклад: Oracle NoSQL Database, Redis, and dbm.
Документні сховища
Центральним поняттям такої моделі даних є "документ". У той час кожна документно-орієнтована реалізація бази даних відрізняється від деталей цього визначення, в загальному, всі вони припускають, що документи і інкапсулюють та шифрують збережені дані в деяких стандартних форматах або кодуваннях. Кодування на практиці включає XML, YAML і JSON, а також бінарні форми, як BSON. Документи адресуються в базі даних за допомогою унікального ключа.
Різноманітні способи реалізації пропонують різноманітні підходи і (або) способи групування документів:
- Колекції
- Теги
- Невидимі мета-дані
- Ієрархія директорій
У порівнянні з реляційними, колекції, до прикладу, можна розглядати як аналоги таблиць а документи - аналоги до записів. Однак існує відмінність: кожен запис в таблиці має сталу послідовність атрибутів, в той час як документні бази можуть містити в колекції набори з абсолютно відмінними атрибутами
Графи
Цей тип баз даних розроблений для даних, де дані можуть бути представлені у вигляді складових вершин графу, об'єднаних скінченним числом зв'язків між ними. Таким типом даних можуть бути соціальні мережі, мережі громадського транспорту, карти доріг тощо.
- Графові бази даних та їх мови запитів
База даних (назва) | Мова(и) | Примітки |
---|---|---|
AllegroGraph | SPARQL | RDF кортеж |
DEX/Sparksee | C++, Java, .NET, Python | Графова база даних |
FlockDB | Scala | Графова база даних |
IBM DB2 | SPARQL | RDF кортеж, доданий в DB2 10 |
InfiniteGraph | Java | Графова база даних |
MarkLogic | Java, JavaScript, SPARQL, XQuery | Мульти модельна документна база та RDF кортеж |
Neo4j | Cypher | Графова база даних |
OWLIM | Java, SPARQL 1.1 | RDF кортеж |
Oracle | SPARQL 1.1 | RDF кортеж 11g |
OrientDB | Java | Мульти-модельна документна база і графова база даних |
Sqrrl Enterprise | Java | Графова база даних |
OpenLink Virtuoso | C++, C#, Java, SPARQL | Гібрид Middleware та database engine |
Stardog | Java, SPARQL | Графова база даних |
Продуктивність
Бен Скотфілд оцінив різні категорії NoSQL баз даних:
Модель даних | Продуктивність | Масштабованість | Гнучкість | Складність | Функціональність |
---|---|---|---|---|---|
Key–Value Store | high | high | high | none | variable (none) |
Column-Oriented Store | high | high | moderate | low | minimal |
Document-Oriented Store | high | variable (high) | high | low | variable (low) |
Graph Database | variable | variable | high | high | graph theory |
Relational Database | variable | variable | low | moderate | relational algebra |
Обробка реляційних даних
Оскільки у більшості NoSQL баз даних відсутня можливість для операцій з'єднання в запитах, схема БД повинна бути спроектована іншим чином. Виділяють три техніки обробки реляційних даних в NoSQL базах:
Множинні запити
Підхід розбиття складних запитів на підмножину простих. NoSQL запити зазвичай простіші за традиційні SQL запити, тож можливість запуску додаткових запитів є доцільною з точки зору сумарного часу виконання. У випадку потреби запуску значної кількості запитів, варто розглянути наступні два підходи.
Кешування/Реплікація/Ненормалізовані дані
На відміну від зберігання вийнятково зовнішніх ключів, звичний підхід зберігати зовнішні значення заразом з даними моделі. До прикладу, кожен коментар блогу може включати ім'я користувача окрім його id, забезпечуючи тим самим легкий доступ до імені користувача, не вимагаючи іншого пошуку. Однак, коли ім'я користувача було змінено - це тепер вимагатиме змін в багатьох місцях. Таким чином, цей підхід працює краще, при частому читанні даних, ніж їх модифікації.
Вкладені дані
В документних базах, таких як MongoDB це цілком звично розміщувати більше даних в меншу кількість колекцій. До прикладу, застосунок типу блог може зберігати коментарі до певного посту як один запис. При цьому підході один документ міститиме всі необхідні дані для певного типу завдань.
Підримка ACID та JOIN
Якщо база даних відзначена як така, що підтримує ACID чи joins, це означає що це підтверджено в її документації. Ступінь підтримки в тій чи іншій мірі відповідає потребам конкретного застосування.
Database | ACID | Joins |
---|---|---|
Aerospike | Yes | No |
ArangoDB | Yes | Yes |
CouchDB | Yes | Yes |
c-treeACE | Yes | Yes |
HyperDex | Yes | Yes |
InfinityDB | Yes | No |
LMDB | Yes | No |
MarkLogic | Yes | Yes |
OrientDB | Yes | Yes |
Посилання
- ↑ http://nosql-database.org/ «NoSQL DEFINITION: Next Generation Databases mostly addressing some of the points: being non-relational, distributed, open-source and horizontally scalable»
- ↑ а б Leavitt, Neal (2010). Will NoSQL Databases Live Up to Their Promise? (PDF). IEEE Computer.
- ↑ Mohan, C. (2013). History Repeats Itself: Sensible and NonsenSQL Aspects of the NoSQL Hoopla (PDF). Proc. 16th Int'l Conf. on Extending Database Technology.
- ↑ NOSQL meetup Tickets, Thu, Jun 11, 2009 at 10:00 AM. Eventbrite.com. Процитовано 6 березня 2017.
- ↑ Amazon Goes Back to the Future With 'NoSQL' Database. WIRED. 19 січня 2012. Процитовано 6 березня 2017.
- ↑ RDBMS dominate the database market, but NoSQL systems are catching up. DB-Engines.com. 21 Nov 2013. Процитовано 24 Nov 2013.
- ↑ NoSQL (Not Only SQL).
NoSQL database, also called Not Only SQL
- ↑ Fowler, Martin. NosqlDefinition.
many advocates of NoSQL say that it does not mean a "no" to SQL, rather it means Not Only SQL
- ↑ Vogels, Werner (18 січня 2012). Amazon DynamoDB – a Fast and Scalable NoSQL Database Service Designed for Internet Scale Applications. All Things Distributed. Процитовано 6 березня 2017.