Data (informatika)
Data v informatice jsou informace převedené do podoby, která je vhodná k počítačovému zpracování. Reprezentace dat v digitálních počítačích je binární: data (např. čísla, texty, obrázky, zvukové záznamy) jsou reprezentována sérií binárních číslic (bitů). Z praktických důvodů se osm bitů seskupuje do jednoho bajtu.
Další definice:
- Data jsou vyjádření (reprezentace) informace formálním způsobem tak, aby je bylo možno přenášet nebo zpracovat počítačem.
- Data jsou posloupnost symbolů, jimž je přiřazena určitá interpretace.
Celkový objem digitálních dat v roce 2007 byl odhadnut na 281 bilionů GB.[1][2]
Textová a binární data
Tradičně se data dělí na textová (obsahují pouze bajty o hodnotě 0-127) a binární (bez omezení, tj. 0-255). Toto dělení dnes už není zcela platné (nástup UTF-8).
V užším pojetí se za data někdy považují jen binární soubory, které nejsou snadno lidmi čitelné, na rozdíl od lidmi čitelných textových souborů.[3] Datové formáty jako SGML, XML a JSON dovolují zachycovat data ve více (či méně) lidsky čitelné podobě.
Formát dat, metadata
Data se sice zapisují jako posloupnosti bajtů, ale lidsky přívětivější je uvažovat na vyšší úrovni abstrakce - např. tento soubor je obrázek, který je zaznamenán v nějakém formátu. Formát dat předepisuje určitou strukturu dat. I když pod formátem dat většinou rozumíme formát souboru (výměnný formát?), týká se i archivu na mag. pásce, nebo uložení dat v paměti počítače. Formát dat (v širokém smyslu, nejen souborů) je obvykle standardizován, aby počítače a programy různých výrobců byly schopny spolupracovat.
K datům (sekvencím bajtů) taktéž potřebujeme informaci, co reprezentují: k tomu se používají metadata.
Bez této informace bychom měli jen sekvence bajtů a nevěděli, jak je máme číst.
Příkladem metadat je přípona souboru nebo hlavička souboru.
Veřejné a neveřejné formáty
Otevřené a uzavřené formáty
Neveřejné (většinou binární) formáty nutí uživatele používat programy určitého výrobce. Otevřené formáty, často textové, odstraňují do určité míry tuto nepříjemnost.
Ukládání a přenos dat
Data jsou uložena např. v operační paměti počítače nebo na datovém médiu (pevný disk, CD, paměťová karta, ...). Operační systém počítače pracuje se soubory prostřednictvím souborového systému.
Databáze je nástroj pro uchovávání a zpracovávání velkého množství dat. Databáze v užším smyslu je uspořádaná množina informací, uložená na paměťovém médiu. A systém řízení báze dat je nástroj pro uchovávání a zpracovávání těchto dat. ? Data mining je proces získávání netriviálních skrytých a potenciálně užitečných informací z dat.
Datový typ
Data s nimiž se operuje v programovacích jazycích mají datový typ. Typ určuje, jak se kódují data do bitů (nebo bajtů) a tedy jak se mají chápat bajty dat. ... Data type, constraint placed upon the interpretation of data in a type system Data uložená v paměti se pro uschovávání nebo přenášení serializují do posloupnosti.
Datové struktury
- Datová struktura
- Adresa (informatika)
- Datové struktury. Předzpracování. Indexy.
- Data a algoritmy
Konverze a transformace dat
- Komprese: snižujeme R
Ochrana dat
- Komprese: snižujeme R - Ochrana dat, kontrolní součty: zvyšujeme R
- Kontrolní součet proti porušení dat (do určité mírt)
- Šifrování dat se používá proti nežádoucímu přečtení
- Ochrana digitálních dokumentů
- Steganografie
- Zálohování dat
Data a instrukce. Von Neumannova architektura
Ve von Neumannově architektuře počítače není zásadní rozdíl mezi způsobem uložení dat a instrukcí. Kompilátor generuje budoucí spustitelný kód jako data a ta se pak spustí. Počítače při svém běhu provádějí posloupnost instrukcí. Řada instrukcí k vykonání úlohy se nazývá počítačový program, na nízké úrovni pak vykonatelný kód. Ten je pak vykonáván počítačem a je zapsán ve strojovém kódu. Obvykle se data měnit můžou a program se nemění. Oddělení programu a dat (na nízké úrovni) je pragmatický přístup, který slouží i jako ochrana proti chybám softwaru a před úmyslnou snahou program narušit.
Adresování
- Operační paměť
- Hlavní paměť počítače nebo RAM je organizovaná jako pole sad elektronických spínačů nebo adres, které začínají na nule. Každá adresa může uložit byte (obvykle 8, 16, 32 nebo 64 bitů v závislosti na architektuře procesoru). Proto má každá hodnota uložená v RAM adresu, která je rovna odchylce od počáteční adresy. Např. na adrese 0+n, kde n je zmiňovaná odchylka.
Obsahem adresovatelná paměť je myšlena asociativní paměť??? - Obsahem adresovatelná paměť
- Datové klíče nemusí být přímou hardwarovou adresou v paměti. Nepřímé, abstraktní a logické klíče mohou být uloženy společně s hodnotami, aby utvořily datové struktury. Datové struktury mají předdefinované odchylky (nebo linky nebo cesty) od začátku struktury, ve kterých jsou hodnoty dat uloženy. Proto se datový klíč skládá z klíče a odchylky (nebo linků nebo cest) struktury. Když se taková struktura opakuje, ukládání variací datových hodnot a klíčů ve stejné opakující se struktuře, na výsledek může být pohlíženo tak, že připomíná tabulku, v které je každý element opakující se struktury považován za sloupec a každé opakování struktury se považuje za řádek. V takové organizaci dat je datový klíč obvykle hodnotou (nebo složením hodnot v několika sloupcích) v některém sloupci.
Předzpracování dat
Seřazení dat
Data mají některé výhodné vlastnosti, pokud jsou tříděna podle klíče. Všechny hodnoty podmnožin, které mají stejný klíč, jsou zobrazeny pohromadě. To usnadňuje agregaci dat na podmnožinách klíče.
Indexy
Vybrání podmnožiny z velkého množství dat vyžaduje sekvenční vyhledávání napříč daty. To je časově velmi náročné. Indexy je způsob kopírování hodnot klíčů a adres dat do odvozené datové struktury. Tato data mohou být ukládána například pomocí B-stromu a hashovacích funkcí. Indexy zrychlují vyhledávání dat podle příslušného klíče.
Reference
- ↑ Paul, Ryan. Study: amount of digital info > global storage capacity. Ars Technica. March 12, 2008. Dostupné online [cit. 2008-03-12].
- ↑ Gantz, John F. et al. The Diverse and Exploding Digital Universe [online]. International Data Corporation via EMC, 2008 [cit. 2008-03-12]. Dostupné online.
- ↑ file(1) [online]. 2004-12-04 [cit. 2007-03-19]. (OpenBSD Manual Pages). Dostupné online.
Související články
V tomto článku byl použit překlad textu z článku Data (computing) na anglické Wikipedii.