Data (informatika)
Data v informatice jsou informace převedené do podoby, která je vhodná k počítačovému zpracování. Reprezentace dat v digitálních počítačích je binární: data (např. čísla, texty, obrázky, zvukové záznamy) jsou reprezentována sérií binárních číslic (bitů). Z praktických důvodů se osm bitů seskupuje do jednoho bajtu.
Další definice:
- Data jsou vyjádření (reprezentace) informace formálním způsobem tak, aby je bylo možno přenášet nebo zpracovat počítačem.
- Data jsou posloupnost symbolů, jimž je přiřazena určitá interpretace.
Celkový objem digitálních dat v roce 2007 byl odhadnut na 281 bilionů GB.[1][2]
Textová a binární data
Tradičně se data dělí na textová (obsahují pouze bajty o hodnotě 0–127) a binární (bez omezení, tj. 0–255). Toto dělení dnes už není zcela platné (nástup UTF-8).
V užším pojetí se za data někdy považují jen binární soubory, které nejsou snadno lidmi čitelné, na rozdíl od lidmi čitelných textových souborů.[3] Datové formáty jako SGML, XML a JSON dovolují zachycovat data ve (více či méně) lidsky čitelné podobě.
Data a instrukce. Von Neumannova architektura
Ve von Neumannově architektuře počítače není zásadní rozdíl mezi způsobem uložení dat a instrukcí. Kompilátor generuje budoucí spustitelný kód jako data a počítač jej pak interpretuje jako posloupnost instrukcí určenou ke spuštění. Obvykle se data měnit mohou, kdežto program se nemění. Oddělení programu a dat (na nízké úrovni) je pragmatický přístup, který slouží i jako ochrana proti chybám softwaru a před úmyslnou snahou program narušit.
Formát dat a metadata
Data se sice zapisují jako posloupnosti bajtů, ale lidsky přívětivější je uvažovat na vyšší úrovni abstrakce - např. tento soubor je obrázek, který je zaznamenán v nějakém formátu. Formát dat předepisuje strukturu dat. Formát dat je obvykle standardizován, aby počítače a programy různých výrobců byly schopny spolupracovat. Pod formátem dat většinou rozumíme formát souboru (výměnný formát), ale týká se i třeba archivu na magnetické pásce, nebo uložení dat v paměti počítače.
K datům (sekvencím bajtů) taktéž potřebujeme informaci, co reprezentují: k tomu se používají metadata. Bez této informace bychom měli jen sekvence bajtů a nevěděli, jak je číst. Příkladem metadat je přípona souboru nebo hlavička souboru.
Neveřejné (většinou binární) formáty nutí uživatele používat programy určitého výrobce. Otevřené formáty, často textové, odstraňují do určité míry tuto nepříjemnost.
Ukládání dat
Data jsou uložena např. v operační paměti počítače nebo na datovém médiu (pevný disk, CD, paměťová karta aj.). Operační systém počítače pracuje se soubory prostřednictvím souborového systému.
Databáze je nástroj pro uchovávání a zpracovávání velkého množství dat. Databáze v užším smyslu je uspořádaná množina informací, uložená na paměťovém médiu. A systém řízení báze dat je nástroj pro uchovávání a zpracovávání těchto dat.
Datový typ
Data, s nimiž se operuje v programovacích jazycích, mají přiřazený datový typ. Datový typ určuje, jak se kódují data do bitů (nebo bajtů) a tedy jak se mají chápat bajty dat. Data uložená v paměti se pro uschovávání nebo přenášení serializují do posloupnosti.
Předzpracování dat
Seřazení dat
Data mají některé výhodné vlastnosti, pokud jsou seřazena podle klíče. Všechny hodnoty podmnožin, které mají stejný klíč, jsou zobrazeny „pohromadě“. To usnadňuje agregaci dat na podmnožinách klíče.
Indexy
Vybrání podmnožiny z velkého množství dat vyžaduje prohledávání celého objemu dat. To může být velmi časově náročné. Indexy jsou odvozené, dodatečné struktury, které obsahují hodnoty klíčů a adresy dat (v některých případech přímo hodnoty dat). Při vyhledávání podle klíče zvoleného při indexaci pak indexy výrazně zrychlují vyhledávání dat. Indexy mohou být ukládány například pomocí B-stromů nebo hašovacích tabulek.
Odkazy
Reference
V tomto článku byl použit překlad textu z článku Data (computing) na anglické Wikipedii.
- ↑ Paul, Ryan. Study: amount of digital info > global storage capacity. Ars Technica. March 12, 2008. Dostupné online [cit. 2008-03-12].
- ↑ Gantz, John F. et al. The Diverse and Exploding Digital Universe [online]. International Data Corporation via EMC, 2008 [cit. 2008-03-12]. Dostupné online.
- ↑ file(1) [online]. 2004-12-04 [cit. 2007-03-19]. (OpenBSD Manual Pages). Dostupné online.