Přeskočit na obsah

Data science

Z Wikipedie, otevřené encyklopedie

Data science neboli datová věda je interdisciplinární obor, který využívá vědecké metody, procesy, algoritmy a systémy pro získávání znalostí a poznatků z dat v různých podobách, jak strukturovaných, tak nestrukturovaných[1][2] podobně jako data mining.

Data science "sjednocuje statistiku, analýzu dat, strojové učení a související metody" s cílem "pochopit a analyzovat skutečné jevy" na základě dat.[3] Využívá techniky a teorie čerpané z mnoha oblastí matematiky, statistiky, informatiky a matematické informatiky.

Nositel Turingovy ceny Jim Gray si data science představoval jako „čtvrté paradigma“ vědy (empirické, teoretické, výpočetní a nyní založené na datech) a tvrdil, že „všechno ve vědě se mění v důsledku vlivu informačních technologií“ a záplavy dat.[4][5]

V roce 2012, kdy Harvard Business Review nazval data science "nejvíce sexy zaměstnáním 21. století"[6] se tento termín stal módním slovem. To je nyní často používáno zaměnitelně se staršími pojmy jako business analytics,[7] business intelligence, prediktivní modelování, data mining a statistika. Dokonce i myšlenka, že datová věda je sexy, parafrázuje Hanse Roslinga, který v dokumentu BBC 2011 prohlásil: "Statistika je nyní nejvíce sexy téma, které tu máme."[8] Nate Silver označil datovou vědu za sexy termín pro statistiku.[9] V mnoha případech jsou nyní dřívější přístupy a řešení jednoduše přejmenovávány jako data science, aby byly atraktivnější, což může způsobit, že termín se "zředí [...] za hranici užitečnosti".[10] I když mnohé univerzitní programy nyní nabízejí titul v oboru datové vědy, neexistuje konsensus o její definici nebo o obsahu učebních osnov.[7] K diskreditaci data science přispívá mnoho projektů v oblasti datové vědy a velkých dat, které nedokázaly poskytnout užitečné výsledky, často v důsledku špatného řízení a využívání zdrojů.[11][12][13][14]

Dějiny

Termín datová věda se objevoval v různých souvislostech už desítky let, ale až donedávna se neustálil. Dříve byl používán jako synonymum informatiky Peterem Naurem v roce 1960. Naur později představil termín "datalogy".[15] V roce 1974 vydal Naur knihu Concise Survey of Computer Methods (Stručný přehled počítačových metod), kde volně využíval termín data science v přehledu současných metod zpracování dat používaných v široké škále aplikací.

V roce 1996 se členové Mezinárodní federace klasifikačních společností (Federation of Classification Societies, IFCS) sešli v Kóbe na konferenci konané každé dva roky. Zde se poprvé termín data science objevil v názvu konference (Data Science, classification, and related methods - Věda o datech, klasifikace a související metody).[16][16] poté, co byl zaveden v neformální diskusi Chikiem Hayashim.[3]

V listopadu 1997 přednesl C. F. Jeff Wu inaugurační přednášku nazvanou "Statistics = Data Science?"[17] u příležitosti jmenování profesorem Michiganské univerzity.[18] V přednášce charakterizoval statistickou práci jako trojici sběru dat, modelování či analýzy dat a rozhodování. Na závěr uvedl moderní použití termínu data science mimo kontext informatiky a navrhl přejmenování statistiky na data science a statistiků na data scientisty, datové vědce.[17] Později přednášku "Statistics = Data Science"? zopakoval roku 1998 jako první ze svých Mahalanobisovských přednášek.[19]

V roce 2001 William S. Cleveland uvedl datovou vědu jako nezávislou disciplínu, která rozšiřuje oblast statistiky tak, aby zahrnovala "pokroky v oblasti výpočetní techniky s daty". Myšlenku uveřejnil v článku "Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics" ("Data Science: akční plán rozšiřování technických oblastí statistiky"), který byl publikován ve svazku 69, č. 1, dubnového vydání International Statistical Review / Revue Internationale de Statistique z dubna 2001.[20] Cleveland zde stanovil šest oblastí, o kterých věřil, že zahrnují data science: multidisciplinární bádání, modely a metody pro zpracování dat, výpočty s daty, pedagogika, hodnocení výzkumných nástrojů a teorie.

V dubnu 2002 zahájila Mezinárodní rada pro vědu (International Council for Science, ICSU) a její Výbor pro data pro vědu a technologii (Committee on Data for Science and Technology, CODATA)[21] vydávání časopisu Data Science Journal[22] zaměřeného na otázky, jako je popis datových systémů, na internetu, aplikace a právní otázky.[23] Krátce poté, v lednu 2003, Columbijská univerzita začala publikovat časopis Journal of Data Science[24] který poskytl platformu všem datovým pracovníkům, aby prezentovali své názory a vyměňovali si nápady. Časopis byl z velké části věnován aplikaci statistických metod a kvantitativního výzkumu. Národní vědecká rada (National Science Board) vydala v roce 2005 text "Long-lived Digital Data Collections: Enabling Research and Education in the 21st Century" ("Dlouhodobý sběr digitálních dat: umožnění výzkumu a vzdělávání v 21. století"), definující datové vědce jako "informační a počítačové vědce, databázové a softwarové tvůrce a programátory, experty jednotlivých disciplín, kurátory a odborní anotátory, knihovníky, archiváře a další, kteří mají zásadní význam pro úspěšné řízení sběru digitálních dat", jejichž hlavní činností je" provádět tvůrčí výzkum a analýzu".[25]

Okolo roku 2007 Jim Gray představil „vědu řízenou daty“ jako „čtvrté paradigma“ vědy, které využívá počítačovou analýzu velkých dat jako základní vědeckou metodu[4][5] a přál si „mít svět, v němž veškerá vědecká literatura je online a všechny vědecké údaje jsou online a vzájemně spolupracují."[26]

V článku z roku 2012 Harvard Business Review "Data Scientist: The Sexiest Job of the 21st Century" ("Data Scientist: Nejvíce sexy povolání 21. století"[6] DJ Patil tvrdí, že tento termín vytvořili v roce 2008 s Jeffem Hammerbacherem, aby definovali svou práci v LinkedIn a Facebooku. Tvrdí, že datový vědec je "nové plemeno" a že "nedostatek datových vědců se v některých sektorech stává vážným omezením" a popisuje mnohem více podnikatelsky orientované role.

V roce 2013 byla založena pracovní skupina IEEE pro data science a pokročilou analýzu (IEEE Task Force on Data Science and Advanced Analytics).[27] V roce 2013 byla v Lucembursku zorganizována první Evropská konference o data science (European Conference on Data Analysis ECDA), která zřídila Evropskou asociaci pro datovou vědu (EuADS). První mezinárodní konference IEEE International Conference on Data Science and Advanced Analytics se konala v roce 2014.[28] V tomtéž roce sekce American Statistical Association (Amerického statistického sdružení) věnovaná statistickému učení a data miningu přejmenovala svůj časopis na "Statistical Analysis and Data Mining: The ASA Data Science Journal" a v roce 2016 změnila svůj název na "Statistical Learning and Data Science".[29] V roce 2015 začalo nakladatelství Springer vydávat časopis International Journal on Data Science a Analytics[30] mající za úkol publikoval originální díla o datové vědě analýze velkých dat. V září 2015 přidala Gesellschaft für Klassifikation (GfKl) ke jménu společnosti "Data Science Society".

Vztah ke statistice

Popularita pojmu "data science" v podnikatelském i akademickém prostředí prudce narostla, což ukazuje nárůst nabídek práce pro datové vědce.[31] Nicméně mnoho kritických akademických pracovníků a novinářů nevidí žádný rozdíl mezi datovou vědou a statistikou. Gil Press v časopise Forbes uvedl, že data science je "buzzword" bez jasné definice a jednoduše nahradil „obchodní analýzu“ v kontextech jako jsou postgraduální studijní programy.[7] V rámci otázek a odpovědi po své plenární přednášce na konferenci American Statistical Association aplikovaný statistik Nate Silver řekl: "Myslím, že datový vědec je sexy termín pro statistika. ... Statistika je odvětví vědy. Data scientist je lehce nadbytečný a lidé by neměli opouštět termín statistik."[9] Stejně tak v podnikatelském sektoru řada výzkumníků a analytiků uvádí, že samotní data scientisté zdaleka nestačí dát podnikům skutečnou konkurenční výhodu[32] a považují je za pouze jednu ze čtyř velkých skupin profesí potřebných k tomu, aby podniky efektivně využívaly velká data; jsou to analytici, data scientisté, vývojáři velkých dat a inženýři velkých dat.[33]

Na tuto kritiku přišla řada reakcí. V článku ve Wall Street Journal v roce 2014 Irving Wladawsky-Berger porovnává nadšení nad data science s úsvitem počítačové vědy. Argumentuje, že data science stejně jako jakákoli jiná interdisciplinární oblast využívá metodiky a praktiky z celé akademické i komerční sféry, ale pak je přetvoří do nové disciplíny. Uvádí ostré kritiky, kteří v minulosti útočili na informatiku, nyní uznávanou akademickou disciplínou.[34] Podobně Vasant Dhar z New York University stejně jako řada dalších akademických zastánců datové vědy[34] v prosinci 2013 konkrétněji argumentoval, že se data science liší od stávající praxe analýzy dat ve všech oborech, která se zaměřuje pouze na vysvětlení datových souborů. Data science hledá uplatnitelné a konzistentní pravidelnosti v datech vhodné prediktivní využití.[1] Tento praktický inženýrský cíl vyděluje datovou vědu mimo rámec tradiční analytiky. Nyní lze data hledat a využívat i v těch disciplínách a aplikovaných oborech, které nemají spolehlivé teorie, jako jsou zdravotnictví a společenské vědy, a mohly by zde být na základě těchto dat vytvořeny silné prediktivní modely.[1]

V podobném duchu se v září 2015 vyjádřil profesor ze Stanfordu David Donoho. Přitom odmítl tři zjednodušující a zavádějící definice data science, jež bývají předmětem kritiky.[35] Za prvé se podle Donoha datová věda nedá ztotožnit s velkými daty, neboť velikost datového souboru není kritériem pro rozlišování mezi datovou vědou a statistikou.[35] Za druhé datová věda není definována výpočetními schopnostmi zpracování velkých souborů dat, neboť tyto možnosti jsou již obecně používány pro analýzy ve všech oborech.[35] Za třetí datová věda je silně aplikovaný obor, v němž akademické programy v současné době dostatečně nepřipravují dorost, protože řada absolventských programů zavádějícím způsobem inzeruje svou analytickou a statistickou výuku jako podstatu kurikula pro datovou vědu.[35][36] Donoho jakožto statistik spolu s mnoha kolegy jeho oboru podporuje rozšíření rozsahu učiva adeptů datové vědy.[35] Také John Chambers žádá statistiky, aby přijali inkluzivní koncepci učení z dat,[37] a William Cleveland požaduje, aby se upřednostňovalo vytváření predikcí nad vysvětlujícími teoriemi.[20] Společnou vizí těchto statistiků je stále obsáhlejší aplikovaný obor, které přerůstá hranice tradiční statistiky.

Budoucnost datové vědy vidí Donoho v neustále rostoucím prostředí otevřené vědy, kde jsou datové soubory využívané akademickými publikacemi přístupné všem výzkumníkům.[35] Americký národní zdravotní ústav již oznámil plány na zvýšení reprodukovatelnosti a průhlednosti výzkumných údajů.[38] Některé velké odborné časopisy již následují tento trend.[39][40] Tímto způsobem budoucnost datové vědy nejen překračuje hranice statistické teorie co do rozsahu a metodologie, ale data science znamená výzvu současným akademickým a výzkumným paradigmatům.[35] Jak dodává Donoho, "rozsah a dopad datové vědy se v nadcházejících desetiletích bude nadále rozšiřovat, neboť vědecká data i data o samotné vědě se stanou všeobecně dostupnými".[35]

Reference

V tomto článku byl použit překlad textu z článku Data science na anglické Wikipedii.

  1. a b c DHAR, V. Data science and prediction. Communications of the ACM. 2013, s. 64. Dostupné online. doi:10.1145/2500499. 
  2. Archivovaná kopie [online]. [cit. 2019-01-17]. Dostupné v archivu pořízeném dne 2014-01-02. 
  3. a b [s.l.]: [s.n.] Dostupné online. ISBN 9784431702085. doi:10.1007/978-4-431-65950-1_3. 
  4. a b [s.l.]: [s.n.] Dostupné online. ISBN 978-0-9825442-0-4. 
  5. a b BELL, G.; HEY, T.; SZALAY, A. COMPUTER SCIENCE: Beyond the Data Deluge. Science. 2009, s. 1297–1298. ISSN 0036-8075. doi:10.1126/science.1170411. 
  6. a b [s.l.]: [s.n.] 
  7. a b c Dostupné online. 
  8. www.nytimes.com. Dostupné online. 
  9. a b Archivovaná kopie [online]. [cit. 2019-01-17]. Dostupné v archivu. 
  10. Archivovaná kopie. radar.oreilly.com. Dostupné v archivu pořízeném dne 2019-02-01. 
  11. hbr.org. Dostupné online. 
  12. Dostupné online. 
  13. analytics-magazine.org. Dostupné online. 
  14. Dostupné online. 
  15. NAUR, Peter. The science of datalogy. Communications of the ACM. 1 July 1966, s. 485. doi:10.1145/365719.366510. 
  16. a b Dostupné online. 
  17. a b Dostupné online. 
  18. Dostupné online. 
  19. Archivovaná kopie [online]. [cit. 2019-01-17]. Dostupné v archivu pořízeném dne 2013-10-29. 
  20. a b Cleveland, WS (2001). Věda o údaji: akční plán pro rozšíření technických oblastí statistiky . Mezinárodní statistické hodnocení / Revue Internationale de Statistique, 21-26
  21. Mezinárodní rada pro vědu: Výbor pro údaje pro vědu a techniku. (2012, duben). CODATA, Výbor pro údaje o vědě a technice. Obdržel od Mezinárodní rady pro vědu: Výbor pro údaje o vědě a technice: http://www.codata.org/
  22. Data Science Journal. (2012, April). Available Volumes. Retrieved from Japan Science and Technology Information Aggregator, Electronic: http://www.jstage.jst.go.jp/browse/dsj/_vols Archivováno 3. 4. 2012 na Wayback Machine.
  23. Data Science Journal. (2002, duben). Obsah svazku 1, vydání 1, duben 2002. Získaný z japonského vědeckotechnologického informačního agregátoru, elektronický: http://www.jstage.jst.go.jp/browse/dsj/1/0/_contents
  24. Časopis vědy o datech. (2003, leden). Obsah svazku 1, vydání 1, leden 2003. Citováno z http://www.jds-online.com/v1-1 Archivováno 22. 8. 2012 na Wayback Machine.
  25. Dostupné online. 
  26. www.nytimes.com. Dostupné online. ISSN 0362-4331. 
  27. Dostupné online. 
  28. Archivovaná kopie [online]. [cit. 2019-01-17]. Dostupné v archivu pořízeném dne 2017-03-29. 
  29. Dostupné online. 
  30. Dostupné online. 
  31. fortune.com. Dostupné online. 
  32. MILLER, Steven. Collaborative Approaches Needed to Close the Big Data Skills Gap. Journal of Organization Design. 2014-04-10, s. 26–30. Dostupné online. ISSN 2245-408X. doi:10.7146/jod.9823. (anglicky) 
  33. DE MAURO, Andrea; GRECO, Marco; GRIMALDI, Michele; RITALA, Paavo. Human resources for Big Data professions: A systematic classification of job roles and required skill sets. Information Processing & Management. Dostupné online. doi:10.1016/j.ipm.2017.05.004. 
  34. a b blogs.wsj.com. Dostupné online. 
  35. a b c d e f g h DONOHO, David. 50 Years of Data Science. Based on a talk at Tukey Centennial workshop, Princeton NJ Sept 18 2015. September 2015. Dostupné online. 
  36. [s.l.]: [s.n.] 
  37. CHAMBERS, John M. Greater or lesser statistics: a choice for future research. Statistics and Computing. 1993-12-01, s. 182–184. Dostupné online. ISSN 0960-3174. doi:10.1007/BF00141776. (anglicky) 
  38. COLLINS, Francis S.; TABAK, Lawrence A. NIH plans to enhance reproducibility. Nature. 2014-01-30, s. 612–613. ISSN 0028-0836. doi:10.1038/505612a. PMID 24482835. 
  39. MCNUTT, Marcia. Reproducibility. Science. 2014-01-17, s. 229–229. Dostupné online. ISSN 0036-8075. doi:10.1126/science.1250475. PMID 24436391. (anglicky) 
  40. PENG, Roger D. Reproducible research and Biostatistics. Biostatistics. 2009-07-01, s. 405–408. Dostupné online. ISSN 1465-4644. doi:10.1093/biostatistics/kxp014. (anglicky)