Saltar ao contido

Hierarchical Data Format

Na Galipedia, a Wikipedia en galego.

Hierarchical Data Format (HDF, HDF4, ou HDF5) é o nome para dun conxuto de formatos de arquivo e bibliotecas creadas para a organización e almacenamento de grandes cantidades de datos numéricos, requisito na investigación de aprendizaxe automática. Trátase dun formato en licencia aberta, semellante ao BSD, coas súas especificacións públicas, capaz de obter información sobre os datos que almacena sen recurrir a fontes externas e con capacidade de estandarización sobre os datos de natureza aberta que admite para gardar en memoria.

HDF recibe apoio de varias plataformas de software, comerciais e non-comerciais, como Java, Python, MATLAB, IDL, e [R]]. As duas principais versións do HDF son HDF4 e HDF5, bastante diferentes en estrutura e API. HDF está composto básicamente pola libraría, unha consola como liña de comando, unha ferramento de testeo, unha interface Java e polo HDF Viewer.[1]

Historia

Na procura dun formato flexíbel e independiente da plataforma de uso, con capacidade de almacenamento da crecente e heteroxénea varidade de datos na investigación comenzou a desarrollarse o formato HDF nos laboratorios da NCSA (National Center for Supercomputing Applications) a partir do ano 1988, manténdose na actualidade pola equipa do HDF Group, dependente da Universidade de Illinois. Actualmente, este formato utilízase por múltiples organismos, tanto públicos como privados, para a difusión de datos e resultados científicos, entre as que se atopa a NASA, ou a Axencia Europea do Espazo (ESA), en, por exemplo, as lecturas dos sensores MODIS, MERIS ou ETM+, entre outros.[2]

Estrutura

A estrutura dos arquivos HDF permite o almacenamento de diversos tipos de datos, tales como:

  • Scientific Data Sets (SD), utilizados para almacenar matrices n- dimensionais de datos enteiros (8, 16 e 32 bits, con ou sen signo) ou reais (32 ou 64 bits) no seu formato estándar, ou por medio das APIs, crear datos noutros rangos de valores (1 a 32 bits), xunto cos seus metadatos (dimensións da matriz, atributos, etc...)
  • Raster Images (RI), que permiten almacenar imaxes de 8 bits (0-255 niveis de gris) ou 24 bits (RGB), ou ben empregar as librarías de programación para gardar imaxes noutros formatos (16 a 32 bits enteiros, 32 a 64 bits coma flotante). Ademáis, permítese almacenar información sobre as dimensións da imaxe, así como a paleta de cor asociada a ela. Tamén é posíbel empregar compresión (RLE, JPEG, GZIP e adaptativa Huffman) para reducir o tamaño dos arquivos resultantes.
  • Text Annotations (TA), para almacenar calqueira tipo de información textual: Etiquetas, descripcións ou información de arquivo.
  • VDatas (VD), para almacenar datos vectoriais sen topoloxía.
  • Vgroups (VG), que nos permiten asociar datos relacionados dentro dun arquivo.

Acceso aos datos

Existen diversas formas de acceder aos datos contidos baixo un arquivo HDF. unha delas é o acceso a nivel binario, coñecendo a estrutura do arquivo, pública, ou ben a través de aplicacións dispoñíbeis que soporten este formato, de forma que o proceso se realice de maneira transparente para o usuario.

Ligazóns externas

Notas

  1. Java-based HDF Viewer (HDFView)
  2. Palomo, Palomo, M (2016). “El formato HDF para el almacenamiento de información relativa a imágenes de satélite. Importación y exportación en SOV de ficheros HDF”. "Universidad Politécnica de Madrid. Trabajo del Curso de doctorado “Cartografía ambiental”". 

Categoria:Formatos de ficheiro