12. Datové soubory
Opakování:
- autentizace, hesla, kontrola chyb
Zápis:
12. Datové soubory
**Souborový systém Windows**
- strom složek (folders) začínající kořenem (root)
- soubory (files) - jméno (filename), přípona (extension)
- manažery - Průzkumník, Commanders, TreeSize
**Formáty datových souborů**
- textové - prostý text - txt, zdrojáky programovacích (cpp, js, py) a značkovacích jazyků (html, xml)
- binární - čitelné daným programem (pdf, jpg, mp4)
**Kontrola integrity (neporušenosti) dat**
- otisky (např. SHA256) - malá změna v datech způsobí významnou změnu v otisku
Teorie pro Windows:
- Souborový
systém - viz Průzkumník souborů (okno+E):
- kořenová
složka
(root) logického disku C:\
- strom složek (adresářů - folders, directories)
- kontejnery pro soubory
- soubor
(file) - datová jednotka uložená na disku
- má jméno a příponu
za tečkou (filename+extension),
- od Windows 95 názvy delší než
8+3
- přípona (také suffix) je důležitá pro asociaci s
aplikací, mívá 2-4 znaky
- obsahuje spustitelný binární (strojový) kód = přeložený program (přípona exe =
executable) 32 nebo 64-bitový
- nebo data - přípona podle autorského programu, nezávislé na
jeho verzi 32 nebo 64 bit
- dnes soubory i v cloudu (OneDrive)
Průzkumník souborů
- Zobrazení, Řazení, zobrazení přípon, skrytých položek
- Hledání souborů
- Výběr, Kopírovat, Přesunout, Odstranit, Přejmenovat, Sdílet,
Vytvořit zástupce
- Otevřít (také Otevřít v programu, Výchozí aplikace podle typu
souboru), Upravit, Odeslat
- Vlastnosti (uchovává si OS, není uloženo v souboru)
- Velikost, Vytvořeno, Změněno, Atributy - Jen pro čtení, Skrytý,
Archivační příznak
- Zabezpečení - Vlastník, oprávnění pro skupiny, uživatele
- Zobrazení - Podrobnosti, Seskupit, Přidat sloupce
- alternativy - klony
Norton Commander - Total Commander,
Midnight Commander (Linux),
historický Manažer602, práce
se soubory v MS-DOS
-
TreeSize - řazení podle velikosti souborů napříč složkami
Formáty datových souborů
- textové - čitelné, tisknutelné, řádky ukončené
CR+LF, kódování ASCII, Unicode/UTF-8 (viz kap. Kódování textu dříve)
- prostý text
(plain text) - bez formátování - txt, jednoduché formátování pomocí Markdown
- zdrojové kódy
programovacích jazyků c, cpp, cs, js, jar, pas, py, php
-
značkovací jazyky - html (css),
xml (svg,
gpx, komprimované docx, xlsx,
epub), rtf
- výměnné datové formáty (export/import mezi
různými programy) - prn (pevná délka dat), csv (data oddělená
oddělovačem - středníkem, čárkou apod.)
- hexadecimální zobrazení ve VSC přes kl. F1 - HexEditor
- binární
- čitelné příslušným programem nebo prohlížečem, zobrazení ve VSC po otevření - Open anyway, otevřené/uzavřené (proprietární - tvůrce nezveřejnil strukturu)
- dokumenty - pdf (otevřený formát), doc, xls
- grafika - ps, cdr, sldprt, jpg, png
- multimédia - mkv, avi, mp4, mp3
- databáze - dbf, sqlite
- kombinované
- složené z typů výše a většinou komprimované (např. zip)
- záložní a archivní soubory, obrazy disků - ISO
Pozn. Změna přípony datového souboru nezmění formát dat souboru (častý
omyl uživatelů)
Metadata -
https://cs.wikipedia.org/wiki/Metadata
- vložené doplňující informace, zejm. u multimédií - např.
EXIF u
fotek JPG, ID3 u MP3,
značka meta u
HTML
- ve Windows Vlastnosti - Podrobnosti, také v Průzkumníku Zobrazení -
Podrobnosti, pak Přidat sloupce
- program MediaInfo
- používá konfigurační soubor INI
Doplněk - Kontrola neporušenosti (integrity) dat souborů:
- pro kontrolu nepoškození souboru po přenosu se používají
otisky (hash) - krátké řetězce dané délky (většinou 256 nebo
512 bitů), které se z dat souboru vygenerují, malá změna v datech
způsobí velkou změnu v klíči
- postup kontroly:
- výpočet hašovacího otisku před přenosem souboru
- výpočet otisku po přenosu a porovnání s původním - zjistíme, že
při přenosu nastala chyba, ale nemůžeme ji opravit (jedině znovu
data přenést)
- Např.
MD5,
SHA
- Generování otisku - v Průzkumníku Windows pravé tlačítko na
souboru a CRC SHA (pokud je nainstalovaný 7-zip),
certutil v cmd (certutil -hashfile infile MD5), PSPad - Nástroje -
Otisk (pozn. SHA2 = SHA256), online např.
zde
- často se používá u stahovaného software (např.
sqlite,
mediainfo)
- Existují i dekryptory (z hashe najdou heslo ze slovníku) - např.
zde