CEW2411TXT.zip (1544930339 bytes)
2024/CEW/
|__ VernacularXYZ.pdf
|__ MonthlySummary.docx
|__ screenshot01.jpg
|__ XML/
|__ 0d0db-102bd-02dah-12345-12345.xml
|__ ...
|__ TXT/
|__ CEW20241101nnnnnnn_V1_andAveryLongName01.txt
|__ CEW20241102nnnnnnn_V1_andAnotherVeryLongName02.txt
|__ ...
==== CEW2411ZIP ====
I filen ''CEW2411ZIP.zip'' ligger OSE:s zip-filer från CEW för november
precis som de ser ut när de kommer från bucketen. Det är filer med
långa namn, sessions-id, versionsbeteckning och löpnummer, inalles 1661
stycken filer.
CEW2411ZIP.zip (1542309997 bytes)
|__ CEW202411MMDDnnnnnnnn_V1_nnnnnnnn.zip
|__ CEW202411MMDDnnnnnnnn_V1_nnnnnnnn.zip
|__ CEW202411MMDDnnnnnnnn_V1_nnnnnnnn.zip
|__ CEW202411MMDDnnnnnnnn_V1_nnnnnnnn.zip
|__ ...
Innehållet i OSE:s zip-filer ligger INTE i kataloger, packar man upp
dem så hamnar allt innehåll där man står. Det kan vara problematiskt,
då vissa verknikular och bilder har samma namn i olika arkiv, t.ex.
"screenshot.jpg" eller "transcription.pdf".
==== CEW2411WEB ====
I filen ''CEW2411WEB.zip'' finns alla arkivfiler från november lagrade på
vad jag försökt få både "webbvänligt" och "kommandoradssökvänligt"
sätt: uppackade i kataloger med samma namn som sessions-id
(CEW2024MMDDxxxxxxxxxx), också totalt 1661 st.
CEW2411WEB.zip (1623070781 bytes)
|__ CEW202411MMDDnnnnnnnn/
|__ 0d0db-102bd-02dah-12345-12345.xml
|__ Vernacular2411DD.pdf
|__ screenshot.jpg
|__ ...
|__ ...
|__ index.html
|__ metadata.txt
I den sessionskatalogen finns hela innehållet i arkivfilen: XML-fil,
vernikular, mediafiler, dokument; vad som nu följde med.
==== HTML-filen ====
Där finns också HTML-blobben från och
for f in $(grep -F -l topic:TECHNOLOGY CEW202411*/metadata.txt); \
do grep -F -l optic $(dirname $f)/index.html; done
Obs att raden är bruten, men \ "escapes the newline" så det skall läsas
som en hel rad. Ge akt på parenteser och semikolon!
Första grep-kommandot letar i metadatafilerna. Blir det träff så skrivs
katalog och filnamn ut (grep -l).
Formen $(...) tar outputen från kommandot inom parenteserna och skriver
det som en radda strängar till for-loopen att snurra igenom. Variabeln
"f" sätts till en av dessa strängar åt gången.
Kommandot dirname plockar bort filnamnet i en sökväg och returnerar
katalogdelen. (Testa "dirname /path/to/filename"). Värdet av variabeln
f skrivs $f. Formen $(...) kör kommandot inne i parenteserna.
Det andra grep-kommandot letar nu i HTML-filerna efter ordet "optic".
Det kommer att blir tre fräffar. Sessionskatalogen och HTML-filen
skrivs ut:
CEW2024110842358998/index.html
CEW2024111446272335/index.html
CEW2024111948807238/index.html
och antingen läsas, eller som det egentligen är tänkt, matas till en
browser. HTML-filen länkar ju allt övrigt innehåll från sessionen;
vernakular och bilder etcetera. Det är enklare att kika på dem via
browsern.