Hvordan fungerer appen?

Kildekoden til appen ligger GitHub

Korpus

Et DH-LAB-korpus er et sett unike identifikatorer (URN-er) fra Nasjonalbibliotekets samling. Ved bruk av disse identifikatorene kan man gjøre analyser på opphavsrettsbeskyttet tekst. Analysene skjer på Nasjonalbibliotekets servere, og brukeren kun får tilgang til aggregater.

Korpuset kan brukes videre i DH-LAB-analyser. I denne appen er det lagt til rette for konkordans- og kollokasjonanalyse.

Nedlastingsknappen gir korpustabellen og en fil med søkeparameterne som er brukt, i tillegg til tidspunktet for genereringen. Korpustabellen kan redigeres og lastes opp til appen igjen. Korpustabellen kan også brukes i andre DH-LAB-apper.

Dokumenttyper

DH-LAB tilbyr følgende dokumenttyper:

Bøker:
henter objekter av typen digibok, pliktmonografi og digiebok fra Nettbibiblioteket
Aviser:
henter objekter av typen digavis fra Nettbiblioteket
Tidsskrift:
henter objekter av typen digitidsskrift fra Nettbiblioteket
Brev og manuskripter:
henter objekter av typen digimanus fra Nettbbiblioteket (obs: kun en liten andel av dette materialet er søkbart, pga begrenset OCR/HTR)
Stortingsforhandlinger:
Nettbiblioteket
Kudos:
Kunnskapsdokumenter i offentlig sektor (-2023)
Nettavis:
Nettaviser (2019-2022) fra Nettarkivet

Metadata

Søket begrenses kun av felt som er fylt ut.

Språk:
det er mulig å avgrense søket til ett eller flere språk fra listen
Forfatter:
Fulltekstsøk. Henrik Ibsen eller Ibsen, Henrik gir samme treff. Bing Bringsværd gir treff der både Jon Bing og Tor Åge Bringsværd er forfattere. Bing NOT Bringsværd gir treff der Bing er forfatter, men ikke Bringsværd.
Tittel:
Fulltekstsøk. Skriv deler av eller hele titler. Logiske operatorer (AND, OR, NOT) kan brukes.
Ord eller fraser i teksten:
Fulltekstsøk i selve teksten. Logiske operatorer (AND, OR, NOT) kan brukes. Nærhetssøk NEAR(ord1 ord2, antall ord mellom)
Emneord:
frie emneord
Dewey desimaltall:
https://deweysearchno.pansoft.de/webdeweysearch/

Alle metadata, bortsett fra Kudos og Nettavis, er hentet fra https://api.nb.no/?urls.primaryName=metadata#/metadata/getMods

Konkordanser - søkeordord med kontekst

Søkeuttrykk kan være ett ord, flere ord eller en frase i. Hvis det ikke oppgis en logisk operator (AND, OR, NOT), vil logisk AND brukes. Søket vaksine forskning gir treff i avsnitt som inneholder både ordet vaksine og forskning. Det er også mulig å angi et to ord skal stå i nærheten av hverandre, f.eks. vil NEAR(vaksine forskning, 5) gi treff der vaksine og forskning opptrer innenfor et vindu av fem ord.

Appen lager et tilfeldig uttrekk (sample) fra samlingen basert på parameterne i korpusdefinisjonen. Det kan være lurt å stille på disse parameterne for å få mer kontroll over korpuset. Hvis du søker på et sjeldent ord og/eller ønsker et større uttrekk, øk sample-verdien. For å være sikker på at ord du ønsker å søke på faktisk er inneholdt i uttrekket, bruk feltet Ord eller fraser i teksten.

Søkemotoren gir treff på avsnittsnivå. Hvis det er flere treff innenfor et avsnitt, vil kun første treff fra det aktuelle avsnittet vises.

Kollokasjoner - assosierte ord

Det er kun mulig å søke på enkeltord. Søk f.eks. på vaksine for å finne ord (enkeltord) som opptrer sammen med vaksine.

Appen lager et tilfeldig uttrekk (sample) fra samlingen basert på parameterne i korpusdefinisjonen. Det kan være lurt å stille på disse parameterne for å få mer kontroll over korpuset. Hvis du søker på et sjeldent ord og/eller ønsker et større uttrekk, øk sample-verdien. For å være sikker på at ord du ønsker å søke på faktisk er inneholdt i uttrekket, bruk feltet Ord eller fraser i teksten.

Konteksten for kollokasjonen kan justeres med antall ord før og etter basisord. For best mulig beregning av relevans, velg et referansekorpus fra samme periode som korpuset. Terskelverdi for relevans og råfrekvens angir hvor mange tilfeller av et ord som må finnes før det regnes med.

Det statistiske kollokasjonsmålet som brukes her, er en variant av PMI (pointwise mutual information), med sannsynligheter som proporsjoner av frekvens, på formen: 𝑝𝑚𝑖(𝑥,𝑦)=𝑝(𝑥|𝑦)𝑝(𝑥)=𝑝(𝑦|𝑥)𝑝(𝑦). Det kan ses på som en probabilistisk versjon av relevans, dvs. at y er relevant x og omvendt. PMI er brukt i stedet for tf-idf for å beregne assosisasjoner mellom ord. PMI-verdiene er beregnet på normaliserte frekvenser (relativfrekvenser) som betyr at det faktiske tallet kan tolkes som et disproporsjonalt tall.