Inom språkteknologin används begrepp som är allmänt vedertagna inom det bredare forskarsamhället, men också sådana som är mer specifika. För att underlätta beskrivningen och användningen av Swe-Clarins resurser lyfter vi därför fram några centrala termer med förklaringar.
Generaliseringar bör läsas utifrån ambitionen är att främja tvärvetenskaplig förståelse.
Term | Betydelse |
annotering | information som tillförs en text, manuellt eller automatiskt av ett verktyg. Annotering kan göras på olika nivåer (ord, mening, stycke). |
entitet | benämnd enhet. |
flerordsuttryck | ord som ofta uppträder ihop och som språkligt beter sig som en enhet, till exempel "ad hoc". |
KWiC (keyword in context) | en visuell uppställning av ett ord eller uttryck i sitt sammanhang, ofta benämnt konkordans. |
korpus | en samling texter som sammanställts i ett visst syfte. |
lemgram | ordklassbaserat samlingsbegrepp för ett ords eller flerordsuttrycks samtliga böjningsformer. |
Lexicographer's Mutual Information-värde | mått på i vilken utsträckning ord uppträder nära varandra, mer frekvent än vad som skulle kunna förklaras med slumpen. |
parsning, syntaktisk | analys som identifierar beståndsdelarna i en sats och deras inbördes relationer. |
precision | frekvens för relevanta entiteter i en sökning/filtrering. |
recall | frekvens för irrelevanta entiteter i en sökning/filtrering. |
segmentering | sätt att dela upp en text i ord eller ordliknande enheter som är användbara i det fortsatta arbetsflödet. |
sökaktiviteter | filtrering, gruppering, navigering. |
token | ord, flerordsuttryck, interpunktion med mera enligt en specifik segmentering. |