Quality on your terms

Termextraktion

Att göra en termextraktion innebär att gå igenom en textmängd i syfte att hitta/ta fram (extrahera) relevanta termer i texten. Detta kan göras helt manuellt, av en människa som läser igenom texten och markerar möjliga termkandidater för vidare bearbetning. Men det kan också göras mer automatiserat med hjälp av datorer, som kan bearbeta mycket större textmängder än en människa på avsevärt mycket kortare tid. Utdata från en automatiserad termextraktion kräver en manuell granskning av de resulterande termkandidaterna, men automatisk termextraktion är i allmänhet ändå mycket mer effektivt än en helt manuell termextraktion.

Metoder för termextraktion

Det finns många olika metoder för att automatiskt hitta termkandidater i en text. En metod är att leta efter specifika mönster av ord baserat på vilka ordklasser de tillhör. Eftersom termer ofta är substantiv kan det exempelvis vara lämpligt att leta efter substantiv (kanske med specificerande adjektiv före?). Olika statistiska metoder kan också användas för att hitta termkandidater.

Flerspråkig termextraktion

En termextraktion kan också göras både enspråkigt och flerspråkigt. Om den text som termer ska extraheras ur finns på två olika språk kan man försöka hitta par av termer på båda språken. Därmed kan man få en flerspråkig terminologi från början, något som är väldigt användbart vid översättning och kvalitetskontroller av översättningar.

En tvåspråkig termextraktion kan göras på flera olika sätt:

  • Två enspråkiga termextraktioner kan först göras var för sig, och sedan parar man ihop de temer som är översättningar av varandra.
  • Ord som är varandras översättningar paras först ihop, och sedan extraheras termkandidater parvis, baserat på hur termkandidaterna ser ut på ena eller båda språksidorna.