Woord- en zinsherkenning Morfologische analyse
- Doel: vinden van relevante eenheden in de tekst (woorden/zinnen) - Doel: morfologische structuur van complexe woordvormen achterhalen
- A.d.h.v. ‘tokens’ - Uitvoer: info over morfologische samenstelling
- Leestekens ook beschouwd als token - Varianten:
- Zin = startend met hoofdletter, eindigend met punt, vraag- of uitr. teken o Stemming (affix stripping)
- Probleem: afkortingen worden beschouwd als aparte woorden/zinnen o Lemmatizering ( ! accurater dan affix stripping)
- Oplossing: lijst met afkortingen en afwijkende gevallen o Morfologische analyse (info over morfemen waaruit woord
bestaat)
Woordontleding Zinsontleding
- Doel: bepaalt contextueel correcte morfosyntactische categorie van elk - Parser = zinsontleder
woord in een zin - Uitvoer: groepering van woorden in constituenten + onderlinge
- Context bepaalt de categorie/betekenis van een woord samenhang van constituenten
- Tag = morfosyntactische categorie (hoeveelheid tags hangt af van - Full parsing = klassieke ontleedmethodes
complexiteit van taal) - Shallow parsing = oppervlakkige ontleedmethodes
Woordbetekenistoekenning Conceptherkenning
(word sense disambiguation) (named-entity recognition)
- Doel: juiste betekenis van een woord vinden d.m.v. info over context - Doel: in een tekst automatisch aan te duiden waar een bep. concept
- Gebruik van woordenboeken en voorbeelden (Deductief) voorkomt
- Gebruik van info uit de context om op basis van vb’en een systeem te - Probleem: begin en einde van een lijst goed bepalen
maken dat zelf leert desambigueren (inductief) - Oplossing: verzamelen lijsten van instanties en concepten (gazetteers)
- Probleem: geen enkele lijst is volledig
- Oplossing: regels bepalen die de context gebruiken om te bepalen of een
instantie bij een concept hoort
- Probleem: regels kunnen in 2 versch. lijsten voorkomen
- Oplossing: contextregels m.b.t. interne- en externe info
- Doel: vinden van relevante eenheden in de tekst (woorden/zinnen) - Doel: morfologische structuur van complexe woordvormen achterhalen
- A.d.h.v. ‘tokens’ - Uitvoer: info over morfologische samenstelling
- Leestekens ook beschouwd als token - Varianten:
- Zin = startend met hoofdletter, eindigend met punt, vraag- of uitr. teken o Stemming (affix stripping)
- Probleem: afkortingen worden beschouwd als aparte woorden/zinnen o Lemmatizering ( ! accurater dan affix stripping)
- Oplossing: lijst met afkortingen en afwijkende gevallen o Morfologische analyse (info over morfemen waaruit woord
bestaat)
Woordontleding Zinsontleding
- Doel: bepaalt contextueel correcte morfosyntactische categorie van elk - Parser = zinsontleder
woord in een zin - Uitvoer: groepering van woorden in constituenten + onderlinge
- Context bepaalt de categorie/betekenis van een woord samenhang van constituenten
- Tag = morfosyntactische categorie (hoeveelheid tags hangt af van - Full parsing = klassieke ontleedmethodes
complexiteit van taal) - Shallow parsing = oppervlakkige ontleedmethodes
Woordbetekenistoekenning Conceptherkenning
(word sense disambiguation) (named-entity recognition)
- Doel: juiste betekenis van een woord vinden d.m.v. info over context - Doel: in een tekst automatisch aan te duiden waar een bep. concept
- Gebruik van woordenboeken en voorbeelden (Deductief) voorkomt
- Gebruik van info uit de context om op basis van vb’en een systeem te - Probleem: begin en einde van een lijst goed bepalen
maken dat zelf leert desambigueren (inductief) - Oplossing: verzamelen lijsten van instanties en concepten (gazetteers)
- Probleem: geen enkele lijst is volledig
- Oplossing: regels bepalen die de context gebruiken om te bepalen of een
instantie bij een concept hoort
- Probleem: regels kunnen in 2 versch. lijsten voorkomen
- Oplossing: contextregels m.b.t. interne- en externe info