Definice disambiguace v jazykových studiích

v lingvistika, disambiguation je proces určování, jaký smysl a slovo se používá zejména kontext. Také známý jako lexikální disambiguation.

V počítačové lingvistice se tento diskriminační proces nazývá disambiguace slovního smyslu (WSD).

Příklady a pozorování

"Stává se tak, že naše." sdělení, v různých jazyky podobně umožňuje použít stejnou slovní formu pro různé věci v jednotlivých komunikačních transakcích. Důsledkem je, že při konkrétní transakci je třeba mezi zamýšlenými smysly zjistit zamýšlený význam daného slova. Zatímco dvojznačnosti vznikající z takových vícenásobných asociací ve smyslu formy jsou na lexikální na úrovni, musí být často vyřešeny pomocí širšího kontextu z EU diskurs vložení slova. Odlišné smysly slova „služba“ by tedy bylo možné rozeznat pouze tehdy, kdyby se člověk mohl podívat za samotné slovo, jako v kontrastu „ hráčská služba ve Wimbledonu „s číšníkovou službou v Sheraton“. Tento proces identifikace významů slov v diskurzu je obecně známý jako slovo smysl rozcestník

instagram viewer

(WSD). “(Oi Yee Kwong, Nové perspektivy ve výpočetních a kognitivních strategiích pro nesoulad slova Sense. Springer, 2013)

Lexické disambiguace a Word-Sense disambiguation (WSD)

"Lexikální." rozcestník ve své nejširší definici není ničím jiným než určováním významu každého slova v kontextu, který se u lidí jeví jako do značné míry nevědomý proces. Jako výpočetní problém je často popisován jako „AI-complete“, tj. Problém, jehož řešení předpokládá řešení k dokončení přirozený jazyk porozumění nebo rozumové uvažování (Ide a Véronis 1998).

„V oblasti počítačové lingvistiky se problém obecně nazývá disambiguace smyslu slova (WSD) a je definován jako problém výpočetně určujícího, který „smysl“ slova je aktivován použitím konkrétního slova kontext. WSD je v podstatě úkolem klasifikace: slovní smysly jsou třídy, kontext poskytuje důkaz a každý výskyt slova je přiřazen jedné nebo více jeho možných tříd na základě důkaz. Toto je tradiční a běžná charakteristika WSD, která ji vidí jako explicitní proces disambiguace s ohledem na pevný soupis slovních smyslů. Předpokládá se, že slova mají konečnou a diskrétní sadu smyslů z a slovník, lexikální znalostní základna nebo ontologie (v posledně jmenované smysly odpovídají konceptům, které slovo lexikalizuje). Lze také použít soupisy specifické pro aplikaci. Například v nastavení strojového překladu (MT) lze považovat překlady slov za slovní smysly přístup, který se stává stále proveditelnějším kvůli dostupnosti velkých vícejazyčných paralelní korpusy které mohou sloužit jako tréninková data. Opravený inventář tradiční WSD snižuje složitost problému, ale existují alternativní pole.. .. "(Eneko Agirre a Philip Edmonds," Úvod. " Nesprávnost slova Sense: Algoritmy a aplikace. Springer, 2007)

Homonymie a disambiguace

"Lexikální." rozcestník je vhodný zejména pro případy homonymienapříklad výskyt basa musí být namapováno na basu lexikálních položek₁ nebo basy₂, v závislosti na zamýšleném významu.

„Lexikální disambiguace znamená kognitivní volbu a je úkolem, který brání procesům porozumění. Mělo by se odlišit od procesů, které vedou k rozlišování slovních smyslů. První úkol se plní poměrně spolehlivě také bez mnoha kontextových informací, zatímco druhý není (srov. Veronis 1998, 2001). Ukázalo se také, že homonymní slova, která vyžadují disambiguaci, zpomalují lexikální přístup, zatímco polysemous slova, která aktivují množství slovních smyslů, urychlují lexikální přístup (Rodd e.a. 2002).

„Avšak jak produktivní modifikace sémantických hodnot, tak přímý výběr mezi lexikálně odlišnými položkami, mají obecně, že vyžadují další nelexikální informace. “(Peter Bosch,„ Produktivita, Polysemy a Predicate Indexicality. “) Logika, jazyk a výpočet: 6. mezinárodní Tbilisi sympozium o logice, jazyce a výpočtu, ed. autor: Balder D. deset Cate a Henk W. Zeevat. Springer, 2007)

Disambiguace Lexikální kategorie a princip pravděpodobnosti

„Corley a Crocker (2000) představují model širokého pokrytí lexikální kategorierozcestník založeno na Zásada pravděpodobnosti. Konkrétně to navrhují pro větu skládající se ze slov w₀... w_n, zpracovatel věty přijme s největší pravděpodobností část mluvy sekvence t₀... t_n. Konkrétněji jejich model využívá dvě jednoduché pravděpodobnosti: (i) podmíněná pravděpodobnost slova w_i daný konkrétní projev t_i, a (ii) pravděpodobnost t_i vzhledem k předchozí části projevu t_i-1. Když se narazí na každé slovo věty, systém jí přiřadí tuto část řeči t_i, což maximalizuje součin těchto dvou pravděpodobností. Tento model vydělává na vhledu mnoha syntaktický dvojznačnosti mají lexikální základ (MacDonald et al., 1994), jako v (3):

(3) Skladové ceny / značky jsou levnější než ostatní.

"Tyto věty jsou dočasně nejasné mezi četbou, ve které." ceny nebo dělá je hlavní sloveso nebo část a složené podstatné jméno. Po tréninku na velkém korpusu model předpovídá nejpravděpodobnější část řeči ceny, správně zohledňující skutečnost, že lidé rozumí cena jako podstatné jméno, ale dělá jako sloveso (viz Crocker & Corley, 2002 a tam citované odkazy). Model nejenže zahrnuje řadu preferencí disambiguace zakořeněných v lexikální kategorii dvojznačnost, také to vysvětluje, proč jsou lidé obecně při řešení těchto dvojznačností velmi přesní. “ (Matthew W. Crocker, „Racionální modely porozumění: Řešení paradoxu výkonnosti“. Psycholingvistika dvacátého prvního století: Čtyři základní kameny, ed. Anne Cutler. Lawrence Erlbaum, 2005)