meni
Zastonj
domov  /  Družina in odnosi/ Računalniško jezikoslovje. Računalniško jezikoslovje: metode, viri, aplikacije

Računalniško jezikoslovje. Računalniško jezikoslovje: metode, viri, aplikacije

Filološka fakulteta Višje ekonomske šole odpira nov magistrski program, posvečen računalniškemu jezikoslovju: vabi študente z osnovno humanistično in matematično izobrazbo ter vse, ki jih zanima reševanje problemov v eni najperspektivnejših vej znanosti. . Njegova direktorica Anastasia Bonch-Osmolovskaya je za Theories and Practitioners povedala, kaj je računalniško jezikoslovje, zakaj roboti ne bodo nadomestili človeka in kaj se bo učil na magistrskem programu HSE iz računalniškega jezikoslovja.

Ta program je skoraj edini te vrste v Rusiji. kje si študiral

Študiral sem na Moskovski državni univerzi na oddelku za teoretično in uporabno jezikoslovje filološke fakultete. Nisem prišla takoj, najprej sem vstopila na ruski oddelek, potem pa me je začelo resno zanimati jezikoslovje in pritegnilo me je vzdušje, ki na oddelku vlada še danes. Najpomembnejša stvar je dober stik med učitelji in učenci ter njihov skupni interes.

Ko sem imela otroke in sem morala zaslužiti za preživetje, sem se podala na področje komercialnega jezikoslovja. Leta 2005 ni bilo zelo jasno, kaj je to področje dejavnosti kot tako. Delal sem v različnih jezikovnih podjetjih: začel sem z majhnim podjetjem na spletnem mestu Public.ru - to je nekakšna medijska knjižnica, kjer sem se začel ukvarjati z jezikovnimi tehnologijami. Potem sem eno leto delal v Rosnanotechu, kjer je bila ideja za izdelavo analitični portal tako da so podatki na njem samodejno strukturirani. Nato sem vodil jezikoslovni oddelek v podjetju Avicomp - to je že resna proizvodnja na področju računalniškega jezikoslovja in semantičnih tehnologij. Istočasno sem predaval predmet o računalniški lingvistiki na Moskovski državni univerzi in ga poskušal narediti modernejšega.

Dva vira za jezikoslovca: - stran, ki so jo ustvarili jezikoslovci za znanstvene in uporabne raziskave, povezane z ruskim jezikom. To je model ruskega jezika, predstavljen s pomočjo ogromnega nabora besedil iz različnih žanrov in obdobij. Besedila so opremljena z jezikovnimi oznakami, s pomočjo katerih lahko pridobite podatke o pogostosti določenih jezikovnih pojavov. Wordnet je ogromna leksikalna zbirka podatkov angleškega jezika, glavna ideja Wordneta je povezava v eno veliko omrežje ne besede, ampak njihov pomen. Wordnet lahko prenesete in uporabite za lastne projekte.

Kaj počne računalniška lingvistika?

To je najbolj interdisciplinarno področje. Najpomembneje pri tem je razumeti, kaj se dogaja v elektronskem svetu in kdo vam bo pomagal narediti določene stvari.

Obkroženi smo z zelo veliko digitalnimi informacijami, veliko je poslovnih projektov, katerih uspešnost je odvisna od procesiranja informacij, ti projekti se lahko nanašajo na področje marketinga, politike, ekonomije in še česa. In zelo pomembno je, da lahko učinkovito ravnate s temi informacijami - glavna stvar ni le hitrost obdelave informacij, ampak tudi enostavnost, s katero lahko po filtriranju hrupa pridobite podatke, ki jih potrebujete, in ustvarite popolno slika iz njega.

Prej so bile nekatere globalne ideje povezane z računalniško lingvistiko, na primer: ljudje so mislili, da bo strojno prevajanje nadomestilo človeško prevajanje, da bodo roboti delali namesto ljudi. Toda zdaj se zdi utopija in strojno prevajanje se uporablja v iskalnikih za hitro iskanje v neznanem jeziku. Se pravi, zdaj se jezikoslovje redko ukvarja z abstraktnimi problemi - večinoma z nekimi malenkostmi, ki jih je mogoče vstaviti v velik izdelek in na tem zaslužiti.

Eden od velikih izzivov moderno jezikoslovje- semantični splet, ko iskanje poteka ne samo po naključju besed, ampak po pomenu, in vsa spletna mesta so nekako označena s semantiko. To je lahko uporabno na primer za policijska ali zdravniška poročila, ki se pišejo vsak dan. Analiza notranjih povezav da veliko potrebne informacije, ročno branje in štetje pa je neverjetno zamudno.

Na kratko, imamo tisoč besedil, razvrstiti jih moramo v skupine, vsako besedilo predstaviti v obliki strukture in dobiti tabelo, s katero že lahko delamo. To se imenuje obdelava nestrukturiranih informacij. Po drugi strani pa se računalniško jezikoslovje ukvarja na primer z ustvarjanjem umetnih besedil. Obstaja podjetje, ki se je domislilo mehanizma za generiranje besedil o temah, o katerih je človeku dolgočasno pisati: o spremembah cen nepremičnin, vremenskih napovedih, poročilih o nogometnih tekmah. Naročiti ta besedila osebi je veliko dražje, računalniška besedila o takšnih temah pa so napisana v koherentnem človeškem jeziku.

Yandex aktivno sodeluje pri razvoju na področju iskanja nestrukturiranih informacij v Rusiji, Kaspersky Lab najema raziskovalne skupine, ki preučujejo strojno učenje. Ali kdo na trgu poskuša pripraviti nekaj novega na področju računalniškega jezikoslovja?

**Knjige o računalniški lingvistiki:**

Daniel Jurafsky, Obdelava govora in jezika

Christopher Manning, Prabhakar Raghavan, Heinrich Schuetze, "Uvod v iskanje informacij"

Yakov Testelets, "Uvod v splošno sintakso"

Večina jezikovnih dosežkov je last velikih podjetij; skoraj nič ni mogoče najti v javni domeni. To upočasnjuje razvoj industrije, nimamo prostega jezikovnega trga ali paketnih rešitev.

Poleg tega primanjkuje celovitih informacijskih virov. Obstaja tak projekt, kot je Nacionalni korpus ruskega jezika. To je ena najboljših nacionalnih stavb na svetu, ki se hitro razvija in odpira neverjetne možnosti za znanstvene in uporabne raziskave. Razlika je približno enaka kot pri biologiji – pred raziskavo DNK in po njej.

Toda veliko virov ne obstaja v ruščini. Tako ni nobenega analoga tako čudovitemu viru v angleškem jeziku, kot je Framenet - to je konceptualno omrežje, kjer so formalno predstavljene vse možne povezave določene besede z drugimi besedami. Na primer, obstaja beseda "leteti" - kdo lahko leti, kje, s kakšnim predlogom se uporablja ta beseda, s katerimi besedami je kombinirana in tako naprej. Ta vir pomaga povezati jezik s resnično življenje, torej spremljati, kako se obnaša določena beseda na ravni oblikoslovja in sintakse. To je zelo koristno.

Podjetje Avicomp trenutno razvija vtičnik za iskanje člankov s podobno vsebino. To pomeni, da če vas zanima članek, lahko hitro pogledate zgodovino zapleta: kdaj se je pojavila tema, kaj je bilo napisano in kdaj je bil vrh zanimanja za to težavo. Na primer, s pomočjo tega vtičnika bo mogoče, začenši s člankom, posvečenim dogodkom v Siriji, zelo hitro videti, kako med lansko leto dogodki so se tam razvili.

Kako bo strukturiran učni proces v magistrskem programu?

Izobraževanje na HSE je tako kot na zahodnih univerzah organizirano v ločenih modulih. Študenti bodo razdeljeni v majhne ekipe, mini startupe – torej na koncu naj bi prejeli več dokončanih projektov. Želimo dobiti prave izdelke, ki jih bomo potem odprli ljudem in pustili v javnosti.

Poleg neposrednih vodij projektov študentov jim želimo najti kuratorje med njihovimi potencialnimi delodajalci - na primer iz istega Yandexa, ki bodo tudi igrali to igro in študentom dali nekaj nasvetov.

Upam, da ljudje iz najbolj različna področja: programerji, jezikoslovci, sociologi, tržniki. Imeli bomo več prilagoditvenih tečajev na področju jezikoslovja, matematike in programiranja. Nato bomo imeli dva rigorozna predmeta iz jezikoslovja, ki bosta povezana z najaktualnejšimi jezikoslovnimi teorijami; želimo, da bodo naši diplomanti znali brati in razumeti sodobne jezikoslovne članke. Enako je z matematiko. Imeli bomo tečaj z naslovom " Matematične osnove Računalniško jezikoslovje«, ki bo orisal tiste veje matematike, na katerih temelji sodobno računalniško jezikoslovje.

Za vpis v magistrski študij je treba opraviti sprejemni izpit iz jezika in opraviti portfolio tekmovanje.

Poleg glavnih predmetov bo na voljo tudi vrsta izbirnih predmetov - dva sta usmerjena v poglobljen študij posameznih vsebin, ki vključujejo na primer strojno prevajanje in korpusno jezikoslovje. ena pa je, nasprotno, povezana s sorodnimi področji: kot npr. družbeni mediji, strojno učenje ali digitalna humanistika – tečaj, za katerega upamo, da ga bodo poučevali angleščina.

Timofeeva Maria Kirillovna
Doktor filologije, višji raziskovalec v Laboratoriju za logične sisteme Matematičnega inštituta poimenovanega po. S.L. Soboleva SB RAS, vodja oddelka za temeljno in uporabno jezikoslovje Humanitarnega inštituta NSU. Diplomiral na oddelku za matematično lingvistiko Fakultete za humanistične študije v Novosibirsku državna univerza.
Področje znanstvenih interesov: filozofske in metodološke osnove jezikoslovja, logični problemi semantike in pragmatike naravnega jezika, funkcionalni matematični modeli naravnega jezika, naravni in formalni jeziki.

Stukačev Aleksej Iljič
Kandidat fizikalnih in matematičnih znanosti, izredni profesor, višji raziskovalec na Inštitutu za matematiko poimenovan po. S.L. Sobolev SB RAS, izredni profesor Oddelka za diskretno matematiko in informatiko Fakultete za mehaniko in matematiko NSU, izredni profesor Oddelka za temeljno in uporabno jezikoslovje Humanitarnega inštituta NSU
Raziskovalno področje: matematična logika, teorija izračunljivosti (posplošena izračunljivost, izračunljivost v dopustnih množicah, HF izračunljivost), teorija modelov (konstruktivni modeli, učinkovite predstavitve sistemov, stopnje predstavljivosti), izračunljiva analiza. Matematična lingvistika: formalna semantika, Montaguejeva semantika, distributivna semantika.

Barahnin Vladimir Borisovič
Vodilni raziskovalec v laboratoriju informacijskih virov na Inštitutu za računalniške tehnologije SB RAS, profesor Oddelka za matematično modeliranje Fakultete za mehaniko in matematiko NSU, profesor Oddelka za sisteme računalništva in splošno informatiko Fakultete za informatiko Tehnologije NSU.
Področje znanstvenih interesov: izgradnja modelov porazdeljenih informacijskih sistemov, izdelava algoritmov za obdelavo delno strukturiranih besedilnih dokumentov, avtomatizacija celovito analizo pesniška besedila, metodološka vprašanja računalništva.

Bruches Elena Pavlovna
Podiplomski študent na Inštitutu za informatiko poimenovan po. A. P. Ershova SB RAS, asistent na oddelku za temeljno in uporabno jezikoslovje Humanitarnega inštituta NSU, računalniški lingvist v podjetju OnPositive.
Področje znanstvenih interesov: obdelava naravnega jezika, strojno učenje, umetna inteligenca.

Pavlovsky Evgenij Nikolajevič
Kandidat fizikalnih in matematičnih znanosti, član sveta mladih znanstvenikov in strokovnjakov pri vladi Novosibirske regije, član strokovnega sveta tehnoparka Novosibirsk Academgorodok, predsednik organizacijskega odbora Sibirskega simpozija o podatkovni znanosti in Inženirska konferenca.
Strokovni cilj: sistematizacija pristopov k formalizaciji poslovnih zahtev pri projektih velikih podatkov.

Palčunov Dmitrij Evgenijevič
Vodilni raziskovalec na Inštitutu za matematiko poimenovan po. S. L. Soboleva SB RAS, vodja Oddelka za splošno informatiko NSU, vodja oddelka "Inštitut za diskretno matematiko in informatiko" Fakultete za mehaniko in matematiko NSU.
Področje znanstvenih interesov: Dobljeni so temeljni rezultati o študiju Boolovih algeber z razločenimi ideali (I-algebre).

Sviridenko Dmitrij Ivanovič
Zaposleni na Inštitutu za matematiko SB RAS in NSU, poslovnež, organizator in solastnik visokotehnoloških podjetij, ki delujejo na področju informacij, komunikacij in digitalne tehnologije. Sodeluje pri raziskavah semantičnega modeliranja, ki jih financira ruska znanstvena fundacija.
Področje znanstvenih interesov: filozofija, metodologija, uporabna matematična logika. Avtor koncepta in matematične teorije semantičnega modeliranja, ki sta jo v osemdesetih letih prejšnjega stoletja predstavila skupaj z akademikom RAS S.S. Gončarov in Yu.L. Trenutno še naprej aktivno razvija metodologijo in matematično teorijo tega koncepta, ukvarja pa se tudi z aplikacijami tega koncepta na različnih področjih. Dela na ustvarjanju metodologije, matematične teorije in jezika za semantične pametne transakcije in pogodbe, pri čemer uporablja ideje semantičnega modeliranja v povezavi s TRIZ in drugimi področji.

Savostjanov Aleksander Nikolajevič
Vodilni raziskovalec v laboratoriju za diferencialno psihofiziologijo Raziskovalnega inštituta za fiziologijo in temeljno medicino, vodja laboratorija za psihološko genetiko Inštituta za citologijo in genetiko SB RAS, profesor Oddelka za splošno informatiko Fakultete za informacijske tehnologije NSU , profesor Oddelka za temeljno in uporabno jezikoslovje Humanitarnega inštituta NSU.
Znanstveni interesi: nevrofiziologija, psihogenetika, nevrolingvistika, metode računalniške obdelave bioloških signalov. Raziskave so usmerjene v ugotavljanje dejavnikov tveganja za nastanek in razvoj afektivnih patologij pri ljudeh, odvisno od socialnih in klimatskih pogojev življenja. V okviru raziskav se izvajajo odprave v različne regije Rusije (regija Novosibirsk, Tyva, Jakutija, republika Altaj) in sosednje države (Mongolija, Kitajska) za zbiranje biološkega materiala in zbiranje EEG posnetkov v različnih eksperimentalnih pogojih. Cilj raziskave je ustvariti diagnostične sisteme, ki omogočajo oceno tveganja motenj čustvene regulacije človekovega vedenja v pogojih povečanega stresa.

TEČAJNO DELO

v disciplini "Informatika"

na temo: “Računalniško jezikoslovje”


UVOD

2. Sodobni vmesniki za računalniško jezikoslovje

ZAKLJUČEK

LITERATURA


Uvod

Avtomatizirane informacijske tehnologije igrajo pomembno vlogo v življenju sodobne družbe. Sčasoma njihov pomen nenehno narašča. Toda razvoj informacijske tehnologije je zelo neenakomeren: če je sodobna raven računalniške tehnologije in komunikacij neverjetna, potem so na področju semantične obdelave informacij uspehi veliko skromnejši. Ti uspehi so odvisni predvsem od dosežkov pri preučevanju procesov človeškega mišljenja, procesov verbalne komunikacije med ljudmi in sposobnosti modeliranja teh procesov na računalniku.

Ko gre za ustvarjanje obetavnih informacijskih tehnologij, pridejo v ospredje problemi avtomatske obdelave besedilnih informacij, predstavljenih v naravnih jezikih. To je odvisno od dejstva, da je človekovo razmišljanje tesno povezano z njegovim jezikom. Poleg tega je naravni jezik orodje za razmišljanje. Je tudi univerzalno sredstvo komunikacije med ljudmi - sredstvo zaznavanja, kopičenja, shranjevanja, obdelave in prenosa informacij. Veda o računalniškem jezikoslovju se ukvarja s problemi uporabe naravnega jezika v sistemih za avtomatsko obdelavo informacij. Ta znanost je nastala relativno nedavno - na prelomu petdesetih in šestdesetih let prejšnjega stoletja. V zadnjih pol stoletja so bili na področju računalniškega jezikoslovja doseženi pomembni znanstveni in praktični rezultati: sistemi za strojno prevajanje besedil iz enega naravnega jezika v drugega, sistemi za avtomatizirano iskanje informacij v besedilih, sistemi za avtomatsko analizo in sintezo ustnega jezika. govora, nastale pa so še mnoge druge. To delo se posveča izgradnji optimalnega računalniškega vmesnika z uporabo računalniške lingvistike pri izvajanju jezikoslovnih raziskav.


1. Mesto in vloga računalniškega jezikoslovja v jezikoslovnem raziskovanju

V sodobnem svetu se računalniško jezikoslovje vedno bolj uporablja za izvajanje različnih jezikoslovnih študij.

Računalniško jezikoslovje je področje znanja, povezano z reševanjem problemov avtomatske obdelave informacij, predstavljenih v naravnem jeziku. Osrednja znanstvena problema računalniškega jezikoslovja sta problem modeliranja procesa razumevanja pomena besedil (prehod od besedila k formalizirani predstavitvi njegovega pomena) in problem sinteze govora (prehod od formalizirane reprezentacije pomena k besedilom v naravni obliki). jezik). Te težave se pojavljajo pri reševanju številnih aplikativnih problemov, zlasti problemov samodejnega odkrivanja in odpravljanja napak pri vnosu besedil v računalnik, avtomatske analize in sinteze ustnega govora, samodejno prevajanje besedila iz enega jezika v drugega, komunikacija z računalnikom v naravnem jeziku, samodejno razvrščanje in indeksiranje besedilnih dokumentov, njihovo avtomatsko abstrahiranje, iskanje dokumentov v bazah polnih besedil.

Jezikovna sredstva, ki nastaja in se uporablja v računalniškem jezikoslovju, lahko razdelimo na dva dela: deklarativni in proceduralni. Deklarativni del vključuje slovarje jezikovnih in govornih enot, besedila in različne vrste slovničnih tabel, proceduralni del pa sredstva za obdelavo jezikovnih in govornih enot, besedila in slovnične tabele. Računalniški vmesnik se nanaša na proceduralni del računalniškega jezikoslovja.

Uspeh pri reševanju aplikativnih problemov računalniškega jezikoslovja je odvisen predvsem od popolnosti in točnosti predstavitve izjavnih sredstev v računalniškem pomnilniku ter od kakovosti proceduralnih sredstev. Zahtevana raven reševanja teh problemov do danes še ni dosežena, čeprav delo na področju računalniškega jezikoslovja poteka v vseh razvitih državah sveta (Rusija, ZDA, Anglija, Francija, Nemčija, Japonska itd.). ).

Kljub temu je mogoče opaziti resne znanstvene in praktične dosežke na področju računalniškega jezikoslovja. Tako so bili v številnih državah (Rusija, ZDA, Japonska itd.) Zgrajeni eksperimentalni in industrijski sistemi za strojno prevajanje besedil iz enega jezika v drugega, zgrajeni so bili številni eksperimentalni sistemi za komuniciranje z računalniki v naravnem jeziku. , potekajo dela za ustvarjanje terminoloških bank podatkov, tezavrusov, dvojezičnih in večjezičnih strojnih slovarjev (Rusija, ZDA, Nemčija, Francija itd.), Gradijo se sistemi za samodejno analizo in sintezo ustnega govora (Rusija, ZDA, Japonska itd.). .), potekajo raziskave na področju konstruiranja modelov naravnega jezika.

Pomemben metodološki problem uporabnega računalniškega jezikoslovja je pravilna ocena potrebnega razmerja med deklarativno in proceduralno komponento sistemov za avtomatsko obdelavo besedilnih informacij. Čemu dati prednost: zmogljivim računalniškim postopkom, ki temeljijo na razmeroma majhnih besednih sistemih z bogatimi slovničnimi in semantičnimi informacijami, ali zmogljivi deklarativni komponenti z relativno preprostimi računalniškimi vmesniki? Večina znanstvenikov meni, da je druga pot boljša. Hitrejše bo doseganje praktičnih ciljev, saj bo manj slepih ulic in težko premagljivih ovir, tukaj pa bo mogoče uporabljati računalnike v širšem obsegu za avtomatizacijo raziskav in razvoja.

Potrebo po mobilizaciji prizadevanj predvsem za razvoj deklarativne komponente sistemov za avtomatsko obdelavo besedilnih informacij potrjujejo polstoletne izkušnje pri razvoju računalniškega jezikoslovja. Navsezadnje pri nas, kljub nedvomnim uspehom te znanosti, strast do algoritemskih postopkov ni prinesla pričakovanega uspeha. Bilo je celo nekaj razočaranja nad zmožnostmi postopkovnih sredstev.

Glede na navedeno se zdi obetavna takšna pot razvoja računalniškega jezikoslovja, ko bodo glavni napori usmerjeni v ustvarjanje zmogljivih slovarjev jezikovnih in govornih enot, proučevanje njihove pomensko-skladenjske strukture in ustvarjanje temeljnih postopkov za morfološke, pomensko-skladenjska in konceptualna analiza in sinteza besedil. To nam bo omogočilo reševanje širokega spektra uporabnih problemov v prihodnosti.

Računalniško jezikoslovje se sooča predvsem z nalogami jezikovne podpore procesom zbiranja, kopičenja, obdelave in iskanja informacij. Najpomembnejši med njimi so:

1. Avtomatizacija sestavljanja in jezikovne obdelave strojnih slovarjev;

2. Avtomatizacija procesov odkrivanja in odpravljanja napak pri vnosu besedil v računalnik;

3. Samodejno indeksiranje dokumentov in informacijskih zahtev;

4. Avtomatsko razvrščanje in abstrahiranje dokumentov;

5. Jezikovna podpora procesom iskanja informacij v enojezičnih in večjezičnih bazah podatkov;

6. Strojno prevajanje besedil iz enega naravnega jezika v drugega;

7. Gradnja jezikovnih procesorjev, ki zagotavljajo komunikacijo uporabnika z avtomatiziranimi inteligentnimi informacijskimi sistemi (zlasti ekspertnimi sistemi) v naravnem jeziku ali v jeziku, ki je blizu naravnemu;

8. Pridobivanje dejanskih informacij iz neformalnih besedil.

Oglejmo si podrobneje probleme, ki so najbolj pomembni za temo raziskave.

V praktičnih dejavnostih informacijskih centrov je treba rešiti problem avtomatiziranega odkrivanja in popravljanja napak v besedilih, ko se vnesejo v računalnik. to kompleksna naloga lahko pogojno razdelimo na tri naloge – naloge pravopisnega, skladenjskega in pomenskega nadzora besedil. Prvega je mogoče rešiti s postopkom morfološke analize, ki uporablja dokaj močan referenčni strojni slovar besednih debel. V procesu nadzora črkovanja so besede besedila podvržene morfološki analizi in če so njihove osnove identificirane z osnovami referenčnega slovarja, se štejejo za pravilne; če niso identificirani, se skupaj z mikrokontekstom prikažejo osebi na ogled. Oseba zazna in popravi popačene besede, ustrezen programski sistem pa te popravke vnese v popravljeno besedilo.

Naloga skladenjske kontrole besedil z namenom odkrivanja napak v njih je veliko težja od naloge črkovalne kontrole. Prvič zato, ker kot obvezno sestavino vključuje nalogo pravopisne kontrole, drugič pa zato, ker problem skladenjske analize neformalnih besedil še ni v celoti rešen. Vendar pa je delna skladenjska kontrola besedil povsem mogoča. Tu lahko greste na dva načina: bodisi sestavite dokaj reprezentativne strojne slovarje referenčnih skladenjskih struktur in z njimi primerjajte skladenjske strukture analiziranega besedila; ali razviti zapleten sistem pravil za preverjanje slovnične skladnosti elementov besedila. Prva pot se nam zdi bolj obetavna, čeprav seveda ne izključuje možnosti uporabe elementov druge poti. Skladenjsko zgradbo besedil je treba opisati v smislu slovničnih razredov besed (natančneje v obliki zaporedij nizov slovničnih informacij za besede).

Nalogo semantične kontrole besedil z namenom odkrivanja pomenskih napak v njih je treba uvrstiti v razred nalog umetne inteligence. V celoti jo je mogoče rešiti le na podlagi modeliranja procesov človekovega mišljenja. V tem primeru bo očitno treba ustvariti zmogljive enciklopedične baze znanja in programska orodja za manipulacijo znanja. Kljub temu je za omejena tematska področja in za formalizirane informacije ta naloga povsem rešljiva. Zastaviti in rešiti ga je treba kot problem pomensko-skladenjske kontrole besedil.

Problem avtomatizacije indeksiranja dokumentov in poizvedb je tradicionalen za avtomatizirane sisteme za iskanje besedilnih informacij. Sprva je bilo indeksiranje razumljeno kot postopek dodeljevanja klasifikacijskih indeksov dokumentom in poizvedbam, ki odražajo njihovo tematsko vsebino. Kasneje se je ta koncept preoblikoval in izraz »indeksiranje« se je začel nanašati na proces prevajanja opisov dokumentov in poizvedb iz naravnega jezika v formaliziran jezik, zlasti v jezik »iskalnih slik«. Iskalne slike dokumentov so se praviloma začele predstavljati v obliki seznamov ključne besede in fraze, ki odražajo njihovo tematsko vsebino, in slike iskalnih poizvedb - v obliki logičnih konstrukcij, v katerih so bile ključne besede in fraze med seboj povezane z logičnimi in sintaktičnimi operaterji.

Dokumente je priročno samodejno indeksirati na podlagi besedil njihovih povzetkov (če obstajajo), saj povzetki odražajo glavno vsebino dokumentov v zgoščeni obliki. Indeksiranje se lahko izvaja z ali brez nadzora tezavra. V prvem primeru se v besedilu naslova dokumenta in njegovem izvlečku iščejo ključne besede in besedne zveze referenčnega strojnega slovarja in v AML so vključene samo tiste, ki jih najdemo v slovarju. V drugem primeru so ključne besede in besedne zveze izolirane od besedila in vključene v POD, ne glede na njihovo pripadnost kateremu koli referenčnemu slovarju. Izvedena je bila tudi tretja možnost, kjer je AML poleg izrazov iz strojnega tezavra vključeval tudi izraze, izluščene iz naslova in prvega stavka povzetka dokumenta. Poskusi so pokazali, da POD-ji, samodejno prevedeni z uporabo naslovov in izvlečkov dokumentov, zagotavljajo večjo popolnost iskanja kot POD-ji, sestavljeni ročno. To je razloženo z dejstvom, da sistem samodejnega indeksiranja bolj v celoti odraža različne vidike vsebine dokumentov kot sistem ročnega indeksiranja.

Samodejno indeksiranje poizvedb predstavlja približno enake težave kot samodejno indeksiranje dokumentov. Tukaj morate tudi izluščiti ključne besede in besedne zveze iz besedila ter normalizirati besede, vključene v besedilo poizvedbe. Logične povezave med ključnimi besedami in besednimi zvezami ter kontekstualnimi operatorji lahko vnesete ročno ali z uporabo avtomatiziranega postopka. Pomemben element procesa samodejnega indeksiranja poizvedbe je dodajanje njenih sestavnih ključnih besed in fraz z njihovimi sopomenkami in hiponimi (včasih tudi hiperonimi in drugimi izrazi, povezanimi z izvirnimi izrazi poizvedbe). To je mogoče storiti samodejno ali interaktivno z uporabo strojnega tezavra.

Delno smo že obravnavali problem avtomatizacije iskanja dokumentarnih informacij v povezavi z nalogo avtomatskega indeksiranja. Tu je najbolj obetavno iskanje dokumentov po njihovih polnih besedilih, saj uporaba vseh vrst nadomestkov za ta namen (bibliografski opisi, iskalne slike dokumentov in besedila njihovih povzetkov) vodi do izgube informacij med iskanjem. Največje izgube nastanejo pri uporabi bibliografskih opisov kot nadomestkov primarnih dokumentov, najmanjše pa pri uporabi izvlečkov.

Pomembne lastnosti Kakovost pridobivanja informacij je njihova popolnost in točnost. Popolnost iskanja je mogoče zagotoviti z največjim upoštevanjem paradigmatskih povezav med jezikovnimi in govornimi enotami (besedami in besednimi zvezami), natančnost pa z upoštevanjem njihovih sintagmatskih povezav. Obstaja mnenje, da sta popolnost in natančnost iskanja obratno sorazmerni: ukrepi za izboljšanje ene od teh lastnosti vodijo v poslabšanje druge. Vendar to velja le za fiksno iskalno logiko. Če se ta logika izboljša, potem je mogoče obe značilnosti izboljšati hkrati.

Priporočljivo je, da proces iskanja informacij v polnobesedilnih bazah gradimo kot proces interaktivne komunikacije med uporabnikom in sistemom za iskanje informacij (IRS), v katerem si zaporedno ogleduje fragmente besedila (odstavke), ki izpolnjujejo logične pogoje zahtevo in izbere tiste, ki so zanj pomembne. Tako polna besedila dokumentov kot morebitni njihovi fragmenti se lahko vrnejo kot končni rezultati iskanja.

Kot je razvidno iz prejšnjih razprav, je pri avtomatskem iskanju informacij potrebno premagati jezikovno oviro, ki nastane med uporabnikom in informacijskim sistemom zaradi raznolikosti oblik reprezentacije istega pomena, ki se pojavlja v besedilih. Ta ovira postane še pomembnejša, če je treba iskanje izvajati v večjezičnih zbirkah podatkov. Radikalna rešitev problema bi lahko bila strojno prevajanje besedil dokumentov iz enega jezika v drugega. To lahko storite bodisi vnaprej, pred nalaganjem dokumentov v iskalnik, bodisi med postopkom iskanja informacij. IN zadnji primer Uporabnikova zahteva mora biti prevedena v jezik dokumentnega polja, v katerem se išče, rezultati iskanja pa morajo biti prevedeni v jezik zahteve. Tovrstni iskalniki že delujejo na internetu. VINITI RAS je zgradil tudi sistem brskalnika v cirilici, ki vam omogoča iskanje informacij v besedilih v ruskem jeziku z uporabo poizvedb v angleščini z rezultati iskanja tudi v jeziku uporabnika.

Pomembna in obetavna naloga računalniške lingvistike je izdelava jezikovnih procesorjev, ki uporabniku zagotavljajo komunikacijo z inteligentnimi avtomatiziranimi informacijskimi sistemi (zlasti ekspertnimi sistemi) v naravnem jeziku ali v jeziku, ki je blizu naravnemu. Ker so v sodobnih inteligentnih sistemih informacije shranjene v formalizirani obliki, morajo jezikovni procesorji, ki delujejo kot posredniki med osebo in računalnikom, rešiti naslednje glavne naloge: 1) nalogo prehoda iz besedil vhodnih informacijskih zahtev in sporočil v naravno jezik za predstavitev njihovega pomena v formaliziranem jeziku (pri vnosu informacij v računalnik); 2) naloga prehoda iz formalizirane predstavitve pomena izhodnih sporočil v njeno predstavitev v naravnem jeziku (pri izdajanju informacij osebi). Prvo nalogo je treba rešiti z morfološko, sintaktično in konceptualno analizo vhodnih poizvedb in sporočil, drugo pa s konceptualno, sintaktično in morfološko sintezo izhodnih sporočil.

Konceptualna analiza informacijskih zahtev in sporočil je sestavljena iz prepoznavanja njihove konceptualne strukture (meje imen konceptov in odnosov med koncepti v besedilu) in prevajanja te strukture v formaliziran jezik. Izvaja se po morfološki in sintaktični analizi zahtevkov in sporočil. Konceptualna sinteza sporočil je sestavljena iz prehoda od reprezentacije elementov njihove strukture v formaliziranem jeziku do verbalne (verbalne) reprezentacije. Po tem sporočila dobijo potrebno sintaktično in oblikoslovno obliko.

Za strojno prevajanje besedil iz enega naravnega jezika v drugega so potrebni slovarji prevodne korespondence med imeni pojmov. Znanje o takšnih prevajalskih korespondencah so nabirale številne generacije ljudi in je bilo zbrano v obliki posebnih publikacij - dvojezičnih ali večjezičnih slovarjev. Za strokovnjake, ki imajo nekaj znanja o tuji jeziki, so ti slovarji služili kot dragocen pripomoček pri prevajanju besedil.

V tradicionalnih dvojezičnih in večjezičnih slovarjih za splošno uporabo so bili prevodni ustrezniki navedeni predvsem za posamezne besede, za besedne zveze pa veliko manj pogosto. Navedba prevodnih ustreznic za besedne zveze je bila bolj značilna za posebne terminološki slovarji. Zato so študenti pri prevajanju delov besedil, ki vsebujejo večpomenske besede, pogosto naleteli na težave.

Spodaj so prevajalske korespondence med več pari angleških in ruskih fraz o »šolskih« temah.

1) Netopir je videti kot miška s krili – Bat izgleda kot miška s krili.

2) Otroci se radi igrajo v pesku na plaži - Otroci se radi igrajo v pesku na morski obali.

3) Kaplja dežja mi je padla na roko - Kaplja dežja mi je padla na roko.

4) Suh les zlahka gori - suh les dobro gori.

5) Pretvarjal se je, da me ne sliši - Pretvarjal se je, da me ne sliši.

Tukaj Angleške fraze niso idiomatični izrazi. Vendar pa je njihov prevod v ruščino mogoče le z določenim nategom obravnavati kot preprost prevod beseda za besedo, saj so skoraj vse besede, vključene v njih, dvoumne. Zato so študentom tu lahko v pomoč le dosežki računalniškega jezikoslovja.

Računalniški jezikoslovci se ukvarjajo z razvojem algoritmov za prepoznavanje besedila in govora, sintezo umetnega govora, ustvarjanjem semantičnih prevajalskih sistemov in samim razvojem umetne inteligence (v klasičnem pomenu besede – kot nadomestilo za človeško inteligenco – tj. se verjetno ne bo nikoli pojavil, vendar različni ekspertni sistemi, ki temeljijo na analizi podatkov).

Algoritmi za prepoznavanje govora se bodo vedno pogosteje uporabljali v vsakdanjem življenju – pametni domovi in ​​elektronske naprave ne bodo imeli daljinskih upravljalnikov in gumbov, temveč bo namesto tega uporabljen glasovni vmesnik. Ta tehnologija se izpopolnjuje, vendar je še veliko izzivov: računalnik težko prepozna človeški govor, ker različni ljudje govorijo zelo različno. Zato sistemi za prepoznavanje praviloma dobro delujejo bodisi takrat, ko so usposobljeni za enega govorca in so že prilagojeni njegovim izgovorjevnim značilnostim, bodisi ko je število fraz, ki jih sistem lahko prepozna, omejeno (kot na primer pri glasovnih ukazih za TV).

Strokovnjake za ustvarjanje semantičnih prevajalskih programov čaka še veliko dela: v tem trenutku dobri algoritmi so razviti samo za prevajanje v angleščino in iz nje. Tu je veliko težav - različni jeziki so pomensko različno strukturirani, to se razlikuje tudi na ravni konstruiranja besednih zvez in vseh pomenov enega jezika ni mogoče prenesti s pomenskim aparatom drugega. Poleg tega mora program razlikovati homonime, pravilno prepoznati dele govora in izbrati pravilen pomen večpomenske besede, ki ustreza kontekstu.

Mukotrpno delo je tudi sinteza umetnega govora (na primer za domače robote). Težko je narediti, da bi umetno ustvarjen govor zvenel naravno za človeško uho, saj obstaja na milijone odtenkov, na katere nismo pozorni, a brez katerih ni več vse "isto" - napačni začetki, premori, oklevanja itd. Govorni tok je zvezen in hkrati diskreten: govorimo brez premora med besedami, vendar nam ni težko razumeti, kje se ena beseda konča in začne druga, za stroj pa bi to predstavljalo velik problem.

Največja smer v računalniškem jezikoslovju je povezana z velikimi podatki. Navsezadnje obstajajo ogromni korpusi besedil, kot so viri novic, iz katerih je treba izolirati določene informacije - na primer izpostaviti vire novic ali prilagoditi RSS okusu določenega uporabnika. Takšne tehnologije že obstajajo in se bodo še razvijale, saj računalniška moč hitro narašča. Jezikoslovna analiza besedila se uporabljajo tudi za zagotavljanje internetne varnosti in iskanje potrebnih informacij za obveščevalne službe.

Kje študirati za računalniškega jezikoslovca? Pri nas so na žalost specialnosti, povezane s klasičnim jezikoslovjem in programiranjem, statistiko in analizo podatkov, precej ločene. Če želite postati digitalni jezikoslovec, morate razumeti oboje. Tuje univerze imajo visokošolske programe računalniške lingvistike, pri nas pa je zaenkrat najboljša možnost pridobitev osnovne lingvistične izobrazbe in nato obvladovanje osnov informatike. Dobro je, da zdaj obstaja veliko različnih spletnih tečajev, na žalost, v mojem študentska leta tega ni bilo. Študiral sem na Fakulteti za uporabno lingvistiko na Moskovski državni lingvistični univerzi, kjer smo imeli tečaje o umetni inteligenci in prepoznavanju govora – a še vedno ne v zadostnem obsegu. Zdaj IT podjetja aktivno poskušajo komunicirati z institucijami. S kolegi iz Kaspersky Laba poskušamo sodelovati tudi v izobraževalnem procesu: predavamo, organiziramo študentske konference in podeljujemo štipendije podiplomskim študentom. A zaenkrat pobuda prihaja bolj od delodajalcev kot od univerz.

Jezikoslovna informatika je del teorije informacijskih storitev. Teorija informacijskih storitev je nastala v povezavi z informatizacijo govora, torej v povezavi z uporabo računalnikov kot sredstva za zapisovanje, obračunavanje in shranjevanje jezikovnih informacij. Zahvaljujoč tehnologiji je bilo mogoče združiti funkcije knjižnice, arhiva in pisarne.

Veliki razredi besedil so obdelani s samodejnim povzemanjem. Zaradi nenehnega naraščanja obsega znanstvenih in tehničnih informacij, katerih iskanje postaja vse bolj delovno intenzivno, se je porodila ideja o iskanju po tako imenovanih sekundarnih besedilih, ki so zgoščene informacije iz primarnega dokumenta: bibliografski opis , povzetek, izvleček, znanstveni prevod.

Strnitev primarnega besedila se izvede s stiskanjem. Razvite so bile posebne metode za strnitev primarnega besedila:

a) statistično-distribucijske metode so sestavljene iz prepoznavanja najbolj informativnih stavkov, v katerih so koncentrirani najpomembnejši jezikovni znaki za dano besedilo;

b) metode uporabe semantičnih indikatorjev, ko so označene najbolj smiselne "točke" besedila - predmet raziskave, namen, metode, ustreznost, obseg, zaključki, rezultati); c) metoda besedilnih povezav, ki je sestavljena iz dejstva, da upoštevanje medfraznih povezav naredi abstraktno celostno.

3. Praktična terminologija.
Praktična terminologija vključuje razdelke:

a) leksikografska terminologija, ki obravnava teorijo in prakso izdelave posebnih slovarjev, poenotenja terminoloških sistemov, prevajanja izrazov, izdelave terminoloških bank podatkov, avtomatizacije njihovega shranjevanja in obdelave.

b) samo slovaropisje je postalo predmet uporabnega jezikoslovja kot ene najbolj delovno intenzivnih vrst praktičnega jezikoslovja. Slovarji so nastajali desetletja. Zato je želja znanstvenikov po avtomatizaciji leksikografske dejavnosti razumljiva. Pojavili so se samodejni slovarji. Njihov namen je povečati produktivnost dela pri delu z besedili, zbiranju, shranjevanju in obdelavi različnih jezikovnih enot. Slovarji te vrste se uporabljajo v sistemih za avtomatsko obdelavo besedil.

Samodejno prevajanje.

Avtomatsko ali strojno prevajanje temelji na predpostavki, da je mogoče tipološko ujemati različnih jezikih s strukture (besedišče, besedni red, pregib, skladenjske strukture). Jezikovno načelo prevajanja je primerjava jezikovnih enot dveh ali več jezikov, ki so enakovredni po pomenu.

V razvoju avtomatskih prevajalskih sistemov obstajata dve stopnji. Na prvi stopnji tako temeljni problemi strojnega prevajanja, kot je ustvarjanje avtomatski slovarji, razvoj vmesnega jezika, formalizacija slovnice, premagovanje homonimije, obdelava idiomatskih tvorb. Na drugi stopnji se množično-teoretični modeli slovnic, modeli slovnic odvisnosti, neposrednih komponent in modeli generativne slovnice še naprej zelo plodno razvijajo in izvajajo v praksi. V tem obdobju se semantika po modelu »pomen - besedilo« vse bolj vključuje v uporabno jezikoslovje. Centri za uporabno jezikoslovje, ki so nastali na domačih in tujih univerzah, razvijajo strategije strojnega prevajanja. Ti vključujejo laboratorij za matematično lingvistiko na Univerzi v Sankt Peterburgu, na Inštitutu za uporabno matematiko Ruske akademije znanosti; Vsezvezni prevajalski center; skupina "Govorna statistika" na Leningradskem pedagoškem inštitutu pod vodstvom Raymonda Genrikhoviča Piotrovskega; skupina za preučevanje sintaktičnega modeliranja "pomen - besedilo" pod vodstvom Igorja Aleksandroviča Melčuka.

Nova etapa izboljšanje strojnega prevajanja je povezano z uporabo vmesnega jezika – jezika za predstavitev znanja. Temelji na analizi pomena stavka, pridobljenega z razumevanjem vhodnega stavka, dopolnjenega in označenega s pomočjo informacij iz baze znanja in v njenih izrazih. Proces prevajanja je preoblikovanje vhodnega stavka jezika X v izhodno strukturo jezika Y. Z drugimi besedami, rezultat strojnega prevajanja ni sam prevod, temveč ponovna pripoved izvornega besedila (X). Kakovost prevoda je odvisna od učinkovitosti jezika za predstavitev znanja. Visoka kakovost strojno prevajanje je mogoče doseči le z ustvarjanjem zanesljivih jezikovnih temeljev in programsko opremo za gradnjo močnih semantičnih mrež, ki temeljijo na avtomatiziranih leksikonih.

IV. Etnolingvistika.

Etnolingvistika (etnosemantika, antropolingvistika) je področje jezikoslovja, ki proučuje jezik v njegovem razmerju s kulturo določene etnične skupine. Temelje etnolingvistike sta v prvi četrtini 20. stoletja postavila Franz Boas in Edward Sapir. V drugi polovici 20. stol. Etnolingvistika je postala samostojna veja jezikoslovja. Etnolingvistične študije druge polovice 20. stoletja. za katerega so značilne značilnosti, kot so: uporaba metod eksperimentalne psihologije; primerjava pomenskih modelov različnih jezikov; preučevanje problematike ljudske taksonomije; paralingvistične raziskave; rekonstrukcija duhovnega etnična kultura na podlagi jezikovnih podatkov; obujanje pozornosti do folklore.

V središču etnolingvistike sta dva tesno povezana problema, ki ju lahko imenujemo "kognitivni" in "komunikacijski":

1. Kako, s kakšnimi sredstvi in ​​v kakšni obliki se v jeziku odražajo kulturne (vsakdanje, verske, družbene itd.) predstave ljudi, ki govorijo ta jezik, o svetu okoli njih in o mestu človeka v tem svetu?

2. Katere oblike in sredstva komuniciranja – predvsem jezikovnega – so značilni za določeno etnično ali družbeno skupino?

V skladu s temi problemi sta se v etnolingvistiki oblikovali dve smeri: kognitivno usmerjena etnolingvistika in komunikativno usmerjena lingvistika.

a) Kognitivno usmerjena etnolingvistika.

Za ameriško jezikoslovje je značilna kognitivno usmerjena etnolingvistika. Imenuje se antropološka lingvistika. Sprva je bilo antropološko jezikoslovje usmerjeno v preučevanje kulture ljudstev, ki so se močno razlikovala od evropskih, predvsem ameriških Indijancev. Ustanovitev družinske vezi med temi jeziki in njihovim opisom trenutno stanje so bile podrejene nalogi celovitega opisa kulture teh ljudstev in rekonstrukcije njihove zgodovine, vključno s selitvenimi potmi. Zapisovanje in interpretacija vsakdanjih in folklornih besedil je bila sestavni del antropološkega opisa.

Po Franzu Boasu v antropološkem jezikoslovju velja, da več frakcijskih fragmentov klasifikacije realnosti v jeziku ustreza več pomembne vidike te kulture. Kot ugotavlja ameriški lingvist in antropolog Harry Heuer, »ljudstva lovcev in nabiralcev, kot so plemena Apačev na jugozahodu Amerike, imajo obsežen besednjak imen za živali, rastline in naravne pojave. Ljudstva, katerih glavni vir preživetja je ribolov (zlasti Indijanci na severni obali Tihi ocean), imajo v svojem slovarju podroben nabor imen rib ter ribolovnih orodij in tehnik.«

Največ pozornosti etnolingviste so pritegnili taksonomski sistemi, kot so označbe delov telesa, izrazi sorodstva, tako imenovane etnobiološke klasifikacije, to je imena rastlin in živali (angleški znanstvenik B. Berlin, Anna Wierzbitskaya), zlasti pa barvne oznake. (B. Berlin in P. Kay , A. Vezhbitskaya).

V sodobni antropološki etnolingvistiki lahko pogojno ločimo »relativistično« in »univerzalistično« smer: za prvo je prednostno proučevanje kulturnih in jezikovnih posebnosti v govorčevi sliki sveta, za drugo iskanje univerzalnih lastnosti besedišče in slovnica naravnih jezikov.

Primer raziskovanja relativističnega trenda v etnolingvistiki je delo Jurija Derenikoviča Apresjana, Nine Davidovne Arutjunove, Ane Vežbitske, Tatjane Vjačeslavovne Bulygine, Alekseja Dmitrijeviča Šmeljeva, E.S. Yakovleva, posvečeno posebnostim ruščine jezikovna slika mir. Ti avtorji analizirajo pomen in uporabo besed, ki bodisi označujejo edinstvene koncepte, ki niso značilni za konceptualizacijo sveta v drugih jezikih (melanholija in drznost, morda in domnevam), ali ustrezajo konceptom, ki obstajajo v drugih kulturah, vendar so še posebej pomembni za rusko kulturo ali prejemajo posebno interpretacijo (resnica in pravica, svoboda in volja, usoda in usoda). Navedimo kot primer fragment opisa besede "morda" iz knjige T. V. Bulygina in A. D. Shmelev "Lingvistična konceptualizacija sveta":

«<...>Morda sploh ne pomeni isto kot "morda" ali "morda".<...>najpogosteje se morda uporablja kot nekakšno opravičilo za neprevidnost, ko ne gre toliko za upanje, da se bo zgodil kakšen ugoden dogodek, ampak da se bo izognila kakšni skrajno nezaželeni posledici. O osebi, ki kupuje srečka, ne bodo rekli, da deluje naključno. Torej lahko rečemo o osebi, ki<...>prihrani denar, če ne sklene zdravstvenega zavarovanja in upa, da se ne bo zgodilo nič slabega<...>Zato upanje na naključje ni le upanje na srečo. Če je simbol sreče ruleta, potem lahko upanje na priložnost simbolizira "ruska ruleta".

Primer raziskav univerzalistične smeri v etnolingvistiki je delo poljske znanstvenice Anne Wierzbicke, posvečeno principom opisovanja jezikovnih pomenov. Cilj dolgoletnih raziskav A. Vezhbitskaya in njenih privržencev je vzpostaviti nabor tako imenovanih »semantičnih primitivov«, univerzalnih elementarnih konceptov, s kombiniranjem katerih lahko vsak jezik ustvari neskončno število konfiguracij, specifičnih za dani jezik in kultura. Semantične primitive so leksikalne univerzalije, z drugimi besedami, to so osnovni koncepti, za katere v katerem koli jeziku obstaja beseda, ki jih označuje. Ti koncepti so intuitivno jasni govorcu katerega koli jezika in na njihovi podlagi je mogoče zgraditi interpretacijo katere koli, ne glede na to, kako zapletene, jezikovne enote. Preučuje material iz genetsko in kulturno različnih jezikov sveta, vključno z jeziki Papue Nove Gvineje, avstronezijskih jezikov, afriških jezikov in avstralskih staroselcev, A. Vezhbitskaya nenehno izpopolnjuje seznam semantičnih primitivov. V njenem delu "Razlaga čustvenih konceptov" je podan naslednji seznam:

»substantivi« – jaz, ti, nekdo, nekaj, ljudje;
»določevalci in kvantifikatorji« – ta, isti, isti, drugi, eden, dva, mnogo, vse/cel;
»miselni predikati« – misliti (o), govoriti, vedeti, čutiti, želeti;
»dejanja in dogodki« - narediti, zgoditi se/zgoditi;
“ocene” – dobro, slabo;
“deskriptorji” – velik, majhen;
»čas in kraj« – kdaj, kje, po/pred, pod/nad;
»metapredikati« – ne/ne/zanikanje, ker/zaradi, če, lahko;
"ojačevalnik" - zelo;
“taksonomija in partonomija” – vrsta/sorta, del;
“ohlapnost/prototip” – podobno/kot.

Iz semantičnih primitivov, kot so "gradniki", A. Vezhbitskaya sestavlja interpretacije celo tako subtilnih pojmov, kot so čustva. Na primer, uspe ji pokazati subtilno razliko med konceptom ameriške kulture, ki ga označuje beseda »srečen«, in pojmom, ki ga označuje ruska beseda »srečen« (in podobnimi poljskimi, francoskimi in nemškimi pridevniki). Beseda "srečen", kot piše A. Vezhbitskaya, čeprav se običajno šteje za slovarski ekvivalent angleška beseda»srečen« ima v ruski kulturi ožji pomen, »običajno se uporablja za označevanje redkih stanj popolne blaženosti ali popolnega zadovoljstva, prejetih s tako resnimi stvarmi, kot so ljubezen, družina, smisel življenja itd.« Tako je ta razlika formulirana v jeziku semantičnih primitivov (komponente interpretacije B, ki jih v interpretaciji A ni, so označene z velikimi črkami).

Razlaga A: X se počuti srečnega
X čuti nekaj
nekaj dobrega se mi je zgodilo
Hotel sem to
Nočem drugega
X čuti nekaj podobnega

Interpretacija B: X je vesel
X čuti nekaj
včasih človek pomisli nekaj takega:
zgodilo se mi je nekaj ZELO dobrega
Hotel sem to
VSE JE V REDU
NE MOREM ŽELITI nič drugega
torej ta oseba čuti nekaj dobrega
X čuti nekaj podobnega

Za raziskovalni program A. Vezhbitskaya je temeljnega pomena, da iskanje univerzalnih pomenskih primitivov poteka empirično, z uporabo tehnik terenske lingvistike – delo z informatorjem: prvič, v vsakem posameznem jeziku je vloga, ki jo ima določen koncept pri interpretaciji drugih koncepti so razjasnjeni in, drugič, za vsak koncept je identificiran niz jezikov, v katerih je ta koncept leksikaliziran, to pomeni, da obstaja posebna beseda, ki izraža ta koncept.

B) Komunikacijsko usmerjena etnolingvistika.

Najpomembnejši rezultati v komunikacijsko usmerjeni etnolingvistiki so povezani s smerjo, imenovano »etnografija govora« ali »etnografija komunikacije«. Etnografija govora kot teorija in metoda za analizo rabe jezika v sociokulturnem kontekstu je bila predlagana v zgodnjih 60. letih. v delih D. Himesa in Johna J. Gumperza ter razvila v delih ameriškega znanstvenika Arona Cicurela, J. Baumana, A.W. Corsaro. Izrek preučujemo le v povezavi s kakršnim koli govornim ali komunikacijskim dogodkom, v okviru katerega nastane. Poudarjena je kulturna pogojenost kakršnih koli govornih dogodkov (pridiga, sodna obravnava, telefonski pogovor itd.). Pravila jezikovne rabe se vzpostavljajo s trenutnim opazovanjem (sodelovanje v govornem dogodku), analizo spontanih podatkov in intervjujem z maternimi govorci določenega jezika.

V okviru te smeri se razvijajo modeli govornega vedenja, sprejeti v določeni kulturi, v določeni etnični oz. družbena skupina. Tako na primer v kulturi »srednjeevropskega standarda« neformalni pogovor med več ljudmi v skladu s pravili dobrega vedenja, sprejetimi v tej skupnosti, predvideva, da udeleženci ne bodo prekinjali drug drugega, vsak ima možnost Če želite spregovoriti po vrsti, oseba, ki želi govoriti, to običajno nakaže z besedami "naj pripomnim", "naj vprašam" itd. Kdor želi iz pogovora izstopiti, svojo namero napove z besedami »žal moram iti«, »za nekaj časa moram oditi« ipd. Povsem drugačne norme javnega govornega obnašanja so na primer sprejete v številnih kulturah avstralskih staroselcev. Skladnost individualne pravice posamezni udeleženec v pogovoru v teh skupnostih ni obvezno pravilo: lahko govori več sogovornikov hkrati, ni treba reagirati na izjavo drugega, govorec spregovori, ne da bi koga posebej nagovoril, sogovorniki ne smejo videti drug na drugega itd. Ta model govornega vedenja temelji na izhodiščni predpostavki, da so vse izjave nekako akumulirane v okoliškem svetu in zato ni nujno, da »sprejem« sporočila neposredno sledi njegovemu »prenosu«.

Vroča tema etnografija komunikacije je tudi študij jezikovnega izražanja relativ socialni status sogovorniki: pravila naslavljanja sogovornika, vključno z uporabo naslovov, nagovarjanje z imenom, priimkom, imenom in patronimom, poklicni nagovori (npr. »doktor«, »tovariš major«, »profesor«), ustreznost nagovorov. »na vas« in »vam« itd. Posebna pozornost je namenjena jezikom, v katerih je razmerje socialni status govorca in poslušalca ni fiksiran le v besedišču, ampak tudi v slovnici. Primer je japonski jezik, kjer je izbira slovnične oblike glagola odvisna od tega, ali je poslušalec v družbeni hierarhiji višji ali nižji od govorca in tudi od tega, ali sta govorec in poslušalec del iste družbene enote ali ne. . Poleg tega se upošteva tudi odnos med govorcem in sogovornikom. govorimo o. Zaradi kompleksnega učinka teh omejitev ista oseba uporablja različne oblike glagola, ko nagovarja podrejenega in nadrejenega, ko nagovarja kolega in ko nagovarja neznancu, ko nagovarjate svojo ženo in sosedovo ženo.

Slovnica odraža tudi takšno značilnost japonskega govornega bontona, kot je želja po izogibanju vdorom v sfero misli in občutkov sogovornika. IN japonska Obstaja posebna slovnična oblika glagola - tako imenovano "zaželeno razpoloženje". Z uporabo zaželene razpoloženjske pripone –tai govorec izrazi željo po izvedbi dejanja, ki ga označuje izvirni glagol: »brati« + tai = »želim brati«, »zapustiti« + tai = »želim oditi«. Vendar pa so oblike želenega razpoloženja možne le, če govorec opiše svojo željo. Želja sogovornika ali tretje osebe je izražena s posebno konstrukcijo, ki približno pomeni "iz zunanjih znakov je mogoče sklepati, da oseba X želi izvesti dejanje Y." Tako lahko japonski govorec ob upoštevanju slovničnih zahtev presoja samo svoje namene. Dajanje neposrednih izjav o notranje stanje jezika druge osebe, na primer o njegovih željah, preprosto ne dovoljuje. Lahko rečeš »Jaz hočem ...«, ne moreš pa reči »Ti hočeš ...« ali »On hoče ...«, ampak samo »Zdi se mi (imam vtis), da želiš ... ” ali “ Zdi se mi (imam vtis), da hoče...”

Etnografija komuniciranja poleg norm govornega bontona preučuje tudi v določenih kulturah ritualizirane govorne situacije, kot so sodna obravnava, zagovor disertacije, trgovski posel in podobno; pravila za izbiro jezika v medjezikovnem sporazumevanju; jezikovne konvencije in klišeji, ki signalizirajo pripadnost besedila določenemu žanru (»bilo je nekoč« - v pravljicah »poslušali so in se odločili« - v zapisniku sestanka).

Sodobna etnolingvistika je tesno povezana s sociologijo, psihologijo in semiotiko. V ruski etnolingvistiki zavzemajo posebno mesto raziskave na stičišču etnolingvistike, folkloristike in primerjalnozgodovinskega jezikoslovja. Najprej je to raziskovalni program, posvečen etnolingvistični in etnokulturni zgodovini slovanskih narodov (Nikita Iljič Tolstoj, Svetlana Mihajlovna Tolstaja, Vladimir Nikolajevič Toporov). V okviru tega programa se sestavljajo etnolingvistični atlasi, kartirajo se obredi, verovanja in folklora; preučuje se struktura kodificiranih slovanskih besedil določenih žanrov, vključno z besedili urokov, ugank, pogrebnih in gradbenih obredov itd., v korelaciji s podatki primerjalnozgodovinskih in arheoloških raziskav.

  • Sistematizacija v jezikoslovju in jezikovna klasifikacija ljudstev sveta
  • Sociolingvistična (ali funkcionalna) klasifikacija jezikov in oblik govora