FormareColegii și universități

Ce este Corpus Lingvistică?

Doar câteva decenii în urmă pentru a automatiza cercetarea lingvistică, oamenii de știință ar putea doar să viseze. Lucrarea a fost făcută manual, ea atrage un număr mare de studenți, există o probabilitate mare greșeli „neglijente“, și cel mai important - toate acestea a luat o lungă perioadă de timp, mult timp.

Odată cu dezvoltarea tehnologiei de calculator a devenit posibil să se efectueze cercetări cu privire la ordinul de mărime mai rapid, iar astăzi una dintre direcțiile cele mai promițătoare în studiul limbii este un corpus lingvistica. Principala caracteristică a acestuia este utilizarea unor cantități mari de informații text, informații într-o singură bază de date, într-un mod special și numit corpul marcat.

Până în prezent, există mai multe clădiri create cu scopuri diferite, pe baza diferitelor materiale lingvistice se întinde de la milioane la zeci de miliarde de unități lexicale. Această direcție este recunoscut ca un promițător și demonstrează progrese semnificative în sensul de aplicare și de cercetare. Experții, într-un fel sau altul modul de tratare a limbajului natural, se recomandă să se familiarizeze cu corpul de texte, cel puțin la un nivel de bază.

Istoria lingvisticii corpus

Formarea acestei tendințe se datorează creării Statelor Unite ale Americii la corpul Brown la începutul anilor 60-e ai secolului trecut. Colecția cuprinde textele tuturor formelor de 1 milion de cuvinte, iar astăzi corpul această dimensiune ar fi total necompetitiv. Acest lucru se datorează în mare parte ritmul de dezvoltare a tehnicii de calcul, precum și cererea tot mai mare pentru noi resurse de cercetare.

In anii '90 lingvistica corpus apărut într-o disciplină completă și independentă, o colecție de texte au fost elaborate și marcate pentru zeci de limbi. În această perioadă a fost creat, de exemplu, British National Corpus 100 de milioane de jetoane.

Odată cu dezvoltarea acestui domeniu de lingvistică, volume de text devin din ce în ce mai mult (și să ajungă la miliarde de unități de dicționar), iar aspectul este din ce în ce mai diversă. Până în prezent, spațiul de internet poate fi găsit carcase scrise și de limbă, multilingve și literatura artistică sau academică orientată spre învățare, precum și multe alte specii vorbite.

Care sunt carcasa

Tipuri de corp în lingvistica corpului pot fi furnizate pentru mai multe motive. Intuitiv, baza pentru clasificarea poate fi o limbă de text (rusă, germană), modul de acces (open source, închis, comercial), genul materialului sursă (ficțiune, documentar, academic, jurnalism).

mod interesant generează materiale ale limbii vorbite. Deoarece înregistrarea deliberată a unui astfel de vorbire pentru a crea un mediu artificial pentru respondenți, iar materialul rezultat nu a putut fi numit „spontan“, lingvistica corpus moderne a mers invers. Un voluntar este echipat cu un microfon, iar în timpul zilei a produs o înregistrare a tuturor conversațiilor, la care participă. Oamenii din jurul, desigur, nu poate ști că, în cursul conversației de zi cu zi contribuie la dezvoltarea științei.

Mai târziu, a primit înregistrare stocate în baza de date și sunt însoțite de imprimat tip de text transcriere. Astfel, devine posibil de marcare necesară pentru a crea o carcasă orală de vorbire de zi cu zi.

cerere

Acolo unde este posibil utilizarea limbii, și, probabil, utilizarea textelor clădirilor. Metode de a aplica coca în lingvistică poate fi:

  • Crearea unui program de determinare a cheii, este utilizat pe scară largă în politică și de afaceri pentru a ține evidența răspunsurilor pozitive și negative ale alegătorilor și a clienților, respectiv.
  • Sistemul de informații de conectare la dicționare și traducători pentru a îmbunătăți performanța lor.
  • O varietate de sarcini de cercetare care contribuie la înțelegerea unității de limbă, istoria dezvoltării și predicțiile schimbărilor în viitorul apropiat.
  • Dezvoltarea sistemelor de recuperare de informații pe baza morfologice, sintactice, semantice și alte caracteristici.
  • Optimizarea diferitelor sisteme lingvistice și altele.

Utilizarea clădirilor

interfață de resurse similare cu un motor de căutare tipic, și solicită utilizatorului să introducă un cuvânt sau o combinație de cuvinte pentru a căuta baza de informații. Pe lângă forma interogarea exactă poate utiliza versiunea îmbunătățită, care permite de a găsi informații textuale practic pe orice criterii lingvistice.

bază de căutare poate fi:

  • apartenența la un anumit grup de părți de vorbire;
  • caracteristici gramaticale;
  • semantica;
  • colorat stilistice și emoționale.

Puteți combina, de asemenea, criterii de căutare pentru o secvență de cuvinte, de exemplu, pentru a găsi toate aparițiile verbului în timpul prezent prima persoană, singular, care vine după prepoziția „în“ și substantivul în cazul acuzativ. Soluția la o astfel de sarcină simplă ia utilizatorul câteva secunde și necesită doar câteva clicuri de mouse în câmpurile specificate.

Procesul de creare

Căutarea în sine poate fi realizată pe toate subcorpus și unul ales în mod specific, în funcție de nevoile în atingerea unui obiectiv particular:

  1. Primul pas este de a defini care textele constituie baza pentru cazul. Din motive practice, este utilizat în mod frecvent povestiri jurnalistice, știri, comentarii on-line. Proiectul de cercetare este utilizarea unei game largi de tipuri de pachete, dar textul ar trebui să fie selectate în conformitate cu un teren comun.
  2. Colecția rezultată a textelor supuse pretratare, există corectarea erorilor, dacă este cazul, preparate prin descrierea bibliografică și extra-lingvistică a textului.
  3. Este eliminat toate informațiile de bază non-textuale: Golește grafice, imagini, tabele.
  4. Este o alocare de token-uri, care sunt de obicei de vorbire, pentru o prelucrare ulterioară.
  5. În final, realizează pluralitatea morfologice, sintactice și alte marcaje obținute de elemente.

Rezultatul tuturor tranzacțiilor efectuate de către o structură sintactică cu distribuită în aceasta o multitudine de elemente, fiecare dintre acestea fiind identificat o parte din vorbire, gramaticale și, în unele cazuri, atributele semantice.

Dificultăți în crearea de clădiri

Este important să se înțeleagă că nu este suficient pentru a pune împreună un set de cuvinte sau propoziții pentru organism. Pe de o parte, o colecție de texte ar trebui să fie echilibrată, adică, reprezintă diferite tipuri de texte în anumite proporții. Pe de altă parte - conținutul incintei ar trebui să fie distanțate într-un mod special.

Prima problemă este rezolvată printr-un acord: de exemplu, în colecția cuprinde 60% din texte literare, 20% din documentare, un anumit procent este dat o reprezentare scrisă a limbii vorbite, legislație, lucrări științifice, etc perfectă reteta organism echilibrat astăzi nu există ...

A doua întrebare, în ceea ce privește aspectul conținutului, să rezolve o provocare. Există programe speciale și algoritmi utilizați pentru marcarea automată a textelor, dar ele nu dau un rezultat perfect, poate provoca întreruperi și necesită reprelucrare manuală. Oportunități și provocări în rezolvarea acestei probleme sunt descrise în detaliu într-o lucrare V. P. Zaharova lingvisticii corpus.

marcare text este implementat la mai multe niveluri, pe care le indicați mai jos.

etichetarea morfologică

De la școală, ne amintim că, în limba rusă, există diferite părți de vorbire, și fiecare dintre ele are propriile sale caracteristici. De exemplu, verbul are categorii de înclinare și momentul în care nici un substantiv. un vorbitor nativ, fără ezitare își declină substantivele și verbele conjugate, ci pentru a marca corpul de 100 de milioane. jetoane de muncă manuală nu va funcționa. Toate operațiunile necesare se pot executa computerul, cu toate acestea, pentru acest lucru este nevoie să fie învățați.

Etichetarea morfologică, computerul trebuie să „înțeleagă“, fiecare cuvânt ca o anumită parte de vorbire având anumite caracteristici gramaticale. Deoarece rusă (și orice altă limbă) operează un număr de reguli regulate, este posibil să se construiască o procedură automată pentru analiza morfologică, investind în mașină pentru un număr de algoritmi. Cu toate acestea, există excepții de la regula, precum și diferite factori de risc. Ca urmare, analiza computerizată net de astăzi este departe de a fi ideală, chiar și cu 4% eroare conduce la o valoare de 4 mil. Cuvintele de pe corpul de 100 de milioane. Unități, care necesită reprelucrare manuală.

detaliată a cărții descrie problema Zaharova V. P. „corpus Lingvistică“.

adnotare sintactica

Parsarea sau parsarea - o procedură care stabilește relația de cuvinte într-o propoziție. Folosind un set de algoritmi este posibil să se determine textul subiect, predicat, adăugiri, mai multe ture de vorbire. Aflați ce cuvinte sunt secvența principală, și care - dependente, putem extrage în mod eficient informații din text și pentru a preda aparatul să emită ca răspuns la o solicitare de căutare numai informațiile noi interesante.

Apropo, motoarele de căutare moderne folosesc acest lucru pentru a da anumite numere în loc de texte lungi, ca răspuns la interogările relevante, cum ar fi „cât de multe calorii intr-un mar“ sau „distanța de la Moscova la Sankt Petersburg.“ Cu toate acestea, pentru a înțelege chiar și elementele de bază ale procesului descris de necesitatea de a se consulta „Introducere în Corpus Lingvistica“ sau alt tutorial de bază.

marcajul semantic

Semantica cuvântului - este, în termeni simpli, sensul. Abordarea aplicabilă pe scară largă pentru analiza semantica a unui tag-uri cuvânt de atribuire, reflectând apartenența la un set de categorii semantice și subcategorii. Aceste informații sunt valoroase pentru optimizarea algoritmilor de analiza ton de text, sumarizarea automată și alte metode de sarcini ale lingvisticii corpus.

Există un număr de „root“ de copac, reprezentând un cuvânt abstract, cu o semantică foarte largă. Așa cum se formează o ramură a nodurilor de arbori, care conțin mai multe și mai specifice elemente lexicale. De exemplu, cuvântul „creatura“ poate fi asociată cu concepte cum ar fi „uman“ și „animal“. Primul cuvânt va continua să se ramifica în diferite profesii, termeni de rudenie, naționalitatea, iar al doilea - pe clase și tipuri de animale.

Utilizarea sistemelor de recuperare de informații

Domenii de utilizare a lingvisticii corpus acoperă diverse domenii de activitate. Incintele sunt utilizate pentru prepararea și corectarea dicționare, crearea unor sisteme de traducere automată, adnotarea, preluarea fapte, care determină tonul și alte procesare de text.

În plus, aceste resurse sunt utilizate în mod activ în studiul limbilor lumii și a mecanismelor de funcționare a limbajului în general. Accesul la volume mari de informații de pre-pregătite facilitează studiu rapidă și cuprinzătoare a tendințelor de dezvoltare a limbilor, și schimbarea neologisme de formare a stabili viteza de vorbire valori unități lexicale și altele.

Deoarece lucrul cu astfel de cantități mari de date necesită automatizare, în prezent există o interacțiune strânsă între computer și corpus lingvistică.

Corpus National rus

Acest caz (prescurtat NKRYA) include un număr de subcorpus, permițând utilizarea unei resurse pentru o mare varietate de sarcini.

Materialele din baza de date sunt împărțite NKRYA:

  • la publicații în anii '90 și 2000s mass-media“, atât interne și externe;
  • înregistrare de vorbire;
  • aktsentologicheski marcate texte (adică, semnele de stres);
  • vorbire dialect;
  • poezie;
  • Materialele cu marcaje sintactic și altele.

Sistemul de informații include, de asemenea, Subcorpus cu traduceri paralele de lucrări din limba rusă în engleză, germană, franceză și multe alte limbi (și vice-versa).

De asemenea, în baza de date există o secțiune de texte istorice, reprezentând discursul scris în limba rusă, în diferite perioade ale dezvoltării sale. Există, de asemenea, un organism de formare, care poate fi util pentru cetățenii străini în stăpânirea limbii ruse.

Rus Corpus Național cuprinde 400 de milioane de unități lexicale, și în multe feluri înaintea unei părți semnificative a limbilor organismelor europene.

perspective

De fapt, în favoarea recunoașterii acestei tendințe este disponibilitatea de promițătoare de laborator lingvistică corpus universitățile din Rusia, precum și străine. Odată cu utilizarea și de cercetare în cadrul acestor informații și de căutare a resurselor presupune dezvoltarea anumitor zone din domeniul tehnologiilor înalte, sisteme de răspuns la întrebarea, dar este discutat mai sus.

Dezvoltarea în continuare a lingvisticii corpus este prezis la toate nivelurile, variind de la tehnic și în ceea ce privește punerea în aplicare a unor noi algoritmi care optimizează procesele de căutare și prelucrare a informațiilor, autorizând calculatoare, mai mult RAM, și pentru consumator, deoarece utilizatorii sunt tot mai multe modalități de a utiliza acest tip de resurse în lor de zi cu zi de viață și de muncă.

în concluzie

La mijlocul secolului trecut, în 2017 părea viitor îndepărtat, în cazul în care navele spațiale de călătorie prin univers și roboți face toată treaba pentru oameni. De fapt, știința este plină de „pete albe“ și a face încercări disperate de a răspunde la întrebări ale omenirii timp de secole deranjante. Întrebările de funcționare a limbii aici ocupă un loc de cinste, și de cabinet și computațională ne poate ajuta să-i răspundă.

Prelucrarea de seturi mari de date pot detecta modele, anterior inaccesibile, prezice dezvoltarea unor caracteristici lingvistice specifice pentru a urmări formarea de cuvinte în aproape în timp real.

La nivel practic, cofretele globale pot fi văzute, de exemplu, ca un potențial instrument pentru a evalua starea de spirit publice - Internetul este o constant actualizată zilnic de bază diverse texte create de utilizatori reali: aceste comentarii și comentarii și articole, și multe alte forme de exprimare.

În plus, lucrează cu organisme contribuie la dezvoltarea același hardware, care sunt implicate în extragerea de informații, suntem familiarizați cu serviciul „Google“ sau „Yandex“, traducere mașină, dicționare electronice.

Putem afirma cu încredere că lingvistica corpus face doar primii pași, iar în viitorul apropiat va înflori.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 ro.birmiss.com. Theme powered by WordPress.