Započnite s GATE-om (Opća arhitektura za inženjering teksta)

Objava: Vaša podrška pomaže održavanju web mjesta! Naplaćujemo naknadu za preporuku za neke usluge koje preporučamo na ovoj stranici.


General Architecture for Text Engineering (GATE) je skup alata napisanih na Javi, koji se koriste za obradu, analizu i prikupljanje informacija ljudskim jezikom. GATE je open-source i besplatan, objavljuje se pod GNU Lesser General Public License (LGPL).

GATE se koristi u mnogim zadacima i aplikacijama za obradu jezika, kao što su: web mining, prikupljanje informacija, regrutovanje, podrška odlučivanju i tako dalje.

Kratka povijest GATE-a

GATE je prvotno razvijen na Sveučilištu u Sheffieldu u Engleskoj, a prvotno je objavljen 1995. Razvoj GATE-a kontinuiran je od početnog izdanja i još uvijek traje, a najnovije stabilno izdanje GATE-a je verzija 8.1, od 2. lipnja 2015..

Temeljni razvojni posao obavlja istraživački tim GATE-a, uz podršku mnogih suradnika u zajednici.

Značajke GATE-a

GATE trenutno podržava analizu za sljedeće jezike: engleski, španjolski, kineski, arapski, bugarski, francuski, njemački, hindski, talijanski, cebuano, rumunski i ruski.

GATE može prihvaćati unos teksta iz različitih formata, poput TXT, HTML, XML, Doc i PDF. Podržane baze podataka su Java Serial, PostgreSQL, Lucene i Oracle.

Nadalje, GATE komunicira s njima pomoću API-ja za povezivanje baze podataka Java (JDBC).

Nakon godina razvoja, GATE je sada stabilno i zrelo rješenje za obradu ljudskog jezika koje uključuje desktop klijent za programere, internetsku aplikaciju temeljenu na radnom toku, Java knjižnicu, arhitekturu i polirani proces.

GATE Developer

GATE Developer je integrirano razvojno okruženje (IDE) koje nudi grafičko korisničko sučelje (GUI) za izradu komponenti softvera za obradu ljudskog jezika.

GATE Developer dolazi s paketom komponenti u paketu Information Extraction (IE) nazvanim Gotovo novi sustav za vađenje informacija (ANNIE).

ANNIE je skup komponenti za vađenje informacija, koji se sastoji od tokenizatora, gazetara, razdjelnika rečenica, dijela govornog tagera, imenovanog pretvarača entiteta i sredstva za povjerenje.

GATE Teamware

GATE Teamware internetska je platforma za upravljanje u vezi s napomenom i usavršavanjem jezika.

Pomoću GATE Teamwarea možete koristiti raspodijeljenu radnu snagu za obradu jezika koristeći svoje web sučelje za gledanje, dodavanje i uređivanje tekstualnih napomena. Web-temeljeno upravljanje koristi se i za postavljanje, praćenje i upravljanje projektima.

Ako vas zanima pokretanje GATE Teamware-a, najlakši način da to dobijete je kupnja unaprijed konfiguriranog, spremnog za pokretanje virtualnog poslužitelja GATE Teamware iz GATE Cloud-a. GATE Teamware je otvorenog koda, a kod se nalazi na SourceForgeu.

Ugrađeno GATE

GATE Embedded je GATEova knjižnica klasa za obradu jezika, implementirana u Javi. To je objektno orijentirani okvir koji se koristi u svim GATE sustavima i čini temeljne elemente Gate Developer-a.

GATE Embedded omogućuje vam dodavanje funkcija obrade jezika u vlastite aplikacije. Ovo je vrlo koristan alat za programere i dostupan je kao skup Java arhiva (JARs).

Pomoću GATE-a

GATE je jedan od najpopularnijih alata za obradu ljudskog jezika. GATE ima i najveću zajednicu korisnika od svih sličnih softverskih rješenja. Njegova široka upotreba i duga povijest razvoja učinili su GATE stabilnim, učinkovitim i sveobuhvatnim rješenjem za obradu jezika.

GATE se koristi u znanosti za eksperimente s računanjem jezika, gdje omogućava ponovljivost eksperimenata, kvantitativno vrednovanje te mjerenje i suradnju.

U obrazovanju se GATE često koristi za primjere i vježbe nastave iz prirodnih jezika.

Poslovne uporabe GATE-a uključuju njegovo korištenje kao alat za analizu povratnih informacija korisnika, korištenje GATE-a za bilježenje i pretraživanje znanstvenih dokumenata u farmaceutskim istraživanjima, obradu naslova u masovnim bibliotekama slika u medijima i novinarstvu, i tako dalje.

Ako želite isprobati GATE, jednostavno je. Samo preuzmite i pokrenite instalacijski program GATE i slijedite detaljne upute za instalaciju. GATE je rješenje na više platformi i može se pokretati u bilo kojem sustavu koji podržava Java.

Resursi GATE

Ako radite sa zadacima računanja koji uključuju obradu ljudskog jezika, trebali biste detaljnije pogledati GATE i neke od sljedećih resursa:

  • Početna stranica GATE je dobro mjesto za početak. Možete pronaći korisnički priručnik za GATE i drugu korisnu dokumentaciju, kao i GATE podršku i instalacijske datoteke, demonstracije i tako dalje.

  • GATE javni Wiki dostupan je i s početne stranice GATE-a, no odlučili smo ga izdvojiti zbog mnogih korisnih primjera i sadržaja s GATE-ovih tečajeva.

  • Web stranica American National Corpus ima kratak tutorial o osnovnoj upotrebi GATE-a.

GATE knjige

Knjige koje pokrivaju obradu ljudskog jezika i GATE prilično su rijetke, ali knjige koje su dostupne korisne su i popularne. Preporučujemo sljedeće knjige:

  • Obrada teksta s GATE-om (2011) Cunningham-a, Maynard-a i Bontcheva: ova knjiga sadrži vodič za upotrebu GATE Developer-a i GATE Embedded, te poglavlja o svim glavnim područjima funkcionalnosti, kao što su obrada više jezika i velike zbirke nestrukturiranog teksta. kao i kompletnu dodatnu dokumentaciju. Većina sadržaja knjige potječe iz mrežnog vodiča korisnika GATE-a.

  • Aplikacije za pretraživanje zgrade: Lucene, Lingpipe i Gate (2008) Manu Konchady: ova je knjiga praktični vodič za izgradnju aplikacija za pretraživanje pomoću softvera otvorenog koda. Lucene, LingPipe i Gate popularni su alati otvorenog koda za izgradnju moćnih aplikacija za pretraživanje. Izrada aplikacija za pretraživanje opisuje funkcije iz GATE-a koje uključuju izdvajanje entiteta, dio označavanja govora, izdvajanje rečenica i tokenizaciju teksta..

  • Uvod u jezičnu napomenu i analitiku teksta (Sinteza predavanja o ljudskim jezičkim tehnologijama) (2009) Graham Wilcock: ova knjiga daje osnovni uvod u jezičnu napomenu i analitiku teksta. Dvije glavne arhitekture teksta analitike teksta, GATE i UIMA, opisane su i uspoređene, s praktičnim vježbama koje pokazuju kako ih konfigurirati i prilagoditi..

Zaključak

GATE je popularno i zrelo rješenje. Zbog svoje popularnosti podržala ga je velika i aktivna zajednica, što jamči da će to biti još godinama koje dolaze.

Međutim, GATE nije za sve. Njegova je upotreba ograničena na nekoliko relativno malih niša. S druge strane, njegova je upotreba u navedenim nišama rasprostranjena. Fleksibilnost GATE-a omogućava njegovu upotrebu u bezbroj industrija i organizacija, u rasponu od velike farmacije do obrazovanja.

Najbolje od svega, u slučaju da niste uvjereni da vam treba, možete isprobati GATE bez ikakvih troškova, a ako vam se sviđa, možete ga implementirati u komercijalne projekte baš kao i bilo koji softver otvorenog koda, sve dok se držite LGPL-a. standardi.

Daljnje čitanje i izvori

Imamo više vodiča, tutorijala i infografika vezanih za kodiranje i razvoj:

  • Java: Uvod, kako naučiti i resursi: ako želite koristiti GATE, morat ćete provjeriti ovaj uvod u programski jezik Java.

  • Scala programiranje Uvod: saznajte sve o Scali – novoj i poboljšanoj Javi.

  • Resursi Prolog: Prolog je posebno dizajniran za obradu prirodnih jezika.

Kako izbjeći zaljubljivanje s chatbotom

Zainteresirani za obradu prirodnog jezika? Saznajte sve o njegovoj povijesti, kako izbjeći zaljubljivanje putem chatbota. Dug je put.

Kako izbjeći zaljubljivanje s chatbotom
Kako izbjeći zaljubljivanje s chatbotom

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me
    Like this post? Please share to your friends:
    Adblock
    detector
    map