Sāciet darbu ar GATE (vispārīgā teksta inženierijas arhitektūra)

Atklāšana: Jūsu atbalsts palīdz vietnei darboties! Mēs nopelnām nodošanas maksu par dažiem pakalpojumiem, kurus mēs iesakām šajā lapā.


Vispārīgā arhitektūra teksta inženierijai (GATE) ir Java valodā rakstīts rīku komplekts, ko izmanto cilvēku valodas apstrādei, analīzei un informācijas ieguvei. GATE ir atvērtā koda un bezmaksas, izdots saskaņā ar GNU mazākas vispārējās publiskās licences (LGPL).

GATE tiek izmantots daudzos dažādos valodu apstrādes uzdevumos un lietojumos, piemēram: tīmekļa ieguve, informācijas ieguve, vervēšana, lēmumu atbalstīšana utt..

Vārtu īsa vēsture

GATE sākotnēji tika izstrādāts Šefīldas universitātē, Anglijā, un sākotnēji tika izlaists 1995. gadā. GATE attīstība ir nepārtraukta kopš sākotnējās izlaišanas un joprojām turpinās, GATE jaunākajai stabilajai versijai ir 8.1 versija, kas datēta ar 2015. gada 2. jūniju..

Galveno izstrādes darbu veic GATE pētniecības grupa ar daudzu sabiedrības līdzdalībnieku atbalstu.

Vārtu funkcijas

GATE pašlaik atbalsta šādu valodu analīzi: angļu, spāņu, ķīniešu, arābu, bulgāru, franču, vācu, hindi, itāļu, Cebuano, rumāņu un krievu.

GATE var pieņemt teksta ievadi no dažādiem formātiem, piemēram, TXT, HTML, XML, Doc un PDF. Atbalstītās datu bāzes ir Java Serial, PostgreSQL, Lucene un Oracle.

Turklāt GATE mijiedarbojas ar viņiem, izmantojot Java datu bāzes savienojuma (JDBC) API.

Pēc gadu attīstības GATE tagad ir stabils un nobriedis cilvēku valodas apstrādes risinājums, kas ietver darbvirsmas klientu izstrādātājiem, uz darbplūsmu balstītu tīmekļa lietojumprogrammu, Java bibliotēku, arhitektūru un pulētu procesu.

GATE izstrādātājs

GATE Developer ir integrētā izstrādes vide (IDE), kas nodrošina grafisko lietotāja saskarni (GUI) cilvēku valodas apstrādes programmatūras komponentu izveidošanai..

GATE Developer nāk ar komplektētu informācijas ieguves (IE) komponentu komplektu ar nosaukumu gandrīz gandrīz jauna informācijas ieguves sistēma (ANNIE)..

ANNIE ir informācijas ieguves komponentu kopums, kas sastāv no marķiera, gazeta, teikumu sadalītāja, runas marķiera daļas, nosaukto entītiju pārveidotāja un uzticamības marķētāja..

Vārtu komanda programmatūra

GATE Teamware ir tīmekļa pārvaldības platforma sadarbības anotēšanai un veidošanai.

Izmantojot GATE Teamware, valodu apstrādei varat izmantot sadalītu darbaspēku, izmantojot tīmekļa saskarni teksta anotāciju skatīšanai, pievienošanai un rediģēšanai. Tīmekļa pārvaldība tiek izmantota arī projektu iestatīšanai, izsekošanai un pārvaldībai.

Ja jūs interesē GATE Teamware palaišana, vienkāršākais veids, kā to iegūt, ir iegādāties iepriekš konfigurētu, gatavu GATE Teamware virtuālo serveri palaist no GATE Cloud. GATE Teamware ir atvērtā koda, un tā kods ir izvietots vietnē SourceForge.

VĀRTS iegults

GATE iegultie ir GATE valodas apstrādes klases bibliotēka, kas ieviesta Java. Tas ir uz objektu orientēts ietvars, ko izmanto visās GATE sistēmās, un tas veido Gate Developer pamatelementus.

GATE Embedded ļauj pievienot valodas apstrādes funkcijas savām programmām. Tas ir ļoti noderīgs rīks programmētājiem un ir pieejams kā Java arhīvu komplekts (JAR).

Izmantojot GATE

GATE ir viens no populārākajiem cilvēku valodas apstrādes rīkiem. GATE ir arī lielākā lietotāju kopiena no visiem līdzīgiem programmatūras risinājumiem. Tā plašā izmantošana un ilga attīstības vēsture ir padarījusi GATE par stabilu, efektīvu un visaptverošu valodas apstrādes risinājumu.

GATE tiek izmantots zinātnē eksperimentiem ar valodas aprēķināšanu, kur tas nodrošina eksperimentu atkārtojamību, kvantitatīvu novērtēšanu, kā arī mērīšanu un sadarbību.

Izglītībā GATE bieži izmanto piemēriem un vingrinājumiem dabiskās valodas inženierzinātņu kursos.

GATE biznesa lietojumos ietilpst tā izmantošana kā klientu atsauksmju analīzes rīks, GATE izmantošana zinātnisko dokumentu anotēšanai un meklēšanai farmācijas izpētē, parakstu apstrāde masveida attēlu bibliotēkās plašsaziņas līdzekļos un žurnālistikā utt..

Ja vēlaties izmēģināt GATE, tas ir vienkārši. Vienkārši lejupielādējiet un palaidiet GATE instalēšanas programmu un izpildiet detalizētās instalēšanas instrukcijas. GATE ir starpplatformu risinājums, tāpēc to var darbināt jebkurā sistēmā, kas atbalsta Java.

Vārtu resursi

Ja strādājat ar aprēķināšanas uzdevumiem, kas saistīti ar cilvēku valodas apstrādi, jums vajadzētu sīkāk aplūkot GATE un dažus no šiem resursiem:

  • Vārtu mājas lapa ir laba vieta, kur sākt. Jūs varat atrast GATE lietotāja rokasgrāmatu un citu noderīgu dokumentāciju, kā arī GATE atbalsta un instalācijas failus, demonstrācijas utt..

  • GATE publiskā Wiki ir pieejama arī no GATE mājas lapas, taču mēs nolēmām to izcelt, pateicoties daudzajiem noderīgajiem piemēriem un GATE apmācības kursu saturam..

  • American National Corpus vietnē ir īsa apmācība par GATE pamata izmantošanu.

Vārtu grāmatas

Grāmatas, kurās aprakstīta cilvēku valodas apstrāde un GATE, ir diezgan reti sastopamas, taču pieejamās ir noderīgas un populāras. Mēs iesakām šādas grāmatas:

  • Teksta apstrāde ar GATE (2011), kuru autori ir Cunningham, Maynard un Bontcheva: šajā grāmatā ir iekļauts ceļvedis GATE Developer un GATE Embedded lietošanai, kā arī nodaļas par visām galvenajām funkcionalitātes jomām, piemēram, vairāku valodu apstrāde un lielām nestrukturēta teksta kolekcijām, kā kā arī pilnīga spraudņa dokumentācija. Lielākā grāmatas satura daļa ir iegūta no tiešsaistes GATE lietotāja rokasgrāmatas.

  • Ēku meklēšanas lietojumprogrammas: Lucene, Lingpipe un Gate (2008), izveidojis Manu Konchady: šī grāmata ir praktisks ceļvedis meklēšanas programmu veidošanai, izmantojot atvērtā pirmkoda programmatūru. Lucene, LingPipe un Gate ir populāri atvērtā koda rīki, lai izveidotu jaudīgas meklēšanas lietojumprogrammas. Celtniecības meklēšanas lietojumprogrammas apraksta funkcijas no GATE, kas ietver entītiju ekstrahēšanu, runas marķēšanas daļu, teikuma ekstrahēšanu un teksta marķēšanu.

  • Ievads lingvistiskajā anotācijā un teksta analīzē (sintēzes lekcijas par cilvēku valodas tehnoloģijām) (2009), autors: Grahams Vilkoks: šī grāmata sniedz pamata ievadu valodu anotācijā un teksta analītikā. Aprakstītas un salīdzinātas divas galvenās teksta analītikas arhitektūras – GATE un UIMA – ar praktiskiem vingrinājumiem, kas parāda, kā tos konfigurēt un pielāgot.

Secinājums

Vārti ir populārs un nobriedis risinājums. Tā popularitātes dēļ to atbalsta liela un aktīva kopiena, kas garantē, ka tā pastāvēs vēl vairākus gadus.

Tomēr GATE nav visiem. Tās izmantošana ir ierobežota ar vairākām salīdzinoši mazām nišām. No otras puses, tā izmantošana minētajās nišās ir plaši izplatīta. GATE elastīgums ļauj to izmantot neskaitāmās nozarēs un organizācijās, sākot no lielās farmācijas un beidzot ar izglītību.

Pats labākais, ja neesat pārliecināts, ka jums tas ir vajadzīgs, varat izmēģināt GATE bez maksas, un, ja jums tas patīk, varat to izvietot komerciālos projektos tāpat kā jebkuru atvērtā pirmkoda programmatūru, ja vien pieturaties pie LGPL standartiem.

Turpmākie lasījumi un resursi

Mums ir vairāk ceļvežu, mācību materiālu un infografiku, kas saistīti ar kodēšanu un attīstību:

  • Java: ievads, kā iemācīties un resursi: ja jūs izmantosit GATE, jūs vēlēsities iepazīties ar šo Java programmēšanas valodas ievadu..

  • Scala programmēšanas ievads: uzziniet visu par Scala – jauno un uzlabotu Java.

  • Prolog resursi: Prolog tika īpaši izveidots, lai apstrādātu dabisko valodu.

Kā izvairīties no iemīlēšanās tērzētavā

Vai jūs interesē dabiskās valodas apstrāde? Uzziniet visu par tās vēsturi, kā izvairīties no iemīlēšanās tērzētavā. Tas ir tāls ceļš.

Kā izvairīties no iemīlēšanās tērzētavā
Kā izvairīties no iemīlēšanās tērzētavā

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me