GATE(テキストエンジニアリングの一般的なアーキテクチャ)を使ってみる

開示: あなたのサポートはサイトの運営を維持するのに役立ちます!このページで推奨する一部のサービスについては、紹介料を稼ぎます.


テキストエンジニアリングの一般的なアーキテクチャ(GATE)は、Javaで記述されたツールのスイートであり、人間の言語処理、分析、および情報抽出に使用されます。 GATEはオープンソースで無料で、GNU Lesser General Public License(LGPL)の下でリリースされています.

GATEは、Webマイニング、情報抽出、採用、意思決定支援など、さまざまな言語処理タスクおよびアプリケーションで使用されます。.

GATEの簡単な歴史

GATEはもともとイギリスのシェフィールド大学で開発され、1995年にリリースされました。GATEの開発は最初のリリースから継続しており、現在も継続しています。GATEの最新の安定版リリースはバージョン8.1で、2015年6月2日付です。.

中心的な開発作業は、多くのコミュニティ貢献者のサポートを得て、GATE研究チームによって行われます.

GATEの機能

GATEは現在、次の言語の分析をサポートしています:英語、スペイン語、中国語、アラビア語、ブルガリア語、フランス語、ドイツ語、ヒンディー語、イタリア語、セブアノ語、ルーマニア語、ロシア語.

GATEは、TXT、HTML、XML、Doc、PDFなどのさまざまな形式からのテキスト入力を受け入れることができます。サポートされるデータベースは、Javaシリアル、PostgreSQL、Lucene、およびOracleです。.

さらに、GATEはJava Database Connectivity(JDBC)APIを使用してそれらと対話します.

長年の開発の後、GATEは現在、開発者向けのデスクトップクライアント、ワークフローベースのWebアプリケーション、Javaライブラリ、アーキテクチャ、洗練されたプロセスを含む、安定した成熟した人間言語処理ソリューションです。.

GATE開発者

GATE Developerは、人間の言語処理ソフトウェアコンポーネントを作成するためのグラフィカルユーザーインターフェイス(GUI)を提供する統合開発環境(IDE)です。.

GATE Developerには、ほぼ新しい情報抽出システム(ANNIE)と呼ばれるバンドルされた情報抽出(IE)コンポーネントセットが付属しています。.

ANNIEは、トークナイザー、地名辞典、センテンススプリッター、品詞タガー、名前付きエンティティトランスデューサー、信頼タガーで構成される情報抽出コンポーネントのセットです。.

GATEチームウェア

GATE Teamwareは、協調的な言語の注釈とキュレーションのためのWebベースの管理プラットフォームです。.

GATEチームウェアを使用すると、テキストアノテーションの表示、追加、編集にWebインターフェースを使用して、言語処理に分散ワークフォースを使用できます。 Webベースの管理は、プロジェクトのセットアップ、追跡、および管理にも使用されます。.

GATEチームウェアの実行に関心がある場合は、GATEクラウドからGATEチームウェア仮想サーバーを実行する準備ができている、事前構成済みの購入するのが最も簡単な方法です。 GATE Teamwareはオープンソースであり、そのコードはSourceForgeでホストされています.

GATE組み込み

GATE Embeddedは、Javaで実装されたGATEの言語処理クラスライブラリです。これは、すべてのGATEシステムで使用されるオブジェクト指向フレームワークであり、Gate Developerのコア要素を形成します.

GATE Embeddedを使用すると、独自のアプリケーションに言語処理機能を追加できます。これはプログラマーにとって非常に便利なツールであり、Javaアーカイブ(JAR)のセットとして入手できます。.

GATEの使用

GATEは、最も人気のある人間の言語処理ツールの1つです。 GATEには、同様のソフトウェアソリューションの中でも最大のユーザーコミュニティがあります。その広範な使用と長い開発履歴により、GATEは安定した効率的な包括的な言語処理ソリューションになりました.

GATEは、言語計算を伴う実験の科学で使用され、実験の再現性、定量的評価、および測定とコラボレーションを提供します.

教育では、GATEは自然言語工学コースの例と演習によく使用されます.

GATEのビジネス用途には、それを顧客フィードバック分析のツールとして使用すること、GATEを使用して製薬研究の科学文書に注釈を付けて検索すること、メディアやジャーナリズムの大規模な画像ライブラリーのキャプションを処理することなどが含まれます。.

GATEを試したい場合は簡単です。 GATEインストーラーをダウンロードして実行し、詳細なインストール手順に従ってください。 GATEはクロスプラットフォームソリューションであるため、Javaをサポートする任意のシステムで実行できます.

GATEリソース

人間の言語処理を伴う計算タスクを扱う場合は、GATEと以下のリソースのいくつかをさらに詳しく調べる必要があります。

  • GATEホームページから始めるのが良いでしょう。 GATEのユーザーマニュアルやその他の役立つドキュメント、GATEのサポートファイル、インストールファイル、デモなどを見つけることができます。.

  • GATEパブリックWikiはGATEホームページからもアクセスできますが、GATEトレーニングコースからの多くの有用な例とコンテンツのため、私たちはそれを選びました.

  • American National CorpusのWebサイトには、基本的なGATEの使用法に関する短いチュートリアルがあります.

GATE Books

人間の言語処理とGATEを取り上げた本は非常にまれですが、入手可能なものは有用で人気があります。以下の書籍をお勧めします。

  • Cunningham、Maynard、およびBontchevaによるGATEを使用したテキスト処理(2011):この本には、GATE DeveloperとGATE Embeddedを使用するためのガイド、および複数の言語の処理や非構造化テキストの大規模なコレクションなど、機能のすべての主要領域に関する章が含まれています。完全なプラグインのドキュメントだけでなく。本の内容のほとんどは、オンラインのGATEユーザーガイドに基づいています.

  • 検索アプリケーションの構築:Manu KonchadyによるLucene、Lingpipe、およびGate(2008):この本は、オープンソースソフトウェアを使用して検索アプリケーションを構築するための実用的なガイドです。 Lucene、LingPipe、Gateは、強力な検索アプリケーションを構築するための人気のあるオープンソースツールです。 「Building Search Applications」では、エンティティの抽出、品詞のタグ付け、文の抽出、テキストのトークン化など、GATEの機能について説明しています.

  • グラハムウィルコックによる言語アノテーションとテキスト分析の概要(人間言語テクノロジーに関する合成講義)(2009):この本は、言語アノテーションとテキスト分析の基本的な紹介です。 2つの主要なテキスト分析アーキテクチャであるGATEとUIMAについて説明および比較し、それらを構成およびカスタマイズする方法を示す実践的な演習を行います.

結論

GATEは人気があり、成熟したソリューションです。その人気のため、大規模で活発なコミュニティに支えられており、今後数年にわたって存在することが保証されています.

ただし、GATEは万人向けではありません。その使用はいくつかの比較的小さなニッチに制限されています。一方、上記のニッチでの使用は広まっています。 GATEの柔軟性により、大手製薬会社から教育まで、無数の業界や組織での使用が可能になります.

何よりも、必要だと確信できない場合は、GATEを無料で試すことができます。LGPLに準拠している限り、オープンソースソフトウェアと同じように、GATEを商用プロジェクトに展開できます。規格.

参考資料とリソース

コーディングと開発に関連するガイド、チュートリアル、およびインフォグラフィックが他にもあります。

  • Java:入門、学習方法、およびリソース:GATEを使用する場合は、Javaプログラミング言語の入門を確認してください。.

  • Scalaプログラミング入門:Scalaのすべてを学びましょう—新しく改善されたJava.

  • プロローグのリソース:プロローグは自然言語処理を行うために特別に設計されました.

チャットボットと恋に落ちないようにする方法

自然言語処理に興味がありますか?その歴史、チャットボットと恋に落ちないようにする方法についてすべて学びましょう。長い道のりです.

チャットボットと恋に落ちないようにする方法
チャットボットと恋に落ちないようにする方法

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me
    Like this post? Please share to your friends:
    Adblock
    detector
    map