「効率的なテキスト検索のためのオープンソースJavaライブラリ - TXTCache」

ホーム  -   会社概要  -  お問い合わせ
TXTCache
圧縮インデックス(Compressed Index)のJavaのライブラリ。
接尾辞配列(Suffix Array)、圧縮接尾辞配列(Compressed Suffix Array)、LZ-Indexなどを含んだパッケージ。
オープンソース。
ライセンスは、GPLまたはLGPLのユーザー選択式。
無償。

GPL版ダウンロード
LGPL版ダウンロード

Operaの場合、お手数ですが、ダウンロード後、ファイル名に.zipを付ける必要があります。
圧縮インデックス(Compressed Index)について
比較的新しい検索技術の一つで、文字列の検索を効率的に行うことができる。

使用される記憶領域が比較的少量で済む、索引付け(インデックス化)の手法。

OSの64bit化、メモリの低価格化、大容量化が進む中、 データをメモリ内に圧縮して格納し、
メモリ内で高速に検索処理できるデータ構造として、注目されている。
関連リンク
接尾辞配列 (Suffix Array)
http://ja.wikipedia.org/wiki/Suffix_Array
http://en.wikipedia.org/wiki/Suffix_array
ブロックソート。Burrows-Wheeler変換 (Burrows-Wheeler Transform; BWT)。
http://ja.wikipedia.org/wiki/ブロックソート
http://en.wikipedia.org/wiki/Burrows-Wheeler_transform
接尾辞木(Suffix tree)
http://ja.wikipedia.org/wiki/接尾辞木
SUFARY
http://nais.to/~yto/tools/sufary/
sary: Suffix Arrayのライブラリとツール
http://sary.sourceforge.net/
Introduction for Suffix Array
http://homepage3.nifty.com/DO/sa_intro.htm
Pizza&Chili Corpus Compressed Indexes and their Testbeds
http://pizzachili.di.unipi.it/
TXTCacheは、このサイトで紹介されているロジックを含んでいます。
FM-index
http://www.mfn.unipmn.it/~manzini/fmindex/index.html
MDCache 多次元検索エンジンライブラリ
http://mdcache.com/
更新履歴  -  MDCache  -  プレスリリース