「効率的なテキスト検索のためのオープンソースJavaライブラリ - TXTCache」
TXTCache
圧縮インデックス(Compressed Index)のJavaのライブラリ。
接尾辞配列(Suffix Array)、圧縮接尾辞配列(Compressed Suffix Array)、LZ-Indexなどを含んだパッケージ。
オープンソース。
ライセンスは、GPLまたはLGPLのユーザー選択式。
無償。
GPL版ダウンロード
LGPL版ダウンロード
Operaの場合、お手数ですが、ダウンロード後、ファイル名に.zipを付ける必要があります。
接尾辞配列(Suffix Array)、圧縮接尾辞配列(Compressed Suffix Array)、LZ-Indexなどを含んだパッケージ。
オープンソース。
ライセンスは、GPLまたはLGPLのユーザー選択式。
無償。
GPL版ダウンロード
LGPL版ダウンロード
Operaの場合、お手数ですが、ダウンロード後、ファイル名に.zipを付ける必要があります。
圧縮インデックス(Compressed Index)について
比較的新しい検索技術の一つで、文字列の検索を効率的に行うことができる。
使用される記憶領域が比較的少量で済む、索引付け(インデックス化)の手法。
OSの64bit化、メモリの低価格化、大容量化が進む中、 データをメモリ内に圧縮して格納し、
メモリ内で高速に検索処理できるデータ構造として、注目されている。
使用される記憶領域が比較的少量で済む、索引付け(インデックス化)の手法。
OSの64bit化、メモリの低価格化、大容量化が進む中、 データをメモリ内に圧縮して格納し、
メモリ内で高速に検索処理できるデータ構造として、注目されている。
関連リンク
http://en.wikipedia.org/wiki/Suffix_array
http://en.wikipedia.org/wiki/Burrows-Wheeler_transform
TXTCacheは、このサイトで紹介されているロジックを含んでいます。