- 著者
- C. Faloutsos, S. Christodoulakis
- タイトル
- Description and performance analysis of signature
file methods for office filing
- ページ
- 237-257
- 日時
- July 1987
- 概要
- Signature files have attracted a lot of interest as
an access method for text and specifically for
messages in the office environment. Messages are
stored sequentially in the message file, whereas
their hash-coded abstractions (signatures) are
stored sequentially in the signature file. To answer
a query, the signature file is examined first, and
many nonqualifying messages are immediately
rejected. In this paper we examine the problem of
designing signature extraction methods and studying
their performance. We describe two old methods,
generalize another one, and propose a new method and
its variation. We provide exact and approximate
formulas for the dependency between the false drop
probability and the signature size for all the
methods, and we show that the proposed method (VBC)
achieves approximately ten times smaller false drop
probability than the old methods, whereas it is well
suited for collections of documents with variable
document sizes.
- コメント
- シグナチャのコーディング方法の比較解説。Variable
Bit-block Compressonという方法でシグナチャのビットベ
クトルを圧縮するのがよいとしている。(比較になってい
るのはWord Signature(語のシグナチャを並べたもの)、
Superimposed Coding(語のシグナチャのORをとったもの)、
Run Length、Bit-block Compression(シグナチャをブロッ
クに分割して0の連続を圧縮するもの) 、VBC(BCの変型)で
ある。) シグナチャのサイズを大きくすればFalse Dropを
小さくすることができるから、圧縮効率をあげることがで
きれば同じサイズのシグナチャでFalse Dropを小さくする
ことができるというわけである。
- 概要
- 要するに0の多い画像の圧縮と同じことだと思うが...01列
の効率的圧縮法としてVBCが最適であるとも思えない。(シ
グナチャデータの特性によるだろう。) ちょっと信用でき
ない。
- カテゴリ
- Signature
Category: Signature
Journal: ACM Transactions on Office Information Systems
Comment: シグナチャのコーディング方法の比較解説。Variable
Bit-block Compressonという方法でシグナチャのビットベ
クトルを圧縮するのがよいとしている。(比較になってい
るのはWord Signature(語のシグナチャを並べたもの)、
Superimposed Coding(語のシグナチャのORをとったもの)、
Run Length、Bit-block Compression(シグナチャをブロッ
クに分割して0の連続を圧縮するもの) 、VBC(BCの変型)で
ある。) シグナチャのサイズを大きくすればFalse Dropを
小さくすることができるから、圧縮効率をあげることがで
きれば同じサイズのシグナチャでFalse Dropを小さくする
ことができるというわけである。
Abstract: Signature files have attracted a lot of interest as
an access method for text and specifically for
messages in the office environment. Messages are
stored sequentially in the message file, whereas
their hash-coded abstractions (signatures) are
stored sequentially in the signature file. To answer
a query, the signature file is examined first, and
many nonqualifying messages are immediately
rejected. In this paper we examine the problem of
designing signature extraction methods and studying
their performance. We describe two old methods,
generalize another one, and propose a new method and
its variation. We provide exact and approximate
formulas for the dependency between the false drop
probability and the signature size for all the
methods, and we show that the proposed method (VBC)
achieves approximately ten times smaller false drop
probability than the old methods, whereas it is well
suited for collections of documents with variable
document sizes.
Number: 3
Bibtype: Article
Keywords: Document retrieval, information retrieval, office
automation, signature files, superimposed coding,
text retrieval
Author: C. Faloutsos
S. Christodoulakis
Pages: 237-257
Month: jul
Title: Description and performance analysis of signature
file methods for office filing
Comment1: 要するに0の多い画像の圧縮と同じことだと思うが...01列
の効率的圧縮法としてVBCが最適であるとも思えない。(シ
グナチャデータの特性によるだろう。) ちょっと信用でき
ない。
Year: 1987
Volume: 5