著者
Yasushi Ogawa, Toru Matsuda
タイトル
Overlapping statistical word indexing: a new indexing method for Japanese text
書籍
Preceeding of the 20th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval
ページ
226-234
日時
July 1997
コメント
日本語文書のインデクシングを行なうとき、 連結2文字の接続頻度だけを考慮して単語を抽出すると うまくいかないが、 低い閾値で単語抽出して文書をブツ切りにした後で それらを連結するようにすればうまくいく、といった話。 たとえば「大使公邸」を前者でインデクシングすると 「大使/公/邸」になってしまうが、後者だと 「大使公邸」「大使」「公」「邸」という風に もっともらしいインデクスができる、らしい。
概要
それほど効果があるようには思えないのだが... だいいちあんまり面白くないような。(1998/2/24 増井)
カテゴリ
IR
Category: IR
Comment: 日本語文書のインデクシングを行なうとき、
        連結2文字の接続頻度だけを考慮して単語を抽出すると
        うまくいかないが、
        低い閾値で単語抽出して文書をブツ切りにした後で
        それらを連結するようにすればうまくいく、といった話。
        たとえば「大使公邸」を前者でインデクシングすると
        「大使/公/邸」になってしまうが、後者だと
        「大使公邸」「大使」「公」「邸」という風に
        もっともらしいインデクスができる、らしい。
Bibtype: InProceedings
Month: jul
Pages: 226-234
Author: Yasushi Ogawa
        Toru Matsuda
Booktitle: Preceeding of the 20th Annual International ACM SIGIR
        Conference on Research and Development in
        Information Retrieval
Title: Overlapping statistical word indexing:
        a new indexing method for Japanese text 
Comment1: それほど効果があるようには思えないのだが...
        だいいちあんまり面白くないような。(1998/2/24 増井)
Year: 1997
Date: 2003/08/01 04:59:50