- 著者
- James L. Peterson
- 編者
- G. Goos, J. Hartmanis
- タイトル
- Computer Programs for Spelling Correction
- 書籍
- Proceedings of the 10th ACM Symposium on the Theory
of Computing
- ページ
- 59-65
- コメント
- スペルチェッカの概説(TYPO,DEC20のSPELL)及び自分で作っ
たチェッカの解説。プログラムリストが附属している。
\begin{itemize}
\item{スペルチェッカの歴史} \\
初期のもの(TYPOなど)は2語または2語の組合せの起こる確立によって
スペルエラーをチェックしていたが、その後は実際の辞書を参照する方式が
主流となっている。
\item{辞書構成方法} \\
数千語程度の辞書が適当なので辞書の大きさは100KBぐらいとなる。
もっとも頻繁に出現するものを静的なメモリ上においておき、
個人や文書に依存する特殊なものを動的なメモリ上に置き、
頻繁にあらわれないものをディスク上に置いておくという3段方式がよい。
DEC SPELLでは最初の2文字及び文字長による
6000エントリのハッシュ表を作っている。
\item{誤りの訂正方法} \\
1文字欠けているもの、余分にはいっているもの、転置しているものに
ついてそれぞれ調べる。間違っている語は普通少ないので、訂正に多少時間が
かかっても大きな問題ではない。
\item{バッチ方式とインタラクティブ方式} \\
バッチ式の場合辞書をソートしておけばスキャンが一度だけですむという
特徴があるが、使いやすさを考えるとインタラクティブ方式が望ましい 。
\item{サフィックスの扱い} \\
辞書を小さくするため、サフィックスの可否という属性を辞書に
書いているものがある。属性は20種類ぐらい必要である。
\end{itemize}
- カテゴリ
- String
Category: String
Comment: スペルチェッカの概説(TYPO,DEC20のSPELL)及び自分で作っ
たチェッカの解説。プログラムリストが附属している。
\begin{itemize}
\item{スペルチェッカの歴史} \\
初期のもの(TYPOなど)は2語または2語の組合せの起こる確立によって
スペルエラーをチェックしていたが、その後は実際の辞書を参照する方式が
主流となっている。
\item{辞書構成方法} \\
数千語程度の辞書が適当なので辞書の大きさは100KBぐらいとなる。
もっとも頻繁に出現するものを静的なメモリ上においておき、
個人や文書に依存する特殊なものを動的なメモリ上に置き、
頻繁にあらわれないものをディスク上に置いておくという3段方式がよい。
DEC SPELLでは最初の2文字及び文字長による
6000エントリのハッシュ表を作っている。
\item{誤りの訂正方法} \\
1文字欠けているもの、余分にはいっているもの、転置しているものに
ついてそれぞれ調べる。間違っている語は普通少ないので、訂正に多少時間が
かかっても大きな問題ではない。
\item{バッチ方式とインタラクティブ方式} \\
バッチ式の場合辞書をソートしておけばスキャンが一度だけですむという
特徴があるが、使いやすさを考えるとインタラクティブ方式が望ましい 。
\item{サフィックスの扱い} \\
辞書を小さくするため、サフィックスの可否という属性を辞書に
書いているものがある。属性は20種類ぐらい必要である。
\end{itemize}
Author: James L. Peterson
Pages: 59-65
Booktitle: Proceedings of the 10th ACM Symposium on the Theory
of Computing
Month: oct
Title: Computer Programs for Spelling Correction
Editor: G. Goos
J. Hartmanis
Note: Bibファイルが壊れたので、もしかすれば以下のもの
(Carter:membership)と間違えているかもしれない。
Bibtype: Article
Series: Lecture Notes in Computer Science
Publisher: Springer-Verlag