『Cプログラミング診断室』目次次(第14章 メモリが足りない プログラムの紹介)

第14章 メモリが足りない

日本語


引き続き「日本語」についての文句です。しつこいと言われようと、日本では一番重要な問題な のです。

私は、これまでの原稿を、UNIX上で、エディタはNEmacsを使い、かな漢字変換はWnn(うんぬ) を使用して書き上げました。最近は色々な「かな漢字変換」を動かせる環境になったので、それぞ れの能力を較べながら使っています。でも、今まで使っていたものは、どれも上手には変換してく れませんでした。

もうWnnを使い始めて5年位になるでしょうか。当時は、UNIXでは英語しか使えないのが常識でし たから、存在しただけで満足でしたが、パソコンやワープロでのかな漢字変換が向上するのを横目 で見ていて、Wnnが全然向上しないのが残念でなりませんでした。

文句を言うのは簡単です。でも、日常UNIXで仕事をしている者にとっては、日本語処理が実際に 賢くなることが悲願でした。無償のソフトを批判しても始まりませんが、やはり、それなりの金を 取ってでも、きちんとメンテナンスをし、気持ち良く使える状態にしてこそ、ソフトウェアとして 評価されるのです。

それで、ちょっとせこいが、所有していたパソコン上の変換辞書を使ってWnn辞書を拡張してテ ストしたことがあります。これにより、Wnnはいきなり賢くなりました。満足できるようなレベル ではないが、オリジナルに比べたら雲泥の差になりました。たった3日程度のいい加減な作業でし たが、その作業を通じて、Wnnは辞書を賢くすれば十分実用になると思わせるものがありました。

今、この原稿を書くのに使っているWnnの辞書はまったく新しい版(岩波版Wnn辞書)です。これ には、岩波国語辞典の大部分の語が入っていて、登録単語数に関しては相当充実しています。基本 辞書10万語になって、やっと家庭用の安い専用ワープロを越えたようです。少なくとも私の周りで は、賢いWnnに切り替わりつつあります。

日本語に関してはまだまだ問題は山積しています。最近、第1水準、第2水準だけでは漢字が足 りないということで、補助漢字として5801字の漢字が制定されました。コンピュータの性能が向上 したので、漢字を増やせるようにはなったのですが、漢字辞典の説明でもかなり混乱があるようです。 簡単な例としては、

	粐      区点 68-68       JIS 6464
という漢字があります。これは、5万字もの漢字を採字している大修館の大漢和辞典にも載って いない字です。よくあるパソコンワープロ用の漢字辞典をみると、読みがたいてい空白になってい ます。普通の漢和辞典ではこの字は出ていませんが、大修館の大漢語林では、「音義未詳」で、 JISコードだけが示されています。発音もできなければ、意味も分からない漢字というふうに説明 されています。第1水準にはそういう漢字はないようですが、第2水準の2%位の漢字にはそのよう な指摘もあります。

なお、秋田市に粐薪沢(ぬかまきざわ)という地名があり、JIS第2水準では地名をできるだけ 網羅することも目的だったので、採録されたようです。それにしても、もっと混乱を避けられるよ うな配慮はできなかったものでしょうか。

その他にも、画面上で見たりプリンタで出力した漢字(コンピュータ上の漢字)と、きちんとし た印刷物になった漢字とが異なることがよくあります。印刷の文字はJIS規格ではありませんから、 違うことがあるのは分かるのですが、でも大変困っちゃうんですよね。

C言語で日本語文字列を扱うときはちょっと注意が必要ですが、その他にもいっぱい問題がある ことを知っていてください。日本語の問題はちゃんと日本語の分かる人たちで解決しなければ、誰 も解決してくれません。


Copyright1996 Hirofumi Fujiwara. No reproduction or republication without written permission
『Cプログラミング診断室』目次次(第14章 メモリが足りない プログラムの紹介)