引き続き「日本語」についての文句です。しつこいと言われようと、日本では一番重要な問題な のです。
私は、これまでの原稿を、UNIX上で、エディタはNEmacsを使い、かな漢字変換はWnn(うんぬ) を使用して書き上げました。最近は色々な「かな漢字変換」を動かせる環境になったので、それぞ れの能力を較べながら使っています。でも、今まで使っていたものは、どれも上手には変換してく れませんでした。
もうWnnを使い始めて5年位になるでしょうか。当時は、UNIXでは英語しか使えないのが常識でし たから、存在しただけで満足でしたが、パソコンやワープロでのかな漢字変換が向上するのを横目 で見ていて、Wnnが全然向上しないのが残念でなりませんでした。
文句を言うのは簡単です。でも、日常UNIXで仕事をしている者にとっては、日本語処理が実際に 賢くなることが悲願でした。無償のソフトを批判しても始まりませんが、やはり、それなりの金を 取ってでも、きちんとメンテナンスをし、気持ち良く使える状態にしてこそ、ソフトウェアとして 評価されるのです。
それで、ちょっとせこいが、所有していたパソコン上の変換辞書を使ってWnn辞書を拡張してテ ストしたことがあります。これにより、Wnnはいきなり賢くなりました。満足できるようなレベル ではないが、オリジナルに比べたら雲泥の差になりました。たった3日程度のいい加減な作業でし たが、その作業を通じて、Wnnは辞書を賢くすれば十分実用になると思わせるものがありました。
今、この原稿を書くのに使っているWnnの辞書はまったく新しい版(岩波版Wnn辞書)です。これ には、岩波国語辞典の大部分の語が入っていて、登録単語数に関しては相当充実しています。基本 辞書10万語になって、やっと家庭用の安い専用ワープロを越えたようです。少なくとも私の周りで は、賢いWnnに切り替わりつつあります。
日本語に関してはまだまだ問題は山積しています。最近、第1水準、第2水準だけでは漢字が足 りないということで、補助漢字として5801字の漢字が制定されました。コンピュータの性能が向上 したので、漢字を増やせるようにはなったのですが、漢字辞典の説明でもかなり混乱があるようです。 簡単な例としては、
粐 区点 68-68 JIS 6464という漢字があります。これは、5万字もの漢字を採字している大修館の大漢和辞典にも載って いない字です。よくあるパソコンワープロ用の漢字辞典をみると、読みがたいてい空白になってい ます。普通の漢和辞典ではこの字は出ていませんが、大修館の大漢語林では、「音義未詳」で、 JISコードだけが示されています。発音もできなければ、意味も分からない漢字というふうに説明 されています。第1水準にはそういう漢字はないようですが、第2水準の2%位の漢字にはそのよう な指摘もあります。
なお、秋田市に粐薪沢(ぬかまきざわ)という地名があり、JIS第2水準では地名をできるだけ 網羅することも目的だったので、採録されたようです。それにしても、もっと混乱を避けられるよ うな配慮はできなかったものでしょうか。
その他にも、画面上で見たりプリンタで出力した漢字(コンピュータ上の漢字)と、きちんとし た印刷物になった漢字とが異なることがよくあります。印刷の文字はJIS規格ではありませんから、 違うことがあるのは分かるのですが、でも大変困っちゃうんですよね。
C言語で日本語文字列を扱うときはちょっと注意が必要ですが、その他にもいっぱい問題がある ことを知っていてください。日本語の問題はちゃんと日本語の分かる人たちで解決しなければ、誰 も解決してくれません。