ホームページ目次前の話次の話

やっと逃げた日本語情報処理の世界に逆戻り

2004年5月14日

最近は、なぜかやたらに忙しい。気持ちの問題だけかも知れないのだが、 やらなければならないことが複数の分野があって、 自分自身がマルチで動かなければならなくて困っている。 もうすこし、マルチタスクについてちゃんと勉強しておけば良かったかと反省している。 なんたって、コンピュータに比較してタスク切り換えの負担が重い。 うまい切り換え方法はないものかと思っている。 今だったら、マルチスレッドかなぁ。

ところで、最近何故か日本語情報処理関係のことをやる羽目になってしまった。 とにかく文字の相手をするのは大変で、せっかく逃げた世界なのだが、また 捕まってしまったような気がする。

コンピュータに詳しくない人間でも、なぜかコンピュータが扱う文字について はうるさい。ちょっとでも文字が違っていると、ムキになって直せと言う者が 多い。昔は、コンピュータでカタカナが表示されるようになった頃にはコン ピュータの文字に関心を示さなかった者も、 漢字が表示されるようになったらころっと態度が変り、 注文がとてもうるさくなってしまった。

やむなくWebで情報を検索しているとき、自分が公開している情報が引っ掛かっ てしまうことがあり、「何てこった」と思うことがしばしばの毎日である。

大昔、何かの間違いで、補助漢字関係の仕事をやってしまった。 今では、もう忘れ去られたJIS規格と言ってもそれほど間違いではないだろうが、 なんたって最近やっと使えるようになってきたユニコードに補助漢字が取り込まれていて、 その関係で文字コード変換を行うと、色々面倒な状況に遭遇してしまう。

ユニコードに関しては、 http://www.unicode.org/を見れば 正規の情報がたくさん転がっているのだが、どう考えても誤りではないかと 思われる情報がある。CJK(中国、日本、韓国)の文字を一緒にしてユニコード は扱ってくれるのだが、なかなか様々な問題が発生し、 毎日書いても書ききれないほどの面倒なことがある。 規格がどう考えても不完全なので、ユニコード対応ソフトは、それぞれに別々 の工夫がされていて、支離滅裂なところもある。

unicode.org であるが、CJKを取り込んでいながら、 英語の情報しか無いのは困ったものだ。 私が読まないといけなくなったのだから、日本語版も是非用意して欲しいのだが、 どうも可能性は無さそうだ。

こっちは、文字に関しては研究者の立場ではなく、あくまでちゃんと使える、 変換できるシステムを作ろうとしているだけなので、 問題点があるというだけでは何も作業が進まなくて、 とにかく現時点で妥当な結論を出さないとならないという難しい問題がある。 とにかく文字は難しい。もう、漢字を使うのに、かな漢字変換に頼りっぱなし である。龍が4匹も集まって1つになった漢字もあるそうだが、とりあえず 今回はそこまではやらない予定だ。

さらに、この日本語を含めた漢字、さらには多数の記号類の話を、日本人では なくて、日本語を話せない欧米人にしなくてはならないという、気が遠くなる ような作業に追われている。

文字の細かい話以前に、半角、全角という概念が西欧にはない。プログラムで 文字処理を行うとき、バイト数と文字数という概念は伝わるのだが、半角を単 位としたカラム数というのがさっぱり分からないようだ。国語の宿題で、原稿 用紙に何枚書いてくるこというのが繰り返され、書くのが嫌で夢にまで原稿用 紙がでてきて脅迫するような日本で育てば、全角半角を理解するのは簡単なこ となのだが、西欧ではそういうことはないらしく、そのため、全角半角を理解 するのは難しいらしい。

もちろん、以上の話は、全部英語でやらなくっちゃいけないのだ。日本語がさっ ぱり分からない欧米人に、日本人でさえほとんど理解できない文字コードの話 を英語でするという到底無理と思えるプロジェクトなのだ。

もう少し英語ができればと思う。友人に、ユニコードに取り込まれている文 字を使う言語のほとんど、もしかしたら全部を使いこなせる人が1名いるのだが、 でもコンピュータには詳しくないのである。 英語と日本語ができる人間に、文字コードを教え込もうとしているのだが、 これもなかなか時間がかかりそうだ。

世の中、なかなかうまくはいかないものらしい。うまくいくようだったら、 unicodeの規格自体、もっとちゃんとしたものになっていたに違いない。 もう、愚痴になってきそうだから、やめよう。


ホームページ目次前の話次の話