2007-01-14

コンピューター業界の「辞書順」に疑問

odz buffer さんの所でこんなエントリーがあった。

Computer Science の人間に「辞書順」が通じないと軽くショックですね。

odz buffer - 辞書順 より引用

なるほど、確かに... と流しかけて、ちょっと待てよと思った。

英語の場合なら、単語を辞書順に並べるというのは直観点で分かり易い。英々辞典 (例えば OED) に収録されている通りに単語を並び換えればいい。英語では、辞書順はアルファベット順とも言い換えられるし、大文字小文字を無視した ASCII 順と言っても的外れじゃあない。

でも日本語の場合、どうだらう。

日本語で辞書と言えば、国語辞書、漢和辞書、和英辞書、類語辞書が思いつく。

辞書によって単語の収録順が大きく異なる類語辞書や、見出し語をローマ字並びで並べていた旧い和英辞書は、コンピューター科学の人間が想定している「辞書」ではない。

やはり、国語辞書の並びを「辞書順」と呼んでいるのか。では、日本で有名な広辞苑を引いてみやう。

広辞苑では、見出し語が読みの順番で並んでいる。注意したいのは、アルファベットの見出し。例えば、「ABC」という見出しは、英語の「A」の項ではなく日本語の「え」の項目にある。つまり、英単語の読みを日本語の並びに組み込むのが国語辞書の並べ方。広辞苑以外の国語辞書も、同じ方式を採用している。

けれど、コンピューター業界でそのやうに単語を並べているのを見たことがない。

手近なマニュアルの索引を開いてみる (索引はコンピューターの文字並び換えの良い例だよね)。すると、まず英単語がアルファベット順に、次に日本語が五十音順に並んでいる。五十音が先でアルファベットが後な索引もあるかもしれない。何れにせよ、国語辞書の並びではない。

漢字の並びについて

蛇足ながら、漢字の並びについても一言。漢字で始まる見出し語を国語辞書のように並べるには、漢字の読みを考慮しないといけない (そのためにはフリガナが付いてる必要がある)。でも実際は、「辞書順」ではなく文字コード順に並べている場合が多いように思う。

※漢字の辞書といえば国語辞書より漢和辞書だと思うけど、漢字・漢単語を辞書順に並べる時に、漢和辞書の並びで見出し語を並べる人っているのかしらん :P

あとがき

日本語なら「辞書順」というより、「アルファベット順の後に五十音順」という方がよいのかなぁ。でも長ったらしいし... 「索引順」? でも、人によって思い浮かべる「索引」が違いそうで怖いなぁ。それから、中国や韓国での「辞書順」ってどうなってるんだらう。

コンピューター科学で何気なく使う「辞書順」という用語。これはアルファベットだけでしか通用しないのかもしれない。

16 comments:

  1. 私は混乱を防ぐためにその手のやつは「辞書に載ってる順番」と呼んでます。業界的にはこれを「辞書順」と呼んでもだいたい通じてしまうんですが、本来はコンピュータ・サイエンスでは辞書順っていうときはLexicographic Orderの訳語なんじゃないかと。これには明確な定義があります。例えばこれとか。
    教科書なんかだと最初に定義も書いてあるので混乱も起きにくいんですが、会話の途中で出てきたときは環境(背景とか文脈とか)によるでしょうね。
    元記事の人は短かいので判断しにくいけどなんとなく本来の意味での辞書順が通じなくて困ってる気配ではないかと想像します。

    ReplyDelete
  2. ogijun さん、コメントありがとうございます。

    私はコンピューター科学を勉強したことがないので、Lexicographic Order という用語を知りませんでした。Lexicographic は「辞書編集上の」という意味なのですね (via 英辞郎)。リンク先も参考になりました。ありがとうございます。

    リンク先には、Lexicographic order が dictionary order と呼ばれることもあると書いてありますね。でも、これはアルファベットだけだから Lexicographic order = dictionary order になるように思いました。例えば「笑顔、ええ、ABC、Edelweiss」をコンピューター業界の人に「辞書順」に並べてもらうと「ABC→Edelweiss→ええ→笑顔」という順に並べると思います。でも、国語辞書では「ええ→Edelweiss→ABC→笑顔」という順で並びます。

    国語辞書と違う並びなのに「辞書順」とは、これいかに! ああ、なんか気持ち悪いです。「dictionary order」をそのまま「辞書順」と訳した人が恨めしい :P

    元記事は --- ogijun さんのおっしゃる通り --- エントリーが短いので、odz buffer さんがどういうシチュエーションで困っているのか、私は判断がつきません。今回のエントリーを書くきっかけになったので紹介する、という気持ちで引用しました。

    ReplyDelete
  3. コンピュータではふりがなのない住所録が「読み順」ではなく「コード番号順」になっているので探しにくくて困ります。しかし日本語の場合人名漢字をどう読むかなんて、ふりがながないとどうにもなりませんね。

    そうそう、電話帳もややこしいルールがあって、アルファベット、ひらがな、カタカナ、漢字の順なのですが、すべてふりがな順です。だからアルファベットのR(あーる)が「あ」の項の先頭になります。カタカナでも「アー」が「アア」よりも前にくるとか、なかなかややこしいのですが、電話という音だけのコミュニケーションツールを保管するための電話帳としては、すべて音だけに直した読み順というのはある意味合理的ですね。

    元記事ではここで論じている一般的な辞書順のことではなく、業界用語としての常識が通じなくてショックだった、という話ではないのでしょうか。

    ReplyDelete
  4. > ふりがなのない住所録が...

    ふりがな無しの住所録とは! 考えるだに恐しいです。人名については、本当、振り仮名がないとどうしようもないですね。「あずま (東)」さんと「ひがし (東)」さんとかね。

    そういえば、Gmail の Contacts がコード順に並ぶのも困りものです。あれ、振り仮名が付けられないものかしらん。

    > 電話帳もややこしいルールがあって...

    電話帳の語順なんて、思いも寄りませんでした。なるほど。言われてみると確かに合理的ですね。

    > 元記事では...業界用語としての常識が通じなくて...

    そんな臭いはしますね。

    ReplyDelete
  5. 辞書順てちょっと難しいのかも。10歳の息子は、紙の辞書がうまくひけなくて、電子辞書が欲しいとよくわめいています。

    ところで、私は住所録に Mac OS X 標準の アドレスブックというのを使っています(住所はあんまり書いてなくてもっぱら電話帳としてしか使ってませんけど)。姓のところにローマ字表記を入れて、名前のところに漢字・かな表記の名前を入れています。検索は便利になりますが、ちょっと不便なこともあります。

    話題がそれましたね。すいません。

    ReplyDelete
  6. rok さん、こんにちは。

    > 辞書順てちょっと難しいのかも...

    今でも私は「た」「な」「は」「ま」行の順番がごっちゃになって、「あかさたな...」と呟いてます。rok さんの息子さんも、私と同じかしらん。
    電子辞書は便利ですよね。私も欲しいです ^^;

    > 私は住所録に Mac OS X 標準の アドレスブック...

    ほほう。住所録が OS に標準で付いてくるのはいいですね。

    住所録ソフトとして、私が一番気に入っているのは (Windows 用の) 年賀状ソフトに付属している住所録です。複数の住所、メアド、電話番号に対応してて、名前にふりがなが付けられて、とても気に入っています。問題は、年賀状の印刷以外に使えないことでしょうか ^^; あの住所録がメーラーや携帯電話と連携して、ウェブサービスみたいにどこからでもアクセスできるようになれば嬉しいのですが、まだそんなサービスはないですね。

    ReplyDelete
  7. フジキセキ1/14/2007 05:45:00 PM

    今回の内容を読んでみてつくづくアルファベットの使い勝手の良さを痛感しました。
    やはり26文字を入れ替えるだけというのは
    コンピューターに向いているのでしょう。

    漢字は読めない固有名詞なんていくらでもあるし、フリ仮名なしでは対処しようがないものはいくらでもあります。
    「竃」は読めないし、正確に書けませんでしたのでタブレット方式の辞書を借りて
    調べました。

    ReplyDelete
  8. > ほほう。住所録が OS に標準で付いてくるのはいいですね。

    Windows でもメールクライアントにメールアドレスだけでなく住所や電話番号まで管理できるアドレス帳がついてきますよね。 Mac OSX の場合はそれが独立したアプリケーションになっていて、標準のメールクライアントや iChat (Oscar / Jabber クライアント)と連動する仕組みです。

    そして、 iSync によって iPod や PDA / 携帯電話のアドレス帳と同期させることもできます。

    さらに魅力的なのは、一部の年賀状ソフトは標準のアドレスブックと住所録を同期してくれるということです。

    ただ残念なのは、このアドレスブックにはふりがなを入力することはできてもふりがなをキーにソートできないということです。その分強力な検索機能があるから並び順なんかどうでも何とかなるんですけどね

    ReplyDelete
  9. わぁっ!
    盛り上がってますね。

    入り込む余地が無いので退散します(笑)。
    PS:
    「業界の常識」、恐いですね。
    「常識」の相違が引き起こすトラブル、前の業界では随分多かったです。
     何度かエライ目に遭って、漸く学習しました。X-)

    ReplyDelete
  10. > フジキセキさん

    アルファベットとコンピューターの相性の良さは、ちょっと嫉妬してしまいますね。

    > 「竃」は読めないし...

    おお、「かまど」ですか。難しい漢字ですねぇ。

    > Hit さん

    Windows にもアドレス帳が付いているとは知りませんでした。

    それにしても Mac のアドレス帳は高機能ですね。ふりがなソートが出来ないとのことですが、それが rok さんの言う「ちょっと不便なこと」なのかしらん。

    > ちゃめさん

    こんにちは。とっても盛り上がってます。私も、まさかこんなに盛り上がるとは思ってもいませんでした。

    > 「業界の常識」、恐いですね。

    ですです。私も分野・業界の違いで話が通じないことがあって、言葉には敏感になりました。

    ReplyDelete
  11. JIS X 4061:1996(日本語文字列照合順番)というJIS規格があります。
    参考まで。

    ReplyDelete
  12. > それにしても Mac のアドレス帳は高機能ですね。
    > ふりがなソートが出来ないとのことですが、それが
    > rok さんの言う「ちょっと不便なこと」なのかしらん。

    姓にローマ字表記を入れるというのは、昔の公式に日本語化される前の Palm(というか Pilot) の住所録を、無理矢理使うために身につけた、言ってみればバッドノウハウです。アドレスブック内で閉じていれば問題は少ないのですが、Hit さんのおっしゃる

    > そして、 iSync によって iPod や PDA / 携帯電話の
    > アドレス帳と同期させることもできます。

    > さらに魅力的なのは、一部の年賀状ソフトは標準の
    > アドレスブックと住所録を同期してくれるということです。

    のような機能を使おうと思うと、当然同期相手は姓・名を普通に使おうとするので面倒なことになるのです。例えば宛先が「Yamada 山田太郎 様」になったりしちゃうとか。

    ReplyDelete
  13. > demo-n さん

    情報ありがとうございます。
    JIS X 4061:1996 は 46 ページで 1,700 円ですか。う〜ん、高い :P

    > rok さん

    なるほど、なるほど。よ〜く分かりました。

    ところでローマ字表記の名字ですが、私も Gmail の Contacts にローマ字の名前を付けています。私がそうする理由は、Contacts で人を探す時に日本語入力を ON にしないで済むからです。でもローマ字表記を予め入力しておかずとも、読みのひらがなとローマ字はほぼ一対一対応するはずなので、できれば人名の読みを自動的にローマ字検索もできるようになって欲しいなぁ、と夢想しています。

    ReplyDelete
  14. Because I use translation tools, it is a little bit hard to understand your posting. But, I like your blog. Thank you.

    ReplyDelete
  15. This comment has been removed by the author.

    ReplyDelete