Pages

2010-10-24

「日本語入力 T-Code のススメ」〜 Google 日本語入力 TechTalk ライトニングトーク

2010-10-23 (土) に、Google が主催する「Google 日本語入力 TechTalk」に参加した。

そして、飛び入りでライトニング・トークをやってきた。5 分ほどのライトニング・トークだったけど、発表資料と質問の答えをエントリーにしておく。

T-Code って何?

T-Code は、いきなり漢字を直接入力する日本語入力。漢字変換の必要がない。

その入力する様はまるで「ルパン三世のタイトル入力」のように見える。

補足説明

ぼくらは英語入力をする時、26 のアルファベットと 10 の数字、あと少しの記号の位置を記憶して入力を行なっている。つまり、「a」という文字を打つには「a」というキーがどこにあるかを憶えていて、その対応関係を思い出して「入力」を行なっている (タッチタイプするほとんどの人は、もう反射の域に達しているでせう)。

キーの数は 40 ちょっと (26 + 10 + 記号が少し)。余分な記号は削って、ここではキーの数は 40 とする。

さて、ここで発想の転換。キーを 2 打うつ組み合わせは、40 x 40 = 1,600。この 1600 の組み合わせ一つ一つに文字 (漢字) を割り当てて、その組み合わせを全部覚えてしまったらいいんじゃないか? これが T-Code。

実際は、ユーザー用領域や特殊キーがあって、割り当てられている漢字は 1200 程。

ぼくはそのうち、約 800 を憶えているが、自分のブログでチェックすると 95% の文字はこの 800 字だけで入力できている。

では残り 5% はどうするか? T-Code は 2 つの方式を用意している。部首合成変換と交ぜ書き変換の二つ。

合成

例えば、「仏」という文字を入力したいとする。

この場合、「jf」と入力してから「イ」と「ム」を入力する。すると「イ」と「ム」が合成されて「仏」という文字になる。

「jf」の 2 ストロークは、部首合成変換を始めるプレフィックス。読みが分からなくても、似た漢字を知っていたら「合成」で漢字を作れてしまうのが利点。

交ぜ書き変換

一つ有名な文章を入力しませう。

記者が汽車で貴社に帰社した

この入力は次のように行なう。

記者がき車 fj でき社 fj に帰社した

「fj」の 2 ストロークで交ぜ書き入力を行なう。注目すべきは、この時、変換候補が一つも現れないこと。例えば、「き車」という入力に対して結果は「汽車」しかないので変換候補は一つも現れない。

「貴社」と「帰社」の場合は少し複雑。普通に「き社」を変換しようとすると、「記者」や「汽車」は変換候補に現れないけれど「貴社」と「帰社」は変換候補に現れる。ユーザーはたった 2 つの候補の中から、自分が入力したい漢字を選ぶ。ただ、幸いなことにぼくは「帰」という漢字を憶えていた。T-Code には、憶えた漢字を「交ぜ書き変換辞書」から削除する機能がある。そこでぼくは「帰」という漢字を辞書から削除した。そういうわけで、「き社」の入力に対して変換候補は一つだけ「貴社」に絞られる。一つだけなので変換候補ウィンドウは現れなかった。

このように、変換候補の数を減らしていけるのが交ぜ書き変換の良いところ。

質問・その他

T-Code を始めたきっかけは?

1998 年頃か? 当時、ぼくは ATOK を使っていた。その頃の ATOK はこんな変換をした (口語モードにしたのに!!)

○○なんだ世

この語尾を修正するのが、たまらなく苦痛だった。そこで出会ったのが SKK だった。

極めるととともに、小指がつった。

他の入力方式を探した。そして T-Code に出会った。

T-Code を選んだ理由は?

T-Code のやうに直接漢字を入力できる方式は T-Code だけではない。他にも数多くある。例えば、ひらがな入力だけは普通と同じにして、余った部分に漢字を割り当てる方式など。そう。誰でも考える。漢字直接入力方式は敷居が高すぎる。

その中にあって、T-Code は一つ異色だった。

T-Code は東京大学理学部情報科学科山田研究室で開発された。新聞のデータを集め単語の出現確率を求めた。(どうやってか知らないけれど) 2 打鍵入力する際の効率表を得た。その 2 つを組み合わせて T-Code の配列は決まった。

元は (新聞社なんかの) コピーライター向けの研究だったという。記者の手書きの原稿を電子データにする職業ね。海外のコピーライターは、仕事に携わる前に 400 時間の研修時間を持つ。ならば、日本でも同じように研修時間を取るべきである。T-Code はそういうプロのための研究であり、入力手法だった。だから、素人が手を出すなんて想定していなかった。ある意味、ストイックな入力方式だった。

そのストイックさに惚れた。

憶えるのは大変ではないか?

Emacs 用の T-Code パッケージには、EELLL という練習用プログラムが付いてくる。

まず、3 単語「の」と「が」と「、」の入力位置が表示され、練習用文章が表示される。これをクリアすると、次のレッスンに進むかと聞かれる。十分、入力位置を憶えたと思ったら次のレッスンに進む。新しい単語 (と古い単語) による練習用文章が現れる。こうやって、まずはひらがなを覚える。

レッスンを続ければ全ての漢字を憶えることができるけど、一まず「ひらがな」まで憶えれば十分。「ひらがな→カタカナ」変換と「交ぜ書き変換」を使って最低限の入力は出来るやうになる。

後は、少しずつ良く使う漢字の位置を憶えていく。漢字の位置を憶えると、交ぜ書き変換辞書から (手動で) 漢字を削除できるので、交ぜ書き変換の変換候補が少なくなって変換効率が上がる。すると、楽しくなってどんどん漢字を憶えたくなる。

T-Code は速いのか?

十分に訓練された人間が、新聞のコピーライトに使う分には最強だと思う。しかし、そんな人間が一体何人いるかしらん?

もう少し現実的に、一般人がコピーライトする場合。対象が新聞なら最速に近いと思う。ただし、対象が小説だと疑問。元データが「新聞」なので、新聞によく現れる「殺(人事件)」「(東)芝」「渋(谷)」といった文字が比較的打ち易い場所に配置されている。一方、新聞では絶対に現れない一人称「僕」は T-Code のコード表に存在すらしない。交ぜ書き変換で入力するしかない。それでも、単語頻度が大きく変わることはないので、十分速いと思う。

更につっこんで、コピーライトの需要はあるのか? ほとんどの人は自分で考えた文章を入力するのに「日本語入力」を使うでせう。その場合、タイピング・スピードだけなら Google 日本語入力を始めとした「日本語変換系」の方が速い。なんせ、どんな漢字を打つか考えないで良いんだから。だけど、そこから、変換候補を選ぶのに時間がかかる。頭も使う。一方、T-Code は入力時に「どの漢字を使うか」も一緒に考えて入力する。これはノートに文字を書くのと同じ感覚。特に T-Code を使い始めると、「日本語をちゃんと正確に入力したい」という誘惑が強くなる。「遇う」と「遭う」は使い分けたい。「会う」と「逢う」も使い分けたい。といった感じ。ここら辺で時間をロスしているやうに思う。

少し話しを極端にして、Google 日本語入力と T-Code を両方「極めた」としませう。この場合、どちらが文章を書くのが早いか? きっとスピードは同じ。入力速度 (手の早さ) よりも、文章を考える時間 (頭の早さ) の方がボトルネックになる。どんなに速く入力できる人間も、自分が考えるより速く入力は出来ない。

話しを戻して、現実的な話。ブログなんかを書くんなら、T-Code より Google 日本語入力の方が速いかもしれない。ただし代償はある。「変換候補を選ぶ」という作業。これはかなり頭を使う。T-Code を使っている時は交ぜ書き変換を使うにしても「変換候補が少なくて楽だな」と感じたことはなかったのだけど、ATOK に戻ったとたん「変換候補を選ぶ」だけでえらく疲れた。一度、T-Code の「直接入力」に慣れると、変換の煩わしさには堪え難い。

まとめると、(ある程度の域に達したことを前提に) 普通に文章を書くのであれば T-Code も Google 日本語入力も大きな差はない。ただし、T-Code の方が「楽」。

入力スピード・蛇足

入力スピードに興味のある方は、日本語入力だけでなく英語配列においても関心があることと思う。そういう方は、安岡氏の「キーボード配列 QWERTY の謎」がお勧め。詳細はレビュー記事をどうぞ。

開発は止まっているか?

T-Code の開発ページはこちら。

Unicode 化されていない Emacs で動く tc-2.3.1 が公開中。

ただ、ここ一、二年忙しくって体を壊した

当てなきゃいけない色んなパッチがあるし、Unicode 版 Emacs で動くかテストもしなくちゃいけない。課題は山積みだけど、もう少しお待ち下さい。

T-Code のローマ字テーブルファイルはまだかっ

ローマ字テーブルはインポート・エクスポートできるみたいなので、t-codeのローマ字テーブルファイルはまだかっ!!

Twitter より引用

えっと。頑張る。

あとがき

今回、Google 日本語入力 TechTalk に申し込んだ時は、まさか自分が LT をすることになるなんて思ってもみなかった。それが場の勢いに乗せられて、飛び入り参加。実は初 LT。

資料の用意もないし、講演は聞かなくちゃいけないし、でも話す内容はまとめなきゃだし。もう大変。そして、たった四行のプレゼン資料が出来上がった。時間配分も計からずに、LT 本番に突入。でも、何かウケが取れてたようなので良かった。時間ピッタリ (?) だったのは奇跡だね。

懇親会では三人の方から質問を受けることができて感無量。

それから、MacBook 用に DVI-D-sub 変換アダプタを買ったなんてエントリーを書いておきながら、持っていかなかった自分を反省。いや、まさか LT するなんて自分ですら知らなかったから。。。ええ、人生何が起きるか分からないので、まさかの準備はしておくべきですね。変換アダプターを貸して下さった方、直接お礼を言う機会がありませんでしたが、ありがとうございます。

1 comment:

  1. Looking for affordable outdoor furniture? rattan garden furniture
    Check out our selection at the Cheap Furniture Store! Find the perfect garden furniture set to enhance your outdoor space without breaking the bank. Shop now!

    ReplyDelete