リンク

  • 創作物語の館@ココログ出張所
    別途お話を書いています。携帯端末で気軽に読めそうな短いのと、携帯端末でどうにか読めそうなデータ量に小刻みに切り分けた長いのと。 メインはファンタジー、冒険、命を守る。先端科学、魔法、超能力、妖精さん、てんこ盛り、暇つぶしにでも覗いてやって。50作少々あるので。
  • 竹谷内医院カイロプラクティックセンター
    ヘルニアや座骨神経痛と闘うあなたに。ここが私の安心サポート。 (カイロプラクティックまとめ記事はこちら
  • 朋和カイロホームページ
    名古屋におけるオレのケツ腰の守護神。JAC認定カイロプラクティック。さあアナタもLet’sバキボキ
  • ポケモンGOの記録@Sunop2000
    日々のポケ活記録(但し毎日更新するとは限らない)

ついったー

  • ついったー(暫定運用)

天気予報です

  • ウェザーニュース

めーるぼっくす

無料ブログはココログ

« 怪しい… | トップページ | 娘の趣味 »

2009年7月31日 (金)

亡者の冒涜

MS-IME
この文字列が「無かったことになって欲しい」というお話。

会社パソにATOKを突っ込んだと前に書いた。しかしIT担当ギャルから「消してくれ」(アンインストール)と言われた。
「ATOKというソフトがあるとは知らなかった」
MS-IMEには「キー機能の割り付けをATOKにする」というメニューがある。「ATOKを突っ込みたい」というオレの申し出を、彼女はこのキー設定のことだと受け取ったというのだ。

彼女はIT専門の派遣さんであり、当然それなりのスキルを買われて採用されたはずである。それがATOKを知らぬたぁ正直唖然としたが、逆に言うと「仮名漢字変換」はOSの機能の一つ、という認識が浸透しているわけだ。

「でも何で?ちゃんとCD板買って入れたから法には触れないよ」
「個人ライセンス品はちょっと……」
じゃぁ会社で買ってくれるのか?稟議に掛けたらこう返ってきた。

「なんで必要?」
無論誤変換が多いからである。出してくる間違った候補、そもそも候補にすら出てこないという事実が腹立たしいのである。必要なら同一テキストで入力比較を行い、時間差から優位性をアピールできる。
しかし
「他に使っている人はいるのか?」
使用率0.5%(母数:3000)

仮名漢字変換何が良いかは経験が答えを出す。MSしか知らない人には「それ以外」の良さは理解できないのだ。従って説得するには時間を要する。するとその時間が無駄だという議論が出てきてデッドロック。マイナーユーザの苦悩である。
しかし、この問題はそんな程度のケイケイな(出ねーよ軽々)話ではない。

誰でも判る例を一つ挙げる。ぐーぐるでもやふーでも良い。「IME 変換精度」で検索してみると良い。こんな結果が表示される。

Aho

ご案内のご案内って何だ?

このページのHTMLソースを覗くとこう書いてある。
<meta name="description" content="ここでは、IME 2007 変換精度、学習機能を改善した修正プログラムのご案内のご案内しています。">

これは「めたたぐ」と呼ばれる。検索結果と共に表示される「キャッチコピー」である。物語のあらすじであり、本のハカマの売り口上である。
何書くかは自分で考える。パッと見て判るように簡潔に考えるのが普通である。そして、どういう結果を経たか知らないが、この会社は自社の公式サイトの文言をこのように決めたわけだ。これで稟議が通ったわけである。

ここに同社の日本語への姿勢が現れているとオレは思うが如何か。

MS-IME まいくろそふと・いんぷっと・めそっど・えでぃた

端的には仮名漢字変換システムであるが、他の非アルファベット文字への変換にも、同様のシステムが使われている。
しかし、これは仮名漢字変換システムであるが、日本語を書く道具ではない。

説明する。我々が日本語の文章を書く場合、まず文を考え、その中で漢字に出来るところを漢字にする。従って、まず文章を理解し、適切な漢字を選ぶというプロセスが要求される。

ところが、このシステムの開発者であるらしいブログを覗くとこう書いてある。

たとえば、太陽、犬、太郎など世の中に存在するものは名前を持っています。それらの単語を名詞と言います。言う、書く、聞く、などは、動作を表わします。これらの単語を動詞と言います。名詞、動詞などを、品詞と呼びます。品詞とは単語のグループです。従来の IME は、品詞と品詞がとれだけつながりやすいか、という情報を基本にしています。

もう少し専門的に説明します。つながりやすさをコストと考えて、つながりやすいほどコストが小さいとみなします。品詞のつながりやすさを品詞接続コストと呼びます。また、それぞれの単語がどれだけよく使われるかという情報を使います。ある単語が使われやすいほど、コストが小さいとみなします。単語の使われやすさを、単語コストと呼びます。従来の Microsoft IME は、品詞接続コストと単語コストとを合計して、コストが最小になるような変換結果を第 1 候補とします。

ところで、サンプルとして集めた例文集を、コーパスと言います。品詞接続コストや単語コストは、コーパスの中に現れた統計に基づいて、人手で調整したものです。ほかにも複雑な手法を用いていますが省略します。

さて、Office IME 2007 は、基本的な仕組みが異なります。品詞ではなく、単語自体のつながりやすさの情報を基本に使います。

ある単語の後に別の単語が来ます。先立つ単語にたいしてどれだけある単語が続くかという確率を、Bigram と呼びます。ある単語のあとに別の単語が来て、そのあとにまた別の単語が来ます。先立つ2つの単語に対してどれだけある単語が続くかという確率を、Trigram と呼びます。
http://blogs.technet.com/ime/archive/2009/02/25/IME_6E300959DB63B9650F5F6E30397DCB4E_.aspx

回りくどいが(なまじ日本語を操るなら簡潔に書きやがれ)、要するに変換候補を単に確率で選んでいるということだ。ある語の後ろに繋がる可能性を持つ言葉を並べ立てて「これ?」と訊いてくるのである。

言うまでもあるまい。日本語を生み出すプロセスとまるで逆だ。
しかもだ。まぁその推論法を認めるとしよう。すると前提として、つながりを考える元となる単語は、正しい漢字に変換されなくてはならない。

ところが根本的に言葉を知らない。更に引用。

先にご紹介しましたカスタマー・フィードバック機構で、ユーザーが実際にどういうことに困っているのか、また実際に使用されている日本語はどんなものか、がわかります。

以下、IME 2003のデータから見えたことから、具体的な例を挙げてご説明します。

ユーザーニーズの実際
l ユーザーの痛み: ユーザ登録単語には、専門用語、とりわけ入力の難しい用語が多いことがわかりました。ユーザ登録単語は、標準辞書に収録されていない語彙で、各ユーザにとって必要な語彙が集まります。広範囲の語彙にバラけるであろうという予測どおりでした。上位を観察すると、入力の難しい語彙が多く見られます。ユーザー・フィードバック・データが、実際にユーザの痛みを優先度付きで示しているといえます。
http://blogs.technet.com/ime/archive/2009/01/06/_AB30B930BF30DE30FC30FB30D530A330FC30C930D030C330AF304B3089308F304B3063305F3053306830_.aspx

ウソ付け。ご自慢のそれで「いくせいそう」って変換してみろ。

行く清掃

……絶対に「いく」「せいそう」で分割されてしまい。「幾星霜」にならない。6文字一括で変換すると「イクセイソウ」つまり元々この語を知らないのである。そうかと思うと無茶苦茶に漢字を組み合わせ、あり得ない新語・珍語を出してくる。

日本語を各道具ではないと師田賀

師田賀って何だよ。人名?地名?ググレカス。
ふざけるな場かやろう←こう変換した(笑)

根本的に日本語作成と異なるプロセスを辿るクセに、根本的に言葉を知らない。
スタートから間違っているのに、まともな変換・文章作成ができるわけがない。

で、「ご案内のご案内」につながるのだ。本当に日本語と正面から取り組む気があるならば、まず自分が正しい日本語を使うべきであろう。そしてこの開発者ブログである。メル欄に当記事へのリンクを引いた上で、謹んで申し上げる。

確率で全て捌けるほど日本語は単純な言語じゃねぇ。日本語バカにするな。
そう考えているとするなら、お前らは単純バカか傲慢のどちらかだ。小学校一年からやり直せ。
日本語として不自然な位置で勝手に区切られ、日本語としてありもしない言葉、意味の通じない文を平気で出されるおぞましさが判るか。
真剣な文章でバカな変換結果を出される、おちょくられたような屈辱感が理解できるか。
大体そんな物、自分たちでちょっと使えば出てくるはずの話だ。何で気付かない。
使わないから、日本語を書かないから、言葉を知らないからじゃないのか。
そんな程度で仮名漢字変換の「開発」が聞いて呆れる。「ユーザーフィードバックでパッチを当てました」ふざけるな。お前たちにとって人間の原則である「ことば」のプライオリティはその程度か。
その程度なんだろうな。
「あなたのコンピュータの安全をより確実なものにしています」
こんな気持ちの悪い「日本語もどき」で対価取って平気な会社だもんな。
しかし、お前たちの認識はどうあれ、日本語として間違っているものを公式で平然と使うのは、ユーザ軽視であり、

日本語への冒涜だ。

しかもそれを使わざるを得ないのである。この屈辱が理解できるか。バカな変換もたまに出るなら笑いのネタ、職場の肥やしだ。しかし日常茶飯事ではひたすらに腹立たしいだけだ。
無料の物に文句言うな?
オレに言わせりゃタダとは日本語安く見てくれたもんだな。

マイクロソフトよ、日本語に触るな。日本語を扱うな。言葉とは、言霊であり、我らが祖先から営々と継承してあり続ける音と文字の体をした魂だ。ポッと出が土足で踏み込んでアルゴリズムでどうにかしようなど、おこがましいにも程がある。恥を知れ。敬意を持たぬ者は去れ。吐き気がする。気が狂う。

感情論でないことを証明するため、今、MS-IMEに戻した後の屈辱的誤変換を全て記録している。この個数×再変換所要時間で、真の「接続コスト」が出せる。

~バカ変換コレクション~

人名や専門用語のせいなのか、良く見て言え。

●7/23~7/31

1.~としたが→と師田賀
何?誰?ドコ?

2.ぜいかんしんこく→税関深刻
この無意味さは深刻ですよ。税関に申告しなきゃ。

3.はんとしごとに→半年後とに
つまり半年後成金ですね。長い将棋ですね。判ります。半年ごとに確認してみます。

4.けいさんしょう→計算省
スパコンがズラッと並んだ象徴(省庁、だろうがバカ)でしょうか。しかし経産省と同じ発音でややこしいですね。

5.こんかいかいせいぶん→今回買い成分
今回改正分から、化合物や混合物の「成分買い」ができるようになるそうです。

6.かんりじょうたいのかいとう→管理上タイの回答
もやもやする。本音と建て前。外見と内実。みたいな。実際の管理状態を回答してもらおうっと。

7.じゅうぶんなないよう→十分な無いよう
足りているのか不足しているのか「帯に短したすきに流し」(長し、だろうが大馬鹿)という自己批判か。
でもそれ十分な内容か。

8.しむけこく→仕向け刻
何か強制のニュアンスを含む危険な儀式が行われる時刻。仕向国によって異なるらしい。

9.せいふくるい→政府狂い
制服類に盲従する北朝鮮の情勢を反映した秀逸な変換ですね。

10.ちょうふくかうんと→重複かうんと
「重複」か「うんと」。うんとって何?出そう?う~んとわかんない。

11.ぎむとして→義務徒して
絶対服従のロボット化の陰謀でもあるのでしょうか

12.~なわけ→縄稚
「なわち」って名字なら知ってるが。稚を「わけ」と読んだのは平安時代。
古い読みをよくご存じ。
……なわけねーだろ。

13.かくりつした→確率した
基本的誤変換(なんだそりゃ)。だが、「した」まで下に付けて変換しているのに何故出てくる。やはりダメという評価が確立した。

14.にんしきのそういあり→認識の創意あり
認識とは事実に基づいて本質を理解することです。脳内で捏造しちゃイケマセン。どうやら日本語について認識の相違があるようですね。

15.はばをもったかきかた→幅を持った下記方
つ ま り こ う い う こ と で し ょ う か 。
真実を下記方。幅を持った書き方でいいので。

16.ひょうきとして→表記徒して
徒に何でも徒にするのは、日本語を操る徒として許せません。無知が徒になったのでしょう。
(前から「いたずら」「と」「やから」「あだ」)

17.もんだいなしのいみ→問題な市の意味
「この謎めいたダイイングメッセージは、いったいどこの市を指しているんだろうか」
「問題なしの意味と違いますか?」
(ダイイングを代印具と変換したのはここだけの秘密だ)

18.がいとうひん→外盗品
ちぃっと日常用語に該当しないかも知れぬ。ただ、該・盗品ならまだ話判るが、これは日本語として存在しない。外人の盗品か。

19.みていない→未定ない
それは既定というのだ。何も見ていないな。

20.とくちょう→特超
「特徴」と「特長」なら判るけど「特超」だよ。新型の牛丼かっての。この手の捏造がこいつの特徴。特超おバカ←捏造してみた

21.そのまんま→その飯
「まんま」を「飯」に変換する必要性がどれだけ存在するんだ。その飯東さんに訊いてみようか←また捏造

22.へんでんしょ→変電書
だからね。変換して出来上がった語がそもそも「変でしょ」って。しかも「へんでん」って発音の語は恐らくこれ一個だけで、自ずからその後につながる「しょ」は一つしかないでしょって。
それとも変な電書……このブログか

23.えんこーだ→円コーダ
専門用語。されど「エンコード」は一発変換だが、エンコードする装置であるエンコーダが出ないとは。
エンコードした結果は謎語だし。

■誤変換による損失経産……わははそこは計算でいいバカ者

1週23個。再変換に1秒とする。
社員の飼育費用1時間1万円として、誤変換1回あたり2.8円
1週間23個で64円
1ヶ月(4週)256円
12ヶ月3067円
母数3000と書いた。3000人で920万円。

接続コスト。バカにならねーんだけど。

いい加減にしろよ。「良い加減」じゃねーよ「図に乗るのも大概にしておけ」って意味だぜ。

技術者の矜持って知ってるか?

« 怪しい… | トップページ | 娘の趣味 »

コメント

>メル欄に当記事へのリンクを引いた上で、謹んで申し上げる。

2009/12/21追記

で、当のMS担当氏からメールが来ました。

もしもよろしければ、ぜひIME2010をお試しいただき、ご評価いただけましたら、幸いです。
例示されていらっしゃいます誤変換を試してみましたが、「征服類」以外は大丈夫でした。
http://www.microsoft.com/2010/ja  
のOffice Professionalを入れますとIME2010が含まれております。

そこで返事を以下のように。

お返事ありがとうございました。
言葉遣いは汚いですが、それほど腹を立てている意思表示とお考え下さい。

さて

> もしもよろしければ、ぜひIME2010をお試しいただき、ご評価いただけましたら、幸いです。
> 例示されていらっしゃいます誤変換を試してみましたが、「征服類」以外は大丈夫でした。
> http://www.microsoft.com/2010/ja  
> のOffice Professionalを入れますとIME2010が含まれております。

この件ですが、評価させて頂く分には全く構いません。試してみたいと思います。
ただ、

> 例示されていらっしゃいます誤変換を試してみましたが、「征服類」以外は大丈夫でした。

この仰りようには少々違和感を覚えます。ソフトウェアのもぐらたたき的デバッグのような印象を受けます。
ご経験おありと思いますが、出たら叩くでは際限がありませんし、今後さらに機能や辞書を拡張したらその都度更に出る可能性があるからです。

単に変換できるか出来ないかの問題であるなら、検索語を集めて頻度の高い順番に出してくるグーグルIMEの考え方が単純で合理的です。実際、業務用PCで使っていますが、取り立てて不満はありません。御社IMEの問題は「そもそも言葉を知らない」「あり得ない言葉を出してくる(造語)」ですが、グーグルIMEは原理的にこれらは生じません。

最後に、アメリカが90年代まで相手にしなかった品質問題の大家、ウィリアム・エドワーズ・デミングの言葉を少し。

・全品検査への依存を止める。品質は統計的手法で向上させる(完成後に欠陥を見つけるのではなく、欠陥を防止せよ)。
・問題の解決に技術への依存は障害となる

結果はまた追って報告させていただきます。

コメントを書く

(ウェブ上には掲載しません)

トラックバック


この記事へのトラックバック一覧です: 亡者の冒涜:

« 怪しい… | トップページ | 娘の趣味 »

2019年9月
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30          

最近のトラックバック