« | トップページへ | »

2006年04月12日

■予定通り上司は出張。今頃遠い地で偉いさん相手に苦労してんだろうか、と思いつつ仕事した。根が小心者なこともあり、結局真面目に働いてた。
・といっても、ただ残された課題をこなすだけで済ますものではないですよ。
・正規表現と複数置換処理を活用して、今後ずっと使えるようなテキスト処理システムを構築しようと画策しております。
・たとえば、今の会社では「頚」という字は使わず、全部「頸」にする。そんな決まり事がいくつかあるから、それらの置換を全部自動処理にしてしまおう、というオハナシ。

・とはいえ、上記みたいな例なら単純に置換すれば済むけど、そうはいかないのが殆ど。
・この「殆ど」は「ほとんど」とひらがな表記にするのが会社的に正しいのだけれど、じゃあ単純に「殆」→「ほとん」とすればいいのか、というと世の中にはわざわざ「殆んど」という表記にしてくるひともいるんであるよ。ぐぐる様が仰るには、約920,000件ほどあるらしいぞ「殆んど」。
・なんでそんな、普通に変換できない(少なくともATOKでは)日本語わざわざ書くかなーと思うけど、著者に文句言うよりとっとと黙って直した方がなんぼも早いので、著者には文句言わない。言えないし。
・でも、そーゆー僅かな手間でも、何年もやってる間には結構な時間になってるよね、というわけでそこをうまいこと処理しよう、って時に正規表現の出番になるわけ。
・単純に「殆」→「ほとん」にしたら「殆んど」→「ほとんんど」になってしまうけど、正規表現を使って条件付け、例えば「殆ど|殆んど」→「ほとんど」にすれば、どちらの場合も「ほとんど」に置換してくれる。

・さらに「たとえば」「例えば」の表記ブレを「たとえば」に統一するなら、「例」→「たと」。
・……は間違い。もし文中に「具体例」という言葉があって、それが「具体たと」になってしまっては(ノ∀`) アチャー。「例え」→「たとえ」ならOKかな?
・まぁこの辺は活用形とかあんまり考えなくてもいいから、楽な方だと思う。


・問題は動詞のたぐい、あるいはよく使われる漢字。
・「伴う」→「ともなう」にしたいとき、「伴って」「伴い」「伴わない」「同伴」「劇伴」を問題なく処理するにはどうすればいいんだろうか。
・これ書きながら考えたのは「伴(い|う|え|お|っ|わ)」→「ともな\1」なんだけど、実際に試してみないと使えるかどうか。もっと他の活用形がありそうな気がするし。
・これまでずっと"文法"ってやつ、古典とか漢文とか外国語とか苦手だったんだけど、その辺を理解しなきゃいかん時が来たのかなあ。
・まぁ、学力テストなんかと違って直接自分の為になる、しかも明らかな形でメリットがあることだから、やってて面白いけど。
・自分がラクするための勉強なら楽しいっす。

・そんな感じで、明日も明後日も正規表現の勉強に勤しもうと思う。サンプルは課題という形で大量に手元にあるしな。。。
・ちなみに、今日仕事中に作ったのは「(す|た|る|))(.|.)」→「\1。」これを使うと、文語調でしかも読点がピリオドな文章の、半角および全角ピリオド(.)を丸(。)に置換してくれる。英文中のピリオドを除外するためとはいえ論理和を使って条件を羅列するのはスマートじゃないなぁと思いつつ、今はまだこれが精一杯。
・以前秀健氏に教えて貰った、国語の先生の為の正規表現なんかも参考にしつつ、精進するさー。リンク先の検索パターン例、まだ理解できてないんだわさ。


○神戸のひとは、「十二人の怒れる男」DVDでもレンタルしてくれば、暇つぶしにいいんじゃないかと思った。その昔、浪人時代に図書館の視聴コーナーで見たなあ懐かしい。

コメントする