約800年もの歴史を持つ蒙古文字(縦書きのウイグル式モンゴル文字)は、モンゴル国で1946年にキリル文字が採用されて以来使用が廃れていたが、現在ユネスコはこの蒙古文字を復活する活動を支援している。 モンゴル国においては、ユネスコの助成を受け、モンゴル国立大学とモンゴル国立科学技術大学の提携により、ワープロやオンライン出版などでの蒙古文字の使用を促進するための「蒙古文字文書の電子化ツール開発」プロジェクトが起動中だ。 両大学は、蒙古文字・キリル文字表記による語彙数55,000語のデータベースを構築しており、これに基づいた正書法の辞書も出版が予定されている。さらに、モンゴル語スペルチェッカーやユニコード対応のオープンタイプ蒙古文字フォントも完成間近だという(2005年12月現在)。 <参考サイト>http://portal.unesco.org/ci/en/ev.php-URL_ID=20774&URL_DO=DO_TOPIC&URL_SECTION=201.html
京都大学大学院情報学研究科(2005年当時)のエンヘバヤル(Sanduijav ENKHBAYAR)氏は、モンゴル語の自然言語処理を行っている。2004年には「モンゴル語間句生成ライブラリの仕様書1.1」を発表し、自身の製作したPerl用のライブラリについて解説している。 冒頭の文章では、「作成者の私のみならず、これからモンゴル語の自然言語処理をしていく方でも使ってもらえるように書いている」とある。そこでさっそく去年の暮れ頃、本人宛てにメールを送ってお願いしたところ、ライブラリのファイルを分けていただくことができた。 仕様書を見ると、モンゴル語のキリル文字アルファベットを[大文字/小文字]、[母音字/子音字]などに分類して変数化し、さらに母音と子音をそれぞれ分類して異なる変数として表している。 母音は[基本母音字/補助母音字]という区分がされているが、言語学的には母音のみを表す文字か、いわゆる半母音と母音がペアになった文字かどうかの区別である。さらに子音は、[母音を伴わなくてもよい子音字/必ず母音を伴う子音字]を区別している。 これはモンゴル語の正書法でおなじみの、いわゆる9子音と7子音で、この子音のいずれが前後にくるかなどの非常に複雑な規則によって、接辞を伴う際に語末音節の母音が省略されるかどうかが定められる。モンゴル語の正書法を難解にしているのは、実にこの母音省略の規則だといってもよく、ネイティブでさえも綴りを間違えることは珍しくない。 こうした母音の省略(母音消失)の規則以外にも、母音の挿入、母音調和による格語尾の選択などといった規則があるが、すべてこれらを関数として表し、自動的に句生成が行えるような仕組みになっている。 自然言語処理については素人の私でも、理論的に非常によくできたものであることは一目瞭然である。ただ、難をいえば、使えるようにするためにPC環境を整えるなどの設定がやっかいで、身近にいるPerl専門のエンジニアの手を借りなければとても手に負えなかった。 このライブラリを実装したプログラムを作ることができれば、精度の高いモンゴル語スペルチェッカーなどの開発も可能なはずだ。今後の研究の進展を切に希望する次第である。 ��参考サイト>http://pine.kuee.kyoto-u.ac.jp/member/enkh/mnlp/phrase.html��参考文献>Sanduijav ENKHBAYAR, 宇津呂武仁, 佐藤理史, 「日本語・モンゴル語間の機能表現の機械翻訳」, 京都大学大学院情報学研究科.M2 Sanduijav ENKHBAYAR, 「モンゴル語間句生成ライブラリの仕様書1.1」,京都大学大学院研究科, 2004.
私が普段使用しているノートPCのキーボードには、モンゴル国で購入したモンゴル語(キリル文字)用のステッカーを貼っている。これは透明なシールに赤字でキリル文字がプリントされたもので、非常に使いやすい。キーボードのローマ字は白でプリントされているため、ステッカーの赤字と瞬時に判別でき、文字入力の際にローマ字とキリル文字を混同するといった心配がない。また、シールの色が透明なので、平仮名などの他の文字も隠れずにすむ。 こういったステッカーがなければ、キリル文字をArialなどの見やすいフォントで多少大きめに入力して、紙にプリントしたものを適当な大きさにちまちまと切って、糊でキーボードに貼り付けるという方法もある。実際に、私のデスクトップPCのキーボードはこのやり方を使っている。普段はキーボードカバーをかけて使用してるのでキリル文字の紙がずれたりはがれるすることもなく、特にお金をかけずとも十分モンゴル語用のキーボードができあがる。 実際にモンゴル本国でも、大学などの研究室においてあるパソコンのキーボードを見ると、普通の英語用キーボードにサインペンかなんかでキリル文字を書き込んだというお粗末なものだ。 この記事を読んで「な~んだ」と思った方には、以下のキーボード通販サイトをお勧めする。 http://www.language-keyboard.com/mongolian_cyrillic.htm モンゴル語だけが印刷された専用キーボードから、ローマ字とキリル文字の両方が印刷されたものなど、お好み次第だ。モンゴル語はキリル文字の他に縦書きのウイグル系モンゴル文字、パスパ文字などが揃っている。ただし、縦文字はキーボードカバーに文字が印刷されたものと、キーボードに貼るタイプのステッカーのみで、パスパ文字はステッカーしかない。以前はパスパ文字のキーボードカバーも売られていたはずだが、さすがに売れなくて製造中止になったのかもしれない。 <参考サイト>http://www.language-keyboard.com/
オープンソースとは、企業などで開発されたライセンスを必要とするソフトウェアとは違って、ソースコードを公開して技術を共有できるようにし、誰もが開発に参加できるようにした開発プロジェクトである。このオープンソースの考え方にもとづいて開発されたソフトウェアには、GNUプロジェクトによるソフトウェア群、Unix系のOSであるLinuxなどがある。デスクトップ環境としては、GNOMEというものがあり、主にUnix環境のパソコンで使用される。 このGNOMEは、すでにバージョン2以降からキリル文字表記のモンゴル語への対応を開始しており、将来的にはデスクトップ上のさまざまなメッセージ(例えば「新規作成」や「保存」といったメニューだけでなく、インストールマニュアルやヘルプ画面など)がすべてモンゴル語で表示可能になるはずだ。 おもむろにパソコンの操作をしようとして画面を覗き込んだら、全部表示がモンゴル語だった、なんて光景を想像するとちょっと愉快である。もちろん、そういったイタズラ目的ならずとも、モンゴル語の表示を見ながら操作できるようになれば、地方の小中学生など、英語が読めないモンゴル人でも、もっと気軽にパソコンに親しむことができるようになるだろう。しかもオープンソースであるから、ライセンス費用をかけずに様々なソフトを利用できるなど、利点も多い。 現在モンゴルでは、優秀な翻訳チームによってGNOMEの英語メッセージからの翻訳が電光石火の勢いで進められており、少なくとも11,455のメッセージがモンゴル語に翻訳済みだという。 <参考サイト>http://japan.linux.com/opensource/03/10/08/0251214.shtml
蒙古文字(縦書きのウイグル系モンゴル文字)のユニコード対応に向けて、規格の整備や対応ソフトの開発などが着々と進められているようだ。 ユニコードのバージョン3からは、1800-18AFのコードに蒙古文字が割り当てられてるようになった。 東北大学の栗林研究室(東北アジア研究センター)に所属するオルギル氏は、蒙古文字のユニコードエディター “Mongolian UE” を開発中である。実は、すでに数ヶ月前にオルギル氏本人からこのソフトを配布いただいており、試用したこともある。蒙古文字に特有の、語頭、語末、語尾での字形変化にも対応しており、縦書きで左から右への改行も可能だ。ただし、利用できるフォントや印刷設定などに制限があり、まだ開発途上のようだ。 今後は各ワープロソフトへの互換性などを考えると、開発者同士の緊密な情報交換と連帯が切に望まれる。 なお、ユニコードのバージョン5からは、パスパ文字への対応が予定されているようだ。 <参考サイト>http://www.unicode.org/charts/ http://www.cneas.tohoku.ac.jp/
モンゴル語(キリル文字表記)はWindowsXPを使えば、IMEの設定をするだけでキーボードからの入力が簡単に行える。ただし、外出先などで、普段使っていないPC上からモンゴル語を入力する必要に迫られたときなど、オンラインでモンゴル語が入力できれば非常に便利だ。 以下はバター氏のサイトで公開されているオンラインのソフトキーボードである。 http://badaa.mngl.net/monvkb/monvkb1.htm 試しに使用してみたところ、画面上のキーボードを一つずつクリックして入力することも、画面のキー配列を見ながら直接キー入力してモンゴル語を入力することも可能だ。上記プログラムは英語キーボード用だが、ドイツ語キーボード用のプログラムなども同氏のサイトに公開されている。 (注:ただしFirefoxなどのいくつかのブラウザで試したところ、動作状況は芳しくない。どうやら対応ブラウザはIEのみのようだ。Unix機やMac機をお使いの方で、「この環境でならできた」などの情報をお寄せいただけると幸いです。) <参考サイト>http://badaa.mngl.net/index.php
Web上で表示させるフォントを外部フォント・ファイルとして指定する方法があるらしいということは以前に述べたが、具体的な方法についてはまだ調べている途中である。 まず、IEで認知されるというEOTフォントについて調べてみた。Microsoft社のWEFTというツールを使えば、TrueTypeフォントからEOTフォント(つまり、拡張子が.eotのファイル)が作成できるらしい。 WEFTの説明およびダウンロードのページは以下のURLである。http://www.microsoft.com/typography/web/embedding/weft3/default.htm 実際の使用例として、以下の《三國演義》というサイトを見つけた。http://rtk.web.infoseek.co.jp/ ユニコード(UTF-8)で日本語と中国語のバイリンガル表示を実現しており、表示フォントの指定にはEOTフォントを使っているようだ。 この《三國演義》の「関連用語解説」を見たところ、「現在のところ、WWW埋め込みフォントの形式としてはMicrosoftが提唱するEmbedded OpenType(EOT)とBitstreamが提唱するPortable Font Resource(PFR)が有名ですが、どうやらPFRの方は消え行く運命にあるようです。」との記述がある。 すると、将来的にはIE以外のブラウザもEOTに対応してくれるのだろうか。いずれにしても、現時点ではNetscapeやFirefoxなどのブラウザで外部フォント・ファイルを指定するためには、PFRフォントのファイルも作成する必要があるようだ。 PFRフォントの作り方も調べなければならないが、とりあえず今日は疲れたので、この辺で。。。
スタイルシートを使ってWeb表示させるという方法は非常に便利だが、ちょっと指定ファイルを書き換えただけで、とたんにレイアウトがくずれてしまい、悪戦苦闘するはめに陥ることがあるのが難点だ。 現在作成中のモンゴル語情報のサイトも、スタイルシートでUTF-8のエンコードを指定すると、レイアウトが部分的にくずれる。とはいえ、デフォルトのEUC-JPだと、キリル文字モンゴル語の表示がブラウザによってはうまくいかないようなのだ。 そこで調べてみたところ、スタイルシートにURLを書き込んで、フォントの指定を外部ファイルにするという方法があることが分かった。http://jp.selfhtml.org/css/eigenschaften/schrift_datei.htm これならば文字の領域を限定してエンコード指定ができるので、記事の部分だけユニコード表示表示するということも可能だろう。 eot と pfrという二つの種類のファイルをアップロードして、URLを指定しておけば、IEおよびネットスケープのブラウザ側でWebフォントとして認知してくれるらしい。 ということは、蒙古文字(モンゴル語の縦書き文字)でのユニコードによるWeb表示も夢ではないはずだ。蒙古文字特有の縦書きで左から右への改行という表記をWebで実現する方法については、すでに蒙古語レイアウトWeb表示の中で検討ずみである。記事中ではフォント指定の方法が最後の問題点として残るとしていたが、外部フォント・ファイルという方法を使えば一挙に解決となるはずだ。 忘れないように急いでメモ書きとして書いたので、多少読みづらい文章だが、ご容赦願いたい。