モンゴル語辞書の編纂作業で、Google Sheetsに蓄積された大量のデータを効率的に処理する必要が出てきた。そこで、Google Apps Script(GAS)を使った専用ツールを開発することにした。
当初はシンプルなスクリプトを考えていたが、実際に作業を進めるうちに、データのクリーニング、重複チェック、フォーマット統一など、複数の機能が必要になってきた。最終的には、サイドバーUIを持つ統合ツールとして仕上げることができた。
特に苦労したのは、モンゴル語(キリル文字)と日本語が混在するデータの処理だ。文字コードの問題で、GitHub経由でCSVをやり取りする際に文字化けが発生することがあった。UTF-8エンコーディングの徹底と、適切なヘッダー処理の実装で解決できたが、多言語データの扱いは思った以上に注意が必要だと実感した。
また、処理対象のデータが数万行に及ぶ場合、実行時間の制限に引っかかることもあった。バッチ処理の実装や、処理の段階分けなどの工夫が必要だった。
現在は、辞書データの各処理段階(S02からS06まで)に対応した専用ツールが稼働している。作業効率は以前と比べて格段に向上した。今後はさらなる自動化を進めていく予定だ。