辞書データの品質管理で重要なのが、各エントリの分類(CAT)の妥当性確認だ。これを自動化するため、Gemini APIを活用したCATチェッカーをGoogle Apps Scriptで実装した。

当初、Gemini APIに詳細な説明文を返させる設計だった。「この単語は名詞です。なぜなら…」という形式だ。しかし、これには2つの問題があった。第一に、出力が冗長で人間のレビュアーが読むのが大変だった。第二に、APIのトークン消費量が多く、コストが高かった。

そこで、プロンプトを最適化し、簡潔な絵文字インジケーター(✅)を返すように変更した。CATが正しければ✅、疑わしければ空白。これだけでレビュアーは一目で判断できる。トークン消費量も大幅に削減された。

もう一つの重要な改良は、非破壊的なワークフローの実装だった。元のデータを直接変更するのではなく、「Staging」タブを作成し、そこで検証作業を行う。元の「Source」データは常に無傷のまま保持される。これにより、何か問題が起きても、簡単に元の状態に戻せる。

API呼び出しのエンドポイントでも失敗した。最初、標準的なGemini APIのURLを使っていたが、404エラーが返ってきた。ユーザーから指摘を受けて、gemini-2.5-flash-liteという特定のモデル名を使う必要があることがわかった。APIのバージョンやモデル名の指定は、ドキュメントをよく読まないとわからないことが多い。

現在、CATチェッカーは安定稼働している。数千件のエントリを自動的にチェックし、疑わしいものにフラグを立てる。最終的な判断は人間が行うが、AIが事前にフィルタリングしてくれることで、作業効率が劇的に向上した。