大量の辞書データを扱う上で避けて通れないのが、データの品質管理だ。特に、複数の情報源から集めたデータを統合する際には、重複チェックや内容の妥当性検証が不可欠になる。
当初は人力でExcelシートを見ながらチェックしていたが、データ量が数万件を超えると現実的ではない。そこで、段階的な自動検証システムを構築することにした。
まず、基本的な重複チェックツールを作成した。見出し語の完全一致だけでなく、表記の揺れ(大文字小文字、全角半角など)も考慮する必要がある。また、モンゴル語の場合、格変化した形が重複して登録されていないかも確認する。
次に、分類(CAT)の妥当性チェックだ。これにはGemini APIを活用した。各エントリに対して「この見出し語の分類は妥当か」を判定させ、疑義のあるものにフラグを立てる。ただし、AIの判定が100%正確とは限らないので、最終的には人間が確認する。
さらに高度な検証として、Claudeを使った内容検証も実装した。Google Sheetsからデータを抽出し、GitHub Gist経由でClaudeに渡す仕組みだ。Claudeは語義の説明が適切か、用例が正しいかなどを細かくチェックしてくれる。
この一連のワークフローを「S06データ監査ツール」として統合し、Google Apps Scriptで実装した。ピボットレポート、ファイルリストチェッカー、差分トラッカーなどの機能を持つサイドバーUIとして仕上げた。
完璧なシステムではないが、以前と比べて検証作業の効率は大幅に向上した。人間とAIの協働による品質管理の一例として、他のプロジェクトの参考になれば幸いだ。