社内コンペ開催中！ AI 文章校正ツール「ちゅらいと」に勝つモデルをイチから作ろう

ある日

真嘉比社長「Chura DATA Science Competition in Summer 2022 やるぞ」

お題は「 VS ちゅらいと」

『Chura DATA Science Competition in Summer 2022』というタイトルで、社内コンペを開催中です！

文法誤り訂正（Grammatical Error Correction、以下 GEC）モデルをイチからつくろう！というテーマで、手法は問わず、誰が一番高性能な校正モデルを作れるかを競うものです

期間は 2022 年 8 月 17 日の説明会から 1 ヶ月。9 月中旬には成果報告会を開催予定です！

主催はサイエンスギルド^*。
ギルド集会ではコンペの相談も随時受け付けていて、いろいろな情報が飛び交っています。

^*ちゅらデータ社内には分野ごとに「ギルド」が存在していて、技術相談や勉強会を通して技術の向上などを目指しています。

あれやこれや試行錯誤

GEC モデル構築チュートリアルに参加したのは約 13 名。
参加者全員が GEC モデル構築は未経験とのこと。

チュートリアルでは GEC モデルの歴史的な変遷や、各モデルの強いところ・弱いところなどが紹介されました。
後半は、実際に Transformer ベースの簡易な GEC モデルを構築するところまでをハンズオン。
テキストの正規化処理やサブワード分割による低頻度語への対応など、様々な前処理 Tips が織り交ぜられた内容でした。

※ ハンズオンのデータセットとして、京都大学の黒橋・褚・村脇研究室より提供されている「日本語 Wikipedia 入力誤りデータセット (v2)」を利用させて頂きました。

参加者にとっては初めての経験が多い中、社内 slack の個人チャンネルには試行錯誤の様子も投稿されていてなかなかのライブ感があります。