ちゅらデータ初めての自社開発プロダクト『ちゅらいと』。開発に携わったメンバーのうち 3 名に、その道のりをインタビューしました。
- 山内 昌武
データアナリスト / 船長 / ビーチキャンプ推進委員
以下 山ちゃん - 髙嶺 潮
データアナリスト / 伊江島生まれの伊江島育ち
以下 みちる先生
- 松永 聖明
データアナリスト / 2021 年度新卒入社
以下 masaaki - 羽入 達也
(インタビュアー)
データアナリスト / 焚き火が趣味
以下 hanyu
自社開発プロダクト『ちゅらいと』とは
今回は先日リリースしたちゅらいとの開発に最も長く携わっていた山内さんに、どのようにちゅらいとを開発していったのかということや、ちゅらデータでの働き方について伺います。 早速ですがちゅらいととはどのようなサービスなのでしょうか。
『ちゅらいと』は文章校正サービスです。 WEB の記事や公開文書など、日本語のテキストを入力すると自動で誤りをチェックし修正リストを表示することができます。 また、弊社のデータ分析技術を利用して、機械学習による文脈を考慮した誤りチェック機能を持っています。
ちゅらいとが生まれたきっかけは何だったのでしょうか?
弊社のメインのビジネスとしては受託のビジネスとなります。そのため様々なお客様の要望をお聞きすることが多いのですが、特に文章校正についてのご相談が多かったんですよ。 それから文章校正に対するニーズの大きさを感じちゅらいとの開発をすることになりました。 まずは研究開発から始めていったのですが、そこで一定の成果を出すことができたため、自社ツールとしてリリースすることを決めました。
初めての自社開発で大変だったところ
ちゅらデータとしてはちゅらいとは初の自社開発プロダクトとなります。 そのため手探りでの開発となったと思いますが、どんなところが大変だったのでしょうか?
プロジェクト立ち上げ当初、受託案件をこなしながら平行して進めていたので時間を確保するのが大変でした。ただ、現在はサービスとしてリリースされたのをきっかけにきちんとした工数を確保することができるようになっています。 また、はじめてのサービス開発ということもあり、競合調査や要件の洗い出しなどから始めており、ゼロから組み立てて行くのはやりがいがありましたが大変でした。
しかし日本語で文章校正を行うようなサービスというのはやはり難しいのでは?
はい、サービスの根幹となる機械学習による文章校正は、研究分野では GEC( Grammatical Error Correction:文法誤り訂正)と呼ばれますが、 日本語の GEC 研究の事例は英語のそれと比べても少なく、また最新研究が報告する精度に関しても高いとは言えない状況でした。 そのため、自社で独自モデルを開発する必要がありました。
なるほど開発する中で様々な壁があったことが分かりました。 山内さんの他に、開発に携わったお二人にも話を伺いたいと思います。 開発した内容や、大変だったことなど伺えますか?
「文章校正に直接流用できる日本語データセットがとても少ない」という課題が校正モデル開発初期から存在しており、その課題を解決することがとても大変でした。 また精度改善のために、既存のデータセットと自社で作成したデータセットの組み合わせ方について様々検討を行いました。
特に気をつかったのは、使用する誤りの選定と比率の調整です。 日本語に登場する誤りのパターンと傾向を分析し、モデルの学習結果と突き合わせて学習用データセットを作成しました。 例えば、既存のデータセットでは量や多様性が不十分だと判断された誤りを、自社で作成したデータセットにより補填する等を行ないました。 また特定の誤りがモデルの学習に悪影響を与えることが判明した際には、該当パターンの校正担当箇所をモデルからルールベースに移すことで解決を図る場面もありました。
必然的に仮説検証を繰り返す作業となり大変でしたが、とてもやりがいがあり楽しめました。
私は主にモデル性能改善を目的とした開発に携わったのですが、特に「コストを抑え、どれだけ効果的に精度を上げるか」に苦心しました。
例えばゼロから GEC モデルを学習させる上で 1 時間 4,000 円前後の GCP インスタンスを長時間使用する必要がある事や、それに関連して短いスパンで検証を複数回実施できないなど、多くの制約・課題が山積していました。
最終的に社長からの理解もあり、いくらでもつかえと言ってもらえたので、開発メンバーでの議論・工夫・修正を重ね、一定の結果を出すモデル構築を実現することができました。
こだわりの画面設計
データ準備からモデル構築、論文実装まで手を抜かずに開発されていたことが分かりました。 あとは社長にいくらでも金を使って良いと言われるような開発環境は魅力ですね。 また、今回は初のプロダクト開発ということで、画面設計にもかなり力を入れていたということを伺っています。 どのように画面設計など進めていったのでしょうか?
サービス開発当初は、私がプロトタイプを作成して進めておりました。既存サービスを研究し機能やデザインを参考にしています。 ただ、やはり素人がつくったデザインは厳しい点がおおく(笑)、最終的にグループ会社のデザイナーに依頼し、現在ではとても使いやすい UI ができました。 餅は餅屋ですネ。デザイナーの力はスゴイ! また、開発メンバーも増えており、WEB チームと機械学習モデル開発チームでそれぞれ切磋琢磨しながら、機能アップデートを行っています。
グループ会社のデザイナーに依頼ができるというのは強みですね! 開発規模も増して、これからますますアップデートされていくのは楽しみです!
ちゅらデータに興味のある方へ一言
今ちゅらデータでは社員を積極採用中ですが、なにか伝えておきたいことはありますか??
ちゅらデータでは「ちゅらいと」のような最新のデータ分析手法を検証・実装するような仕事が多くあり、そのようなプロジェクトに携わる機会が沢山あります。 また、いわゆる POC というような検証段階フェーズから、ML モデルを実際に本番で運用するようなシステム開発まで、必要な技術の多くを経験することができます。 最新の技術に触れ、様々な知識、技術を習得したい方には絶好の環境だと思います!