エウレカのAI Teamにて、MLOpsエンジニアとして機械学習が関連するシステムの信頼性を担保する役割を担っていただきます。主に、機械学習パイプラインの構築、機械学習モデルのサービング、サービスの監視・運用、モデル性能の監視に至る、機械学習サービス全体に関わっていただきます。
仕事の進め方
・機械学習の学習/推論/監視プロセスにおいて必要となるバックエンド要素、主にGCP及びAWSのクラウドインフラストラクチャを機械学習エンジニアやスペシャリストと連携して継続的に改善
・機械学習に関する、設計/構築/運用
・全社として最適な環境構築や権限管理、よりユーザーのプライバシーに配慮したデータソース設計/構築のために、Data Reliabilityを担保するData Management EnginnerやSREとの連携
・特徴量データ供給のパイプライン(feature store)や機械学習の推論環境の設計/実装/運用/監視、推論結果の監視をはじめ、システムの一部としての機械学習システム環境の継続的改善に関連する業務
・専用の情報共有ツールを使って、ノウハウや議事録、日報などの情報共有
仕事から得られるもの
・国内最大級のオンラインデーティングサービスのデータを用いた機械学習を含むシステムの安定運用を実現する過程で得られる知識とテクニカルスキル
Want more jobs like this?
Get Science and Engineering jobs in Tokyo, Japan delivered to your inbox every week.
・様々な機械学習案件でMLエンジニアと共にモデルの提供に関連するシステムを設計・実装する経験と、既存の基盤をさらなる成長フェーズに向けて進化させる経験
・エウレカでは技術選択は全て開発者が責任を持って行っており、必要に応じて最新技術も積極的に活用できます
・サービスマインドの高いメンバーが多く、あるべき姿を議論しながら、調整力、コミュニケーションスキル、解決力を磨くことができます
・定性・定量のバランスを持った高度で本質的なデータ・ドリブン組織の推進・実務経験外
・資系IT企業ならではの論理性、圧倒的スピードのある開発経験
・英語力(業務上必須ではありませんが、親会社や外国籍メンバーとのコミュニケーションのため英会話学習をサポート。また、社内メンバーの国籍は、台湾・韓国・フィリピン・オーストラリア・イギリス・アメリカ・フランスと多種多様です)開発を通した社会貢献(晩婚化問題、少子化問題、人生における自由な選択etc.)
使っているツール/環境
・データベース:BigQuery, MySQL(AWS Aurora), DynamoDB, Redis, ElasticSearch
・データ処理:Google Cloud Dataflow, Cloud PubSub, Apache Airflow, Fluentd, Fluent-Bit, Embulk, Digdag etc
・BIツール:Tableau, redash
・構成管理:Terraform
・開発、その他:Github, Slack, JIRA, Google Workspace
・各種ツール:Google SpreadSheet / Google Slide
・インフラ:GCP/AWS各種サービス, Kubernetes
必須条件
・日本語ビジネスレベル以上
・WebApp開発の知識、スキル
・一般的なWebアプリケーションの大まかな構成を理解していること
・バックエンドアプリケーションの開発経験
・インフラ、SREの知識、スキル
・ソフトウェア信頼性を高めるための活動への理解、経験
・AWS/GCPのインフラ設計・構築・運用の業務経験、あるいはそれに類する経験
・データ処理におけるテクニカルスキル
・SQL言語の知識、技能
・Python/Ruby/Java/Scala/Goいずれかの業務での開発経験
・ストリーム/バッチのデータ処理経験
・RDB以外のデータベース利用経験
・ビジネス/エンジニアとのコミュニケーション力
・相手の課題・ニーズをヒアリング、解釈でき、要件に落とし込める
・複雑な要件を整理、適切なステークホルダーを巻き込んで合意形成できる
歓迎条件
・MLサービスの運用経験があるとベスト
・kubeflow/TFXなどMLパイプラインの開発/運用
・Kubernetesの監視・運用
・データエンジニアリングスキル
・リアルタイムでオンライン推論が行われる機械学習パイプラインの設計/構築/運用/監視経験(GCPを利用していると尚可)
・高トラフィックサービスのストリームデータ処理経験
・大規模データのバッチ処理経験
・データに対する要求水準が高い Applicationのデータストアやデータパイプラインの設計、技術選定の経験
・大規模システムの運用経験、トラブルシューティングスキル
・ボトルネックを特定し、適切な解決策を提案、実施した経験または運用を事前に考慮して、高可用性、高信頼性のあるシステムを設計した経験
・SREのプラクティスを改善しながら運用する経験(SLO, エラーバジェット等)
・統計学、機械学習の知識、スキル
・各種統計検定の違いが理解でき、結果が解釈ができる
・機械学習(主に教師あり学習)の評価指標を理解している
・NumPy, Pandas, SciPy, Matplotlib, scikit-learn, Tensorflow, Pytorchなど機械学習に関わるライブラリ・フレームワークの利用経験
人物像
・担当領域に関して、物事を前に進めるためのあらゆることを実践できる
・自身の仕事の価値を理解してやりきれる力がある
・最新技術を常にキャッチアップし、必要に応じてプロダクトに導入できる
・あるべき理想を持ちながら、現実問題に落とし込んでギャップを埋める議論ができる