仕事内容
SREとして、ecforceの信頼性を「運用」ではなく「仕組み」で高めるポジションです。 SLI/SLO、Observability、トイル削減、インシデントレスポンス改善を軸に、プロダクト/開発と協働しながら改善をリードしていただきます。
プロダクト詳細
AIコマースプラットフォーム「ecforce」のサービスを展開し、 販売チャネルの構築・強化からデータの取得・統合管理・分析・活用まで、コマースビジネスに特化した各プロダクトを提供しており、顧客のビジネスや目的に合わせてアジャイルにデータを活用しながら事業を成長させる為の環境構築を目指しています。
組織体制
本ポジションは「インフラ改善ユニット」への所属となります。
SREグループ
- アプリ運用ユニット
- アプリ最適化ユニット
- インフラ改善ユニット
- インフラ運用ユニット
- 運用統制管理ユニット
弊社サービスの基幹となるSaaSプロダクトの安定基盤の管理、インフラやサーバーの整備を担う部署です。グループ内はユニットというチーム体制で役割を分けて運営しており、わたしたちは「何をやるかより、誰とやるか」というカルチャーを表す「VALUE(価値観)」を何よりも大切にしています。
20代〜50代の幅広いバックグラウンドを持った約25名ほどの業務委託を含めたエンジニアが活躍しており、オープンで活発なコミュニケーション環境があります。 上長や他チームメンバーとの日常的な交流を通じて、アイデアや知見を共有し合い、難しい課題も一緒に協力しながら解決していく文化があります。技術力だけではなく、人間力として魅力のある開発者が多く、それぞれ自由に働ける社風が弊社ならではの特徴です。
SREグループが目指す将来像
EC/D2C領域では、オンライン・オフラインを横断したデータ統合・分析・可視化が重要になる一方、事業者のすべてがシステムに強いわけではありません。プロダクトが「使える/止まらない/速い」状態を継続すること自体が、事業成長の前提条件になっています。
開発されたサービスを安定して提供し続けることを大切にしています。
- ユーザーが使いたいときに機能が使える状態を保つ
- サービスの信頼性を維持し、効率的に運用できる仕組みをつくる
- 開発チームと協力しながら、技術的な課題を解決していく
加えて、SREプラクティス(SLO/SLI、Observability、トイル削減、インシデントレスポンス改善)を定着させ、運用に追われない状態をつくることで、継続的に信頼性を高めるサイクルを回していきます。
サービスの安定性向上に向けて着実に取り組んでいただける方を求めています。
期待役割 / 今後の展望
まずは現状の運用・監視・障害対応を理解した上で、優先度の高い領域から改善をリードいただきます。 将来的には、開発チームと協働しながら「何を信頼性の指標とし、どこに投資するか」を設計・意思決定していける体制(SREプラクティスの定着)を一緒につくっていきます。
具体的な業務内容
- コストの最適化
AWSリソースの利用状況を監視し、インフラコストの削減を計画的に推進します。
- データベース基盤の移行
RDSやAuroraからTiDB Cloudへの移行を推進し、管理負荷を軽減します。
- 信頼性指標(SLI)/SLOの設計・運用
プロダクト/開発と協働し、ユーザー体験・ビジネスインパクトに紐づく指標を定義し、目標値(SLO)に基づいた改善活動(エラーバジェット運用等)を推進します。
- 可観測性(Observability)の改善
New Relic等を活用し、メトリクス/ログ/トレースの整備、アラート設計、ダッシュボードの改善を通じて、システム状態の把握とトラブルシュート効率を向上させます。
- トイル削減(運用作業の省力化・自動化)
運用作業のコード化やジョブ化(Runbook整備・自動復旧・定型作業の自動化)を進め、作業の簡素化と標準化を実現します。
- インシデントレスポンスの改善
障害対応フローの整備、ポストモーテムの運用、再発防止(恒久対策)の推進により、MTTR短縮と再発率低減を目指します。
- 技術負債の解消とアーキテクチャの見直し
インフラアーキテクチャのトレンドや、AWSのサービスの更新などをキャッチアップし、運用中のサービスをより良いアーキテクチャに改善します。
- 統制の取れた運用のための改善
最小権限の原則に基づくIAM設計や、運用リソースのアクセス制御、ログ設計など、セキュリティを考慮した運用設計を目指し改善を進めています。
ポジションのやりがい
- 事業インパクトの大きいプロダクトで、信頼性向上を中長期で推進できる(売上機会・顧客体験に直結)
- SRE導入フェーズのため、指標(SLI/SLO)や運用の設計など「型づくり」から関われる
- 自動化・可観測性・インシデント改善に投資し、運用負荷を継続的に下げられる
- 経営陣の考えなどを社内共有する場面が多く、「事業が今どこに向かっているのか、誰に対して何をしていくのか」という事業戦略を理解しながら業務に臨めます。
このポジションが事業に与えるインパクト
ecforceは多くのショップに導入される統合コマースプラットフォームであり、停止や性能劣化は売上機会損失や運用負荷増大など、事業に直接影響します。SREは「止めない・遅くしない」だけでなく、サービスの信頼性を継続的に高めることで、事業成長を支える基盤をつくります。
開発環境
AWSの主な利用サービス
- コンピューティング: EC2, ECS, Lambda
- データベース: RDS/Aurora(MySQL), DynamoDB, ElastiCache
- ストレージ: EBS, EFS, S3
- セキュリティ: GuardDuty, Config, WAF, Security Hub
- 運用ツール: CloudWatch, CloudTrail, Step Functions, Systems Manager
- その他: Route53, CloudFront, WorkMail, Transfer Family
AWS以外のサービス
- DB: TiDB Cloud
- 監視: New Relic
その他
- IaC: Terraform, Ansible, CloudFormation
- 開発: Python, Ruby, ShellScript
- CD/CI: Jenkins, Github Action, CircleCI
- コミュニケーション: Slack, Notion, Jira, MetaLife
- AIツール: cursor, claude codeなど