|
ポイント
|
合同会社DMM.com の安定した経営基盤であなたのキャリアを広げてみませんか。働きやすい環境とたくさんの挑戦があなたを待っています。
|
|
仕事内容
|
SRE部の一員として、DMMが展開する複数の事業・サービスを横断的に支える信頼性・可用性・運用効率の向上に取り組んでいただきます。
【主な業務内容】
1.AI Agentの開発を通した運用改善
・運用データを活用した障害対応・判断支援の自動化
・LMを用いた運用ナレッジの整理・検索・活用の仕組みづくり
2.サービス信頼性の向上
・可用性・パフォーマンス・耐障害性を考慮したシステム設計・改善
・障害発生時の原因分析および恒久対応の実施
3.可観測性の設計・運用
・メトリクス/ログ/トレースを含む可観測性全体の設計・改善
・特定ツールに依存しない、可観測性の考え方・設計方針の整理
・サービス特性に応じた監視・アラート設計および運用改善
・運用データを活用した課題発見・障害予兆の検知
・クラウド、オンプレ双方のオブザーバビリティツール基盤(Datadog/NewRelic/Prometheus)の構築・運用
4.運用の標準化・自動化
・手作業に依存しない運用フローの設計・実装
・Runbookや運用手順の整備・改善
5.コスト最適化の推進
・クラウドリソースの利用状況の可視化
・コスト削減施策の立案・実装・全社展開
6.事業部・開発チームとの協業
・各事業のSRE/開発チームと連携した課題整理・改善提案
・共通基盤・共通指針の整備による組織全体の信頼性向上
【ポジションの魅力】
・特定のプロダクトに閉じず、横断的な視点でSREに取り組める
・可観測性・自動化・コスト最適化といったSREの王道領域をしっかり経験できる
・AI活用は「必須スキル」ではなく、現場課題から自然に使うフェーズ
・仕組みを作って終わりではなく、全社に広げ、定着させるところまで関われる
|
|
求める人材
|
◯必須条件
・Webサービスにおける 信頼性・可用性を意識した運用経験
・障害や性能劣化に対し、事象の切り分けから恒久対応まで主導した経験
・メトリクス/ログ/トレースを用いた 状態把握および原因分析の経験
・監視・アラートを運用負荷の観点で設計・改善した経験
・運用上の判断や対応を 再現可能な形で言語化・定着させた経験
・アプリケーションまたは運用ツールの開発経験
【インフラ関連使用技術一例】
・AWS、GCP
・PHP、Python、Go
・GitHub、CircleCI、Terraform、NewRelic、Datadog
・Confluence, JIRA, Slack
【PC】
・Mac(JIS配列 or US配列) 、Windows(JIS配列) から選択可能
◯歓迎条件
SRE・基盤領域
・SREまたはそれに準ずる立場での業務経験
・クラウド環境における 設計・運用・変更管理の経験
・Infrastructure as Code を用いた 構成管理・運用の体系化
・可観測性基盤の設計・刷新・改善に関わった経験
AI・LLM活用
・LLMやAIを用いた 業務改善・運用効率化の実践経験
・運用データ(ログ・メトリクス等)を入力としたAI Agentの開発経験
・分析・要約・判断支援の仕組みを設計・実装した経験
・APIやSDKを用いて、AIを既存システムや運用フローに組み込んだ経験
|
|
勤務地
|
港区六本木3-2-1 住友不動産六本木グランドタワー24F
|