Jobs / CoorsTek

Software Site Reliability Engineer

Apply Now

CoorsTek · Golden, CO, United States

Golden, CO, United StatesExp: 5+ yrs115,000-155,000 USD/yearlyOnsite

Apply Now

Remuneration

115,000-155,000 USD/yearly

Location

Golden, CO, United States

Visa sponsorship

No visa sponsorship

Requires U.S. Person status (U.S. citizen, a Green Card holder, or a protected refugee/asyee)

Job summary

The Software Site Reliability Engineer supports CoorsTek's Databricks application and data product strategy. This role ensures solutions built, migrated, and deployed on Databricks are reliable, secure, observable, supportable, and cost-effective in production. Responsibilities include developing automation, platform tooling, deployment pipelines, observability capabilities, and reliability solutions to reduce operational toil and improve scalability. The engineer will also contribute to improving support patterns, monitoring standards, deployment practices, runbooks, incident response, and operational guardrails for Databricks solutions.

Qualifications

Bachelor's degree in Computer Science, Information Technology, Data Engineering, Software Engineering, Systems Engineering, or a related field.
Master's degree preferred.
5+ years of progressive experience in site reliability engineering, data platform engineering, cloud operations, DevOps, software engineering, data engineering, or production application support.
3+ years supporting cloud, data, analytics, application, or platform services in production environments preferred.
Experience with Databricks, Delta Lake, Unity Catalog, SQL, Python, PySpark, notebooks, jobs/workflows, SQL warehouses, clusters, or lakehouse architecture.
Experience operating applications through incident management, problem management, change management, monitoring, release management, and production readiness practices.
Preferred experience with Azure, CI/CD pipelines, Git-based development, infrastructure patterns, logging, alerting, automation, and support runbooks.
Preferred experience supporting data pipelines, analytics products, dashboards, APIs, AI-enabled applications, or business-critical reporting environments.
Strong understanding of SRE, DevOps, IT operations, and production support practices, including reliability, observability, automation, incident response, and operational excellence.
Working knowledge of Databricks platform capabilities, including Delta tables, notebooks, workflows/jobs, SQL, Unity Catalog, lineage, permissions, compute configuration, and governed access patterns.
Ability to troubleshoot Databricks jobs, pipelines, notebooks, SQL queries, permissions, data refreshes, performance issues, and environment or integration failures.
Ability to write and review SQL and Python; PySpark, scripting, API, and automation experience preferred.
Ability to define operational readiness standards for applications created by citizen developers, IT teams, consultants, and data engineering teams.
Strong understanding of monitoring, alerting, logging, service health, SLOs, runbooks, release controls, rollback planning, and root cause analysis.
Ability to balance speed, business enablement, cybersecurity, supportability, cost control, and long-term platform sustainability.
Ability to partner effectively with Data & Analytics, Cybersecurity, Architecture, Infrastructure, Enterprise Applications, Manufacturing IT/OT, and business stakeholders.
Strong documentation and communication skills, including support models, knowledge articles, architecture notes, production checklists, escalation paths, and operational dashboards.
Ability to manage multiple production priorities, operate calmly during incidents, drive follow-through on corrective actions, and influence teams without direct authority.

Responsibilities

Support production reliability, operational readiness, and lifecycle for Databricks-hosted applications, data products, dashboards, notebooks, jobs, workflows, APIs, and AI-enabled solutions.
Support applications migrated to Databricks, built directly in Databricks, or promoted from citizen development and IT development into governed production patterns.
Execute intake, review, handoff, support, and release practices for Pattern B Databricks applications, including minimum requirements before production deployment.
Partner with developers, architects, and stakeholders to convert prototypes into reliable, monitored, documented, and supportable services.
Implement and maintain observability standards, including logging, alerting, health checks, SLIs/SLOs, lineage, usage monitoring, cost monitoring, and operational dashboards.
Respond to incidents, coordinate troubleshooting, participate in root cause analysis, and support corrective actions for failures.
Maintain and update runbooks, support procedures, escalation paths, ownership models, service catalogs, and knowledge articles for Databricks applications and data products.
Partner with Data & Analytics on Databricks workflows, Delta Lake, Unity Catalog, data lineage, permissions, SQL warehouses, jobs, clusters, serverless capabilities, and performance tuning.
Partner with Cybersecurity and Architecture to ensure Databricks solutions meet standards for identity, access, secrets management, logging, data classification, responsible AI, and least-privilege access.
Support CI/CD, testing, environment promotion, release controls, rollback procedures, and change management for Databricks applications and related Azure or integration components.
Identify recurring failure patterns and assist with automating manual support work, reducing operational toil, and creating reusable templates and standards.
Advise teams on production-ready design, including resiliency, scalability, maintainability, cost control, data quality checks, monitoring hooks, and clear ownership.
Collaborate with business teams to understand impact, prioritize recovery, and maintain trust in critical Databricks-supported solutions.
Support governance for citizen-built solutions by ensuring appropriate documentation, testing evidence, security review, support model, and IT transition plan.
Monitor and problem solve service health, support metrics, incidents, problem records, platform risks, and improvement backlog items for Databricks applications and data products.
Design and develop automation, self-healing workflows, monitoring integrations, and operational tooling using Python and cloud-native technologies.

Skills

AzureDatabricksGitGitHubKubernetesPythonTerraform

Certifications

Databricks Data EngineerDatabricks Data AnalystDatabricks Machine LearningDatabricks Lakehouse FundamentalsMicrosoft Azure CertificationsDevOps CertificationsCloud Engineering CertificationsCybersecurity CertificationsITIL CertificationsSRE CertificationsObservability CertificationsData Engineering CertificationsITIL FoundationAzure AdministratorAzure DeveloperGitHub Certifications

Degrees

Bachelor's degree in Computer ScienceBachelor's degree in Information TechnologyBachelor's degree in Data EngineeringBachelor's degree in Software EngineeringBachelor's degree in Systems EngineeringMaster's degree

Relocation

Apply Now