데이터 분석가 Damla's blog

데이터관련 직무 알기_데이터 분석가, 사이언티스트, 엔지니어란? 본문

성장 | 생각 기록

데이터관련 직무 알기_데이터 분석가, 사이언티스트, 엔지니어란?

DA Damla 2023. 2. 4. 22:03

데이터 관련한 직무가 새로이 생기고 있고 빅데이터에 대한 관심이 증가하면서 직무에 대한 관심도 증가하고 있다.

그럼에도 불구하고 그 많은 직무가 실제 하는 역할에 대해서 어렴풋이 알고는 있지만 정확하게는 알지 못하는 경우가 더 많을 것이다. 그래서 데이터와 관련된 직무 3가지를 정리해 보았다.


데이터 분석가 (Data Analyst, DA)

-> 데이터를 분석, 정리하여 데이터 의사결정을 돕기 위한 정보 전달을 하는 역할

보고서를 만들어서 전달하거나 분석한 내용을 요약 전달하여 의사결정을 돕는다.

 

데이터 사이언티스트 (Data scientist, Machine/Deep learning Engineer의 역할도 포괄한다, DS)

-> 비즈니스 운영에 필요한 문제를 정의하고, 문제를 해결하기 위해 데이터 분석 모델을 만드는 역할을 한다.

 

데이터 엔지니어(Data engineer, DE)

-> 내, 외부 원천 데이터를 수집, 가공, 적재하여 데이터를 흐르게 하기 위한 파이프라인 즉, 인프라를 설계, 구축하는 역할을 한다.

 

세 가지 직무의 차이점은 어떤 업무를 중심적으로 하느냐에 따라 달라진다. 

위 직무별 역할에 대한 정의에서도 알 수 있듯이, DA는 데이터 분석을 위주로 업무를 하고 DE는 데이터 파이프라인 구축을 위한 인프라 구축을 위주로 하는 냐에 따라 역할이 구분된다.

 


인터넷이 발달하고 SNS 사용이 일상화 되면서 너무도 당연하게도 시시각각 데이터가 생성되고 적재된다. 이제 성공적인 비즈니스 운영을 위해서는 이러한 데이터를 어떻게 활용이 필수적이기 때문에 기업에서는 데이터 분석가부터 엔지니어까지 채용을 확대하고 있는 것으로 해석할 수 있다. 

 

첫 번째로 데이터 분석가 (DA)의 경우 다른 직무에서도 데이터를 많이 활용하고 사용한다면 데이터 분석가라는 직무로 변경할 수도 있다.

 

데이터 분석가가 되기 위해 석박사를 취득하는 것보다 더 중요한 능력을 꼽자면,

아래 2가지 기술이다.

 

1. 데이터 추출, 데이터 정제를 위한 기술: 툴 사용 기술 _ SQL, 파이썬(기초), 엑셀

2. 1번을 통해 정제 및 처리된 데이터를 분석할 수 있는 지식 & 능력

     1) 도메인 지식

     2) 통계적 지식

 

두 가지 중에서 DA로서 가장 중요한 역량이  '데이터를 분석할 수 있는 지식 & 능력'이기 때문에  다른 직무를 오래한 분들이 데이터를 활용하고 있고 그러한 경험이 있는 분들이 강의를 하면서  '데이터 분석가'의 이야기보다는 데이터를 활용하는 기획자(기존 직무명)라는 내용의 콘텐츠를 쉽게 온라인에서 찾을 수 있는 것이라고 생각한다.


두 번째로 데이터 사이언티스트(DS)는 대체로 석박사를 취득한 분들이 연구원으로 해당 직무의 역할을 한다. 물론 석박사 없이도 해당 지식이 풍부하고 역할을 수행할 수 있다면 지원할 수 있겠지만 지금까지 대체로 석박사 과정을 거쳐 사이언티스트라는 직무를 가질 수 있을 정도로 머신러닝, 딥러닝 영역이 매우 지식이 많이 필요하고 공부가 필요한 영역이다. 그래서 데이터분석가가 되거나 취업하기 위해서 대학원 진학이 필요한지 질문을 하는 사람이 많은 것이라 생각된다.


세 번째로 데이터 엔지니어(DE)는 데이터를 쉽게 활용할 수 있도록 환경을 만들어주는 사람이라고 재정의 내릴 수 있다. 앞서 언급한 DA와 DS가 업무를 더 효율적이고 쉽게 할 수 있도록 지원을 하는 역할이라고도 할 수 있다. 모든 회사 내 구성원들이 데이터와 가까워지고 쉽게 데이터 기반 의사결정을 할 수 있도록 지원하는 역할을 말한다.

 

데이터를 수집(Extract), 가공(Transform), 적재(Load)하는 역할을 수행한다 다시 말해 ETL업무(데이터를 먼저 저장한다 -> 저장한 데이터를 변형한다)를 핵심적으로 수행하는 것이다.

 

경험에 의하면 저장할 수 있는, 저장하고 싶은 데이터는 정말 무수히 많을 것이고 필요성을 생각하면 발생하는 모든 내용에 대한 모든 데이터를 적재하고 싶을 것이다. 하지만 활용은 전혀 다른 얘기이다. 적재를 계획 없이 하게 되면 1초, 1분마다 발생하는 엄청난 양의 빅데이터가 적재되어야 할 것이고 그것을 적재해 놓는 비용은 어마어마할 것이다. 그것을 합리적이고 효율적으로 하는 것이 데이터 엔지니어의 역할인 것이다.

 

사실 우리 주변에서 사용하는 수많은 서비스들 중에서 데이터 적제를 위해 아마존과 같은 클라우드 회사에 엄청난 규모의 비용을 지불하지 않는 서비스를 찾는 것이 더 어려울 것이다. 

 

이에 대해 데이터 엔지니어는 데이터 파이프라인을 운영하고, 모니터링하는 역할도 수행한다.