본문 바로가기
Python/opentutorials(Machine Learning)

3. Start Machine Learning

by Thinking 2021. 7. 17.

오늘날 아이디어를 현실화하기 위해서는 데이터가 필요합니다. 현실을 데이터로 표현할 수 있다면, 컴퓨터의 엄청난 힘으로 데이터를 저리 할 수 있게 됩니다. 그 처리 방법 중의 하나가 Machine Learning 입니다.  Machine Learning으로 무엇인가 하려면 당연히 데이터가 필요합니다. 현실을 데이터화 할 수 있다면, 복잡한 현실에서 발견하기 어려운 통찰을 단순해진 데이터로부터 찾아낼 수 있을 것입니다. 이를 통해 현실을 변화시키는 일을 하는 것이 '데이터 산업' 입니다. 

 

데이터 산업은 크게데이터 과학(Science)과데이터 공학(Engineering)으로 분리해볼 수 있습니다.

데이터 과학 - 데이터를 만들고, 만들어진 데이터를 이용하는 일을 합니다.

데이터 공학 - 데이터를 다루는 도구를 만들고, 도구를 관리하는 일을 합니다. 이 둘은 구분되는것 처럼 보이지만 한쪽이 없으면 다른 한쪽이 존재할 수 없기 때문에 사실은 하나라고 봐도 괜찮습니다.

 

인류가 만든 시각화 도구 중 위대한 것이라고 한다면 라고 답해도 무방 할 것이다. 복잡한 데이터라도 일단 표 안에 넣는다면, 단정하게 정리 정돈할 수 있습니다. 여기에 Machine Learning을 투입한다면 인간만이 지닐 수 있다고 여겼던 통찰력을 기계도 발휘할 수 있습니다.

그래서 데이터 산업에 입문하기전에 표에 대해 이해하는 것이 중요한데 표는 보통 아래처럼 생겼습니다.

 

 

 

 

가로를 ‘행’이라고 하고, 세로를 ‘열’이라고 합니다. 표는 데이터들의 모임입니다. 그래서 표를 데이터 셋(data set)이라고도 부릅니다.

데이터 산업에서는 행과 열이라는 표현 대신 다른 표현을 사용합니다.

 

 

 

 

 

 

o 행(row)

  • 개체(instance)
  • 관측치(observed value)
  • 기록(record)
  • 사례(example)
  • 경우(case) 

o 열(column)

  • 특성(feature)
  • 속성(attribute)
  • 변수(variable)
  • field

현업에서는 맥락에 따라서 위의 표현들을 섞어서 사용합니다. 데이터 분야가 어렵게 느껴지는 이유 중의 하나일 것 입니다.
위의 표를 자세히 보면 개체를 행에 적고, 그 개체의 특성을 열로 구분하고 있습니다. 이것을 이해하는 것이 데이터 분야에 입문하는
가장 중요한 출발이라고 할 수 있습니다.

 

 

독립 변수와 종속변수

 

데이터를 표에 가두는 것만으로는 부족합니다. 표 속에 구속된 데이터에서 의미 있는 정보를 뽑아낼 수 있어야 합니다. 이에 능한 사람을 통찰력이 있다고 하는데 통찰력이 있는 사람이 되기 위해서는 대가가 필요합니다. 그것은 독립변수와 종속변수라는 말의 의미를 이해하는 것입니다.  독립 변수 - 원인이 되는 열 ,종속 변수 = 결과가 되는 열. 변수(variable)는 '변할 수 있는'이라는 뜻이랍니다. 누군가 표에 대해 이야기할 때 변수를 언급하면 그것은 열을 이야기하는 것입니다.

 

 예를 들어 온도가 20도일 때 40잔이 팔렸다.’ 여기서 원인은 온도 20도이고 결과는 판매량 40잔입니다. 잘 생각해보면 원인은 결과와 상관없이 일어나는 사건입니다. 판매량 때문에 온도가 달라질 리가 없잖아요? 결과에 영향을 받지 않는 독립적인 사건입니다. 하지만 결과는 원인에 종속되어서 발생한 사건입니다. 그래서원인은 독립적이기 때문에 ‘독립변수’,결과는 원인에 종속되어 있기 때문에 ‘종속변수'라고 합니다.

 

 

 

 

 

표에 있는 특성(열)들 중에서 서로 상관있는 특성은 무엇이지?, 서로 상관있는 특성들은 이런 경향이 있습니다. 한쪽의 값이 바뀌었을 때, 다른 쪽의 값도 바뀐다면, 두 개의 특성은 ' 서로 관련이 있다'라고 추측할 수 있습니다. 이때 두 개의 특성을'서로 상관이 있다'고 합니다. 그리고 이런 관계를'상관관계'라고 합니다.

 

 

 

 

 

좀 더 자세히 살펴보면 온도와 판매량 사이에 보다 미묘한 관계가 있는 것을 관찰할 수 있습니다. 옆의 사실을 종합하면 '온도'는 '원인'이고, '판매량'은 '결과'라고 할 수 있습니다. 이렇게 각 열이 원인과 결과의 관계일 때 인과관계가 있다고 합니다. 상관관계와 인과관계는 비슷한 듯 하지만 중요한 차이가 있는데, 상관관계가 인과관계를 포함한다는 것입니다. 즉 모든인과관계 상관관계입니다.

 

하지만 모든 상관관계는 인과관계인 것은 아닙니다. 특성들 사이 관계 파악은 어렵고, 조심스러운 작업이기 때문에 적은 수 의 데이터를 가지고 상관관계가 있다고 단정하는 것은 위험한 일입니다.

 

 

https://opentutorials.org/course/1

 

'Python > opentutorials(Machine Learning)' 카테고리의 다른 글

6. Finished Machine Learning  (0) 2021.07.20
5. Machine Learning Types  (0) 2021.07.19
4. Machine Learning Types  (0) 2021.07.18
2. About Machine Learning  (0) 2021.07.16
1. About Machine Learning  (0) 2021.07.15