PGR21.com
- 자유 주제로 사용할 수 있는 게시판입니다.
- 토론 게시판의 용도를 겸합니다.
Date 2021/06/06 21:56:15
Name 나리미
Subject 알파고 이후 5년, 머신러닝은 어느 단계에 와 있는가 (수정됨)
알파고 이후 5년이 지난 지금 머신러닝은 어디쯤 와 있을까요
그나마 근접한 답을 하자면 미국 테크 회사들의 사업 중 여기저기에서 안 쓰이는 곳을 찾기 힘들 정도로
광범위하게 스며들었다고 봐도 될 듯 합니다.

2020년즈음부터는 DevOps에 대응하는 MLOps, 그러니까
머신러닝 개발자와 소프트웨어 개발자, 스테이크홀더간 소통, 협업 및 통합과 관련된
개발 인프라 및 문화에 대한 방법론이 자리잡기 시작하고 있습니다.

현재 산업에서의 머신러닝 적용은 다음과 같이 이루어집니다.

1. 프로젝트 목표 설정
- 프로젝트의 범위와 목표, 평가 기준, 스테이크홀더의 이해 관계를 수립합니다. 할당할 인적/물적 자원을 산정합니다.

2. 데이터 관리
- 데이터를 처리, 제어, 저장, 가공합니다. 스케일러블하고 신뢰성/가용성/접근성 높은 ML 인프라를 만듭니다.

3. 머신러닝 모델 개발
- 데이터로부터 피쳐를 가공하고, 모델을 학습시키고, 최적화하고, 평가합니다.

4. 머신러닝 모델 배포
- 열심히 만든 모델을 사용자에게 배포합니다.

5. 관찰 및 관리
- 모델의 성능을 모니터링한 뒤 성능 감퇴와 유저의 묵시적/명시적 피드백 등에 대해 대처해 업데이트를 빈번하게 수행합니다.

6. 비즈니스적 분석
- 머신러닝의 효과를 비즈니스적 관점에서 얼마나 수익과 연결되어 있는지 평가하고 분석해 필요시 개선합니다.


머신러닝이 산업에서 적용되고 있는 여러 케이스를 링크해봅니다.

1. 에어비엔비에서의 가격 예측
https://medium.com/airbnb-engineering/using-machine-learning-to-predict-value-of-homes-on-airbnb-9272d3d4739d

2. 넷플릭스에서 스트리밍 퀄리티 실시간 개선
https://netflixtechblog.com/using-machine-learning-to-improve-streaming-quality-at-netflix-9651263ef09f

3. 패션 앱에서 소비자 경험 개선
https://medium.com/hackernoon/how-we-grew-from-0-to-4-million-women-on-our-fashion-app-with-a-vertical-machine-learning-approach-f8b7fc0a89d7

4. 배달 루트 최적화
https://tech.instacart.com/space-time-and-groceries-a315925acf3a?gi=36059df1071f

5. 노래 추천
https://hackernoon.com/spotifys-discover-weekly-how-machine-learning-finds-your-new-music-19a41ab76efe

6. MLOps 인프라 : Weights & Biases
https://wandb.ai/site


머신러닝 학계와 산업계와의 간극을 메우기 위한 시도들이 성공적으로 자리잡아 간다고 볼 수 있고,
머신러닝의 산업에의 적용은 이제부터 시작이라고 이야기하면 적절할 것 같네요.


통합규정 1.3 이용안내 인용

"Pgr은 '명문화된 삭제규정'이 반드시 필요하지 않은 분을 환영합니다.
법 없이도 사는 사람, 남에게 상처를 주지 않으면서 같이 이야기 나눌 수 있는 분이면 좋겠습니다."
jjohny=쿠마
21/06/06 22:09
수정 아이콘
AI/머신러닝 분야의 이야기를 간접적으로 접하는 직군에서 일하고 있는데,
지금이라도 AI 분야로의 전직을 준비해야 되는 거 아닌가 하는 생각이 종종 들 정도로 무시무시합니다...
21/06/06 22:10
수정 아이콘
1. 프로젝트 목표 설정

요 부분 자동화에 대해, 관심이 많은데 혹시 추천해주실만한 사례가 있을까요?
그리고 혹시 아신다면 해당해서 개발 진행 중인 소프트웨어가 있는지도 궁금합니다.
나리미
21/06/06 22:13
수정 아이콘
그런 것을 자동화하는 것은 불가능합니다. 스테이크홀더의 이해관계와 ML 모델의 퍼포먼스를 연결시켜야 하기 때문입니다.

예를 들어 유튜브에서 추천 시스템을 디자인할 때의 최우선 고려 요소는 expected watch time, 그러니까 기대 시청 시간입니다.
이것은 유튜브가 사용자가 동영상 시청 중 뜨는 광고로 돈을 벌기 때문입니다.
만약 유튜브가 돈을 버는 수익원이 동영상 시청 중 뜨는 광고가 아니라 옆에 배너처럼 주렁주렁 다는 광고로 돈을 번다면 이야기가 달라질 것입니다.

때문에 회사의 수익원이 어디서 나는지를 다이렉트로 고려해야 하는 문제이므로 자동화는 불가능하겠습니다.
그게 된다면 진짜 강인공지능이죠.
21/06/06 22:39
수정 아이콘
아 제가 글을 제대로 안읽었네요. 설명해주셔서 감사합니다 !
깃털달린뱀
21/06/06 22:15
수정 아이콘
AI에 대한 대중의 인식은 '빛이 있으라'였지만 결국 AI라고 불리는 기술도 도구일 뿐이죠. 그렇지만 굉장히 유용한.
상상했던 것 이하라고 해도 그건 상상이 지나쳐서 그랬던 거지, 무용론을 외치는 건 너무 나간 거 아닐까 이정도로 생각합니다.
나리미
21/06/06 22:16
수정 아이콘
공부 더 많이 해야 하고 데이터와 인력 많이 들어가고 디버깅하기 더 어렵지만 특정 목적에 대해서는 효과 탁월한 SW 툴이죠.
21/06/06 22:18
수정 아이콘
검색, 광고, 추천 같은 분야에서는 메트릭을 조금만 올려도 비즈니스적 가치가 어마어마한데 이미 이 분야랑 머신러닝을 뗄레야 뗄 수가 없습니다.
왠만한 서비스를 사용하는 것은 계속 AI에 데이터를 제공하고 또 그 결과에 노출되는 것과 같습니다.
21/06/06 22:20
수정 아이콘
음성 텍스트는 Attention 트랜스포머가 이미 확립됐고 비전쪽 또한 트랜스포머로 바뀌는 추세죠. 이에 따른 멀티모탈이 곧 완성될 겁니다.
나리미
21/06/06 22:23
수정 아이콘
본문의 3. 머신러닝 모델 개발에서 어떤 모델을 선택할 것인가에 대한 문제는 이미 대 트랜스포머의 시대 이후
회사들에서는 그냥 state of the art 모델 중 최대한 구현하기 간단한 거 갖다쓰고 있고,
모델을 최대한 레이턴시 적고 쓰루풋 높고 가용성/신뢰성 높은 서비스로 제공하는 노하우들이
학계에서 머신러닝 이론에 집중해서 얻는 0.몇프로 성능 개선보다 더 중요한 단계에 이르렀다고 봅니다.

이렇게 보면 기존 스케일러블 소프트웨어 시스템 설계와 그닥 다를것도 없지요.
리자몽
21/06/06 22:26
수정 아이콘
(수정됨) 이쪽 관련해서 안그래도 요즘 어느 수준인지 궁금했는데 요약 정리 해주셔서 감사합니다

기계를 매일 접하는 입장에서 하드웨어-소프트웨어 연결되는 분야는 여전히 발전이 느린데

하드웨어 없이 소프트웨어로 해결 가능한 분야들의 발전속도는 제 예상과 생각을 초월할 정도로 빠르게 발전하는거 같습니다

p.s. 한가지 궁금한게 현재의 AI 시스템은 발전속도가 빠른만큼 한계도 보일꺼 같은데 (강인공지능으로 못가면 약인공지능은 한계가 뚜렷한 걸로 알고 있습니다) 이 부분에 대해서는 어떻게 생각하시나요?
나리미
21/06/06 22:28
수정 아이콘
(수정됨) 그렇지만 머신러닝의 발전은 하드웨어의 발전이 이끌었다고 봐도 될 것 같습니다.
뉴럴넷의 개념이 나온건 알파고 나왔을 때보다 수십년도 더 전이지만
뉴럴넷을 학습시킬 수 있게 만든 압도적 연산량을 제공하는 최신 하드웨어 없이는 아무 쓸모가 없어서
2010년대 중반까지 빛을 못 보고 있었으니까요.

추가 질문 주신 것에 대해서는

[공부 더 많이 해야 하고 데이터와 인력 많이 들어가고 디버깅하기 더 어렵지만 특정 목적에 대해서는 효과 탁월한 SW 툴이죠.]
윗댓으로 갈음합니다.
리자몽
21/06/06 22:29
수정 아이콘
제가 말한 하드웨어는 공장 장비 등이고 서버 및 센서, 통신 하드웨어는 이름은 같은 하드웨어지만 조금 다른 분야 같네요 :)

말씀하신대로 부분의 발전이 있었기 때문에 지금의 머신러닝이 실적용 가능한거 같습니다
아케이드
21/06/06 22:35
수정 아이콘
(수정됨) 약 인공지능 만으로도 지금까지 유래가 없었던 훌륭한 툴들을 만들수 있는데 한계가 뚜렷하다고 말하는건 어폐가 있다고 봅니다.
알파고나 파파고 번역 같은 것만 봐도 AI기술이 없었다면 이 정도 퀄리티의 툴은 만들기 어렵죠
강인공지능은 그냥 인간을 대체하는 수준이라 논외구요.
개인적으로 강인공지능은 '인간이 만들어낸 신'의 범주까지도 갈수 있다고 봅니다.
어름사니
21/06/06 22:44
수정 아이콘
특히 컴퓨터비전 쪽 발전 속도는 무시무시하죠. 지금은 유튜브에서 이상한 영상을 만드는데 주로 쓰이는 딥페이크만 해도..
쁘띠도원
21/06/06 23:01
수정 아이콘
ai 문외한이라 추천만 누르고 갑니다...
성야무인
21/06/06 23:10
수정 아이콘
2번과 3번이 AI런닝 들어가기 전에

수직업으로 해서 데이터 가공에 대한 방향을 제시해 줘야 하는 가장 핵심적인 스텝입니다.

이부분에 대해서는 그쪽의 전문가가 나서서 (이건 AI전문가쪽이 아니라 데이터를 실제 써야 하는 사람)

자세히 설명해 주지 않으면 실제 결과값이 엉망진창이 되는 경우가 많습니다.

특히 의학쪽이 그러하구요.
나리미
21/06/06 23:15
수정 아이콘
그렇죠 도메인 익스퍼트들이 참 중요합니다.

도메인 익스퍼트들의 중요성은 다른 분야들이 의학에 비해 그리 떨어지지는 않는데
의학쪽 선생님들은 몸값이 훨씬 비싼게 문제..
성야무인
21/06/06 23:32
수정 아이콘
이번에 학회지에 낸거 앰바고 6월 25일에 풀리면 데이터 모아서

자게에 한번 써볼려고 합니다.
이정재
21/06/07 00:38
수정 아이콘
스타2에서는 혁신이안되어서 실망...
첫걸음
21/06/07 06:08
수정 아이콘
관련 업계에 있는데 아직 입문 수준이라서 그런지 ML 비용 대비 최대 효율을 끌어내기가 힘든 분야 같긴합니다
빅데이터를 수집 정제하고 ML 모델 적용이 해당 도메인 리더가 목표를 정확히 알아야하는것 그러한 인사이트에 문제가 있으면 결과도 정확하지 않고 개인정보 수집 문제 등의 추가적인 비용이 많이 들어서 애매한 부분이 큽니다...
이러한 시행착오가 쌓여서 좋은 데이터가 나오는것이겠지만 비용이 어마무시하긴 하네요.
리자몽
21/06/07 09:20
수정 아이콘
빅데이터 수집 및 가공부터 많은 인력과 돈이 들어가니까요

그래서 AI쪽도 규모의 경제 문제 떄문에 FAANG 같은 대기업 주도 현상이 더 심해질꺼 같습니다
21/06/07 09:49
수정 아이콘
그나저나 알파고가 벌써 5년이나 됐군요...
몽키매직
21/06/07 09:51
수정 아이콘
데이터의 객관화가 쉽고 양이 많은 부분은 적용이 쉬운데, 인간와 상호작용을 해야 되는 부분은 처음부터 러닝 시작하는 방법으로는 무리고, 기계가 해석할 수 있도록 데이터를 가공하는 노가다가 필요하거나 한 경우가 많아서 지금 시점에서 적용이 가능한 부분과 어려운 부분이 비교적 명확합니다. 적용이 어려운 부분중 하나가 의료인 것이고... (거기에 책임소재가 자율주행 등과 비교해서 훨씬 무거운 분야이기도 하고...)

제 생각에는... 일단 인간의 관점에서 데이터를 이해하고 처리할 수 있으려면 사회화 학습 AI 가 먼저 나온 이후에 해당 분야들에 적용될 수 있을 것 같습니다. 매번 그런 부분을 처음부터 머신러닝하는 건 비효율적이기도 하거니와, 비인간적인 결론/결정을 내리는 경우도 종종 있어서요...
21/06/07 11:22
수정 아이콘
제조업 분야에서 ML을 적용해보고 있는데, 가장 큰 문제는 데이터 정제도 아니고 수집 분야입니다. 측정기의 일관성이 보장되지 않고, 같은 기계라도 1호기, 2호기에서 나오는 데이터가 미묘하게 다른데 이런 수치화 단계에서부터의 차이가 전체 빅 데이터 수준에서 무시할 수 없는 불일치를 만들고 성능을 끌어내립니다. 확장성에도 문제가 생기고 이걸 해결하려면 개별 호기마다 보정필터를 만들거나 전체 측정기를 같은 측정치를 내도록 변경해야 하는데 이건 다른부서 일이고..
인터넷 산업의 경우엔 원 데이터가 하드웨어 종속적이지 않아서 좀더 다루기 유용하겠네요. 이쪽은 유해요소들을 거르는게 함정이고...
툴로서의 ML은 모델은 어찌됐든 입력 데이터를 어떻게 확보하냐가 훨씬 중요한 거로 생각이 됩니다. 사람처럼 문화적인 학습이나 선긋기가 안된다는 점이 문제인데 언젠간 가능하겠죠
티모대위
21/06/07 14:33
수정 아이콘
머신러닝에 대한 본래 대중의 인식은, 어느 것이든 사람처럼 해내는 만능열쇠였겠으나
이제는 관련분야에 인접한 분들은 많이들 느끼고 있을거에요. 머신러닝을 제대로 쓰려면 대상이 되는 분야에 잘 들어맞도록 온갖 작업을 해줘야 한다는 것을요... 그래서 모든걸 사람처럼 알아서 배우고 실행하는 인공지능의 등장은 생각보다도 더 멀게 느껴지는 반면에
그 '만능 인공지능'에 대한 미련을 버리고 각자의 분야에 집중적으로 머신러닝을 적용한 결과 지금 상당히 많은 영역에 퍼져있는듯 하네요.
21/06/11 12:18
수정 아이콘
늦었지만 댓글 답니다. 롤에 이 기술을 적용 시키면
얼마나 정교하고 정확하게 매칭 되는지 궁금하네요.
나리미
21/06/11 20:15
수정 아이콘
팀플레이 온라인 비디오 게임의 매칭 관련해서는 꽤 오래전에 연구가 된 주제입니다.

https://www.microsoft.com/en-us/research/project/trueskill-ranking-system/#!publications
위 알고리즘이 참고하기 좋은 듯 합니다.
(업계에서 제일 유명한 멀티플레이어 게임 매칭 알고리즘이 저거고 라이엇이 실제로 롤에서 이거를 쓰는지는 모릅니다.)
21/06/11 21:41
수정 아이콘
제가 봤을 때 롤 elo 매칭 시스템은 좀 불합리 한 것 같고 조금 더 정확하고 합리적인 매칭 프로그램이 있으면
좋을 것 같아서 댓글 달았습니다. 이 시스템을 채용 하는 다른 게임에서 얼마나 공정하고 합리적으로 운영이
되는지 알 수 없어서 아쉽네여.

(링크 본문에 예를 든 헤일로5 같은 경우는 문서가 거의 없어요 ㅠㅠ 나온지 오래되기도 했고...
게다가 링크 문서는 18년도 작성인데 헤일로5는 15년 출시된 게임이라 의아하기도 하고요.)

댓글 달아주셔서 정말 감사합니다.
목록 삭게로! 맨위로
번호 제목 이름 날짜 조회 추천
100922 러시아 정치인 알렉세이 나발니 옥중 사망, 향년 47세 [31] 된장까스7370 24/02/16 7370 3
100920 ITZY의 UNTOUCHABLE 커버 댄스를 촬영해 보았습니다. :) [2] 메존일각2220 24/02/16 2220 3
100919 22대 총선 선거구 획정 지금까지의 상황 정리 [29] 아우구스투스6841 24/02/16 6841 0
100918 윤석열 대통령 카이스트 졸업식 축사 도중 끌려 나가는 카이스트석사졸업생 [338] 면역23370 24/02/16 23370 0
100917 데이터로 바라본 의대 증원과 우리나라 의료 환경의 미래 [94] 여왕의심복17363 24/02/16 17363 0
100916 '건국전쟁' 흥행몰이 계속…곧 50만명 돌파 [250] 핑크솔져11515 24/02/16 11515 0
100915 당내 내분 소식이 외부로 퍼져나오고 있는 개혁신당 +@ [114] 매번같은8807 24/02/16 8807 0
100914 정부, 집단연가 사용불허·필수의료 유지명령 "사후구제·선처없다" [152] 시린비8960 24/02/16 8960 0
100913 일본과 미국의 의료인력 [29] 경계인6465 24/02/16 6465 21
100912 '빅5' 전공의 19일까지 전원 사직서 제출…20일 근무 중단(종합) [419] Pikachu9686 24/02/16 9686 0
100910 비..비켜 이건 내가 다 살 거야. (로얄 스타우트 시음기) [12] 대장햄토리5285 24/02/16 5285 5
100909 대한민국은 왜 살기 쉽지 않은가-연결 단절의 사회 [27] 프리템포6977 24/02/15 6977 0
100908 윤 대통령 독일 덴마크 갑작스러운 순방 연기와 후유증 [149] 빼사스11414 24/02/15 11414 0
100907 한림대 의대 4학년 '동맹휴학'…"1년간 학업 중단, 함께해 달라" [274] 시린비14412 24/02/15 14412 0
100906 오늘자 민주당 및 국민의힘의 공천 현황 [121] 아우구스투스11040 24/02/15 11040 0
100905 고려거란전쟁 중간 리뷰 [24] 드러나다6199 24/02/15 6199 13
100904 MS의 새 아웃룩을 사용하려면 엣지가 설치되어 있어야 함 [23] SAS Tony Parker 5579 24/02/15 5579 1
100903 <해피 투게더> - '해피', '투게더'. 가깝고도 멀다. [11] aDayInTheLife2786 24/02/14 2786 3
100902 쿠팡이 기자들의 명단을 입수해 회사 블랙리스트에 등재시켰네요. [58] 버들소리10053 24/02/14 10053 8
100901 MLB 서울시리즈 첫날 시구를 일본 기시다 총리가 한다는 카더라가 돌고 있습니다. [79] 매번같은7956 24/02/14 7956 0
100900 드디어 기다리던 S24울트라 티타늄 오렌지 [14] 겨울삼각형7435 24/02/14 7435 1
100899 중국, 이르면 내년부터 탄소 배출량 감소 [108] 크레토스7454 24/02/14 7454 18
100898 대통령실, '명품백 정보공개 청구' 거부 통지‥"국가 중대 이익 해칠 우려" [65] 자칭법조인사당군9250 24/02/14 9250 0
목록 이전 다음
댓글

+ : 최근 1시간내에 달린 댓글
+ : 최근 2시간내에 달린 댓글
맨 위로