PGR21.com
- 자유 주제로 사용할 수 있는 게시판입니다.
- 토론 게시판의 용도를 겸합니다.
Date 2023/07/28 14:15:15
Name 고등어자반
Subject [일반] ChatGPT Code Interpreter 사용기
게시판에 올라오는 예쁜 처자들의 그림에서, 인공지능의 발달을 나날이 느끼고 있는 아재입니다.
그러던 중 ChatGPT에서 Code Interpreter라는 훌륭한 기능을 내어놓았다기에, 제가 하고 있는 연구에 이용할 수 있을까 싶어 한 번 시도해보았습니다. 이 과정에서 ChatGPT Code Interpreter의 기능에 크게 감명을 받았기에 감동을 나누고자 이 글을 씁니다. 아래는 ChatGPT와 작업한 실제 내용입니다.

DISCLAIMER: 저는 OpenAI 사에 매달 돈을 가져다 바치고 있습니다!
DISCLAIMER 2: 분석에 사용된 데이터는, 분석에 필요한 최소한의 내용만 담긴 익명화된 데이터였습니다.
----------------------------------------------------------------------------------------------------------------
글쓴이:
(csv 파일을 업로드한 후)
- 이거 통계를 돌릴 파일인데 한 번 봐주셈.
ChatGPT:
- 음, 님 데이터는 칸 나누기가 제대로 안 되어있어서 Pandas에 넣을 수 없음요. 똑똑한 나님이 알아서 tab문자로 칸을 나눠보겠음.
(혼자 열심히 일을 함)
- 휴, 이제야 좀 알아먹겠음. 이 파일에는 다음과 같은 컬럼들이 있음.
1. SN: A unique identifier or serial number for each entry
2. ID: Another unique identifier
3. Sex: The gender of the patient
4. Anti_usage: Indicates whether the patient is using antibiotics
5. DM: Indicates whether the patient has diabetes mellitus
6. Result: Bacterial species identified in microbiome, along with their relative proportions
...

*** (글쓴이 주) 데이터 컬럼에 대한 아무 설명도 해주지 않았는데, Anti_usage라는 컬럼명으로부터 항생제를 사용한 환자라는 해석을 끌어내는 걸 보고 첫 번째로 좀 놀랐습니다.

- 음, 다음으로 조금 더 들어가 봅시다. 명목변수와 수치변수, 결측치 및 명목변수 중 특이한 부분들을 보도록 하지요.

(혼자 열심히 일을 함)

- 고멘, 내가 실수를 했음 (데헷). 계산할 때 Numpy 라이브러리가 필요한데 임포트하는 걸 빼먹었음. 다시 하겠삼.

*** (글쓴이 주)  여기서 두 번째로 놀랐는데, 분석을 위해 사람이 일일이 무슨 라이브러리가 필요하다는 걸 지정해줄 필요가 없이 자기가 알아서 일을 합니다.

(또 혼자 열심히 일을 함)

- 짠. 이 데이터셋의 요약본임.

숫자화된 데이터 컬럼
-- 데이터셋에 1800행이 있음.
-- 나이 컬럼에서 가장 젊은 케이스는 19.1세, 가장 나이든 케이스는 88세

카테고리화된 데이터 컬럼
-- 세...섹스 컬럼은 F와 M으로만 구성됨. M이 가장 흔함.
-- 결과 컬럼에는 세균명 데이터로 구성되어 있는데, 620개의 고유한 값이 있음

결측치
--- 나이와 세...섹스 컬럼에 두 개의 결측치가 있음.

특이한 점
--- ID컬럼에 고유한 값이 920개가 있는데, 이걸로 미뤄보아 일부 ID에 중복이 있을 것으로 예상함.

*** (글쓴이 주) 여기까지가 어떠한 글쓴이의 개입도 없이 ChatGPT 혼자 북치고 장구치며 만들어낸 내용입니다. 저보다 나은 것 같아 조금 슬펐습니다.

(이후 몇 가지 분석에 관한 대화가 더 진행된 다음)

글쓴이:
- 알겠음. 그럼 Anti-Usage와 DM에 대한 표를 만들어주셈.
ChatGPT:
(혼자 열심히 일을 하더니 분할표를 던져줌)
- 응, 여기 있음.

글쓴이:
- (그런데 표를 좀 보기가 어려운데?) DM을 열 쪽으로 놓고 표를 만들어 주면 안 됨?
ChatGPT:
('아, 되게 찡찡대는구만'이라고 생각하며 열심히 일을 함)
- 오다 주웠다. 여기 행열 전환된 표 받아라.

*** (글쓴이 주) 아주 자연스럽게 행열 전환도 해줍니다.

글쓴이:
야, 그런데 데이터가 다 보이지 않잖아. 나님이 일일이 옮겨쓰지 않게 다운로드 안 됨?
ChatGPT:
(또 혼자 열심히 일을 하더니 csv 파일 링크를 던져줌)
- 옛다, 파일 받아라.

글쓴이:
너님이 준 파일을 봤는데 값 중에 'error'라는 게 보이는데? 난 이런 걸 넣은 적이 없는데 이건 뭐임?
ChatGPT:
(점잖게) 혼동을 드려 죄송합니다. 분할표 만드는 과정에서 오류가 있었을 수도 있으니, 원하신다면 원데이터의 해당 컬럼을 다시 점검해보겠습니다.

(혼자서 열심히 일을 함)

내가 마, 너님의 원데이터를 흝어보았는데, 앙, 'error'라는 문구가 분명히 있거등. 님 세상 그렇게 살지 마셈... 아, 아닙니다.

*** (글쓴이 주) 실제로 제가 미처 확인하고 제거하지 못한 'error'라는 데이터가 있었네요. 바로 제가 진상이었습니다.

글쓴이:
(손을 본 csv 파일을 던져주면서)
음, 그럼 수정한 이 파일로 똑같이 작업해주셈.
ChatGPT:
(똑같은 작업을 반복한 다음 csv 파일 링크를 던져줌)
- 옛다, 파일 또 받아라.

*** (글쓴이 주) 여기서 빵하고 터졌는데, 링크된 csv 파일이름이 '아까 올린 파일명-revised.csv'였습니다.

글쓴이:
(여기서도 오류가 발견되어 다시 손을 본 csv 파일을 던져주면서)
음, 이게 진짜 마지막이니 이걸로 똑같이 작업해주셈.
ChatGPT:
(똑같은 작업을 반복한 다음 csv 파일 링크를 던져줌)
- 한 번만 더 이러면 맞는... 아, 아닙니다. 파일 받으세요.

*** (글쓴이 주) 여기서 진짜 터졌는데, 링크된 csv 파일이름이 '아까 올린 파일명-final.csv'로 바뀌어 있었습니다.

글쓴이:
- 음, 그럼 Anti-usage와 DM2를 통계적으로 비교해 주셈.
ChatGPT:
- 음, 너님의 데이터 파일에는 DM2라는 컬럼 값은 없음. 아마도 (덜 떨어진) 너님이 DM을 착각한 것이겠지.
DM으로 가정하였을 경우 명목변수이므로 카이-스퀘어를 시도해 볼 수 있겠지만 카이-스퀘어 테스트는 순서 개념이 없는 명목변수를 다루는... (블라블라)

글쓴이:
- 미안. 나의 실수. 너님의 말이 옮음요.
ChatGPT:
- 빠른 인정 좋습니다. 그럼 제가 제대로 일을 해보겠습니다.
- 작업순서는 다음과 같음. (이하 블라블라)



대충 위와 같이 일이 진행되었는데 상당히 재미있는 경험이었습니다.

느낀 점 1: 아, 초보 데이터 분석가는 살아남기가 어렵겠구나.
느낀 점 2: 그래도 아직은 연구자가 원하는 걸 명확히 알고 있어야 방향이 어긋나지 않으니, 연구자의 기본적 통계에 대한 이해는 지금도 중요하구나.
느낀 점 3: api같은 것까지 동원할 필요가 없는 개인 연구를 위해서는 지금 정도의  ChatGPT 응답량 (3시간에 50개 질문)으로도 쓸 만하다.
느낀 점 4: 특이점이 얼마 남지 않았다!

통합규정 1.3 이용안내 인용

"Pgr은 '명문화된 삭제규정'이 반드시 필요하지 않은 분을 환영합니다.
법 없이도 사는 사람, 남에게 상처를 주지 않으면서 같이 이야기 나눌 수 있는 분이면 좋겠습니다."
raindraw
23/07/28 14:20
수정 아이콘
언어모델이 어떻게 저런 걸 할 수 있는지 이해가 안갑니다. 하여간 대단하네요.
jjohny=쿠마
23/07/28 14:26
수정 아이콘
이미 데이터분석/데이터사이언스에 진입해서 자리를 잡은 분들과, 앞으로 진입하고자 하는 분들 간의 입장 차가 생길 수 있겠네요.
이미 자리를 잡은 분들께는 계속해서 유용한 툴이 생기겠지만, 앞으로 진입하고자 하는 분들께 열릴 TO가 줄어들 것 같은 느낌...?
인생을살아주세요
23/07/28 14:28
수정 아이콘
저도 종종 R코드 짜라고 시켜보는데 놀라움 그 자체입니다.. 물론 실수가 없는 건 아니지만 그건 제가 지적해주니 바로 수정하더라고요. 뭔가 좀 신박한 분석 기법 없냐니까 좋은 거 추천도 해주고, ggplot2 가져와서 시각화도 잘해줍니다.
그레이퍼플
23/07/28 14:51
수정 아이콘
분명 이해하고 하는 건 아닙니다. 그래서 그럴듯하게 보이지만 어딘지 조금씩 틀려요.
마치 잘 모르지만 영리한 사람한테 일 맡겼을때와 비슷해요.
주위에 누구는 그냥 발전된 형태의 인터넷 검색기라고 표현하더군요.
그렇게 조금씩 틀리는 건 수정이 가능하다기 보단, 그냥 저 AI의 한계로 보이더군요.
23/07/28 15:00
수정 아이콘
제가 챗GPT한테 코딩 시킬 때 약간 신입사원이긴한데 에이스 같다고 느낀 거랑 비슷하시네요 크크
배경지식 같은 거는 하나도 모르면서 나름 자기가 막 유추해서 이런 것 같다고 하는데 또 막상 그게 맞을 때도 있고 그래서 신기하긴 하더라구요.

근데 딱 제 마음에 들게 해달라고 하면 그 때 부터는 막 헤매고, 그래서 시키기 좋은일과 별로인 일을 잘 판단하는 게 중요하겠더라구요.
고등어자반
23/07/28 15:12
수정 아이콘
저도 같은 인상을 받았습니다. 똑똑하고 재능있는 학부생에게 일을 맡긴 느낌이죠.
그래서 검증과정을 빼놓을 수는 없지만, 단순작업을 줄여주는 효과는 확실한 것 같습니다.
포프의대모험
23/07/28 20:32
수정 아이콘
이거 완전히 대학원생(..)
23/07/28 14:57
수정 아이콘
ML, DL 입문으로 맛보기 하고 있는 도메인 전문가 관점에서 볼때는 진짜 대단하네요.
복타르
23/07/28 15:29
수정 아이콘
일을 더 시켰다면 final 다음으로 뭐라 했을까 궁금해지네요.
Mattia Binotto
23/07/28 15:39
수정 아이콘
final_really
final_sincerely.... 뭐 이렇게 가지 않을까요 크크
탑클라우드
23/07/28 15:41
수정 아이콘
제가 종사하고 있는 영역이 아니기에 깊은 이해가 없음에도 불구하고 글만 읽어도 신기하고 또 약간은 무섭네요.
진짜 뻘짓하지 말고 월급 따박따박 모아두고 미래를 대비해야 하는 것인지...
인간실격
23/07/28 16:07
수정 아이콘
확실한건 균일화되어있고 데이터가 많을 것으로 보이는 분석은 명확하더라구요. 예를 들어 머신러닝 클래스 구성+훈련같은 경우 온라인 예시를 거의 그대로 따라갑니다.

반면에 데이터에 따라 구성이 틀려지고 예외가 많은 상황에선(DB테이블 쿼리) 종종 틀리곤 하네요. 틀린 답을 내는게 문제는 아닌데, 틀린걸 인식하지만 맞는 케이스 데이터가 없으니 프롬프트를 어떻게 넣어도 수정된 코드라면서 수정 전과 똑같은걸 뱉어내는게 좀 개그입니다 흐흐
23/07/28 18:10
수정 아이콘
일을 처음부터 끝까지 책임지고 마무리는 아직은 요원하지만.
충분히 학부생 하나쯤 데리고 잡일 / 단순작업 시키는 용도로 자주 사용합니다.

코드 만들때도. 대략적인 요구사항 주고 나온 결과에 . 세부적인 수정 사항 주면.
제가 코드 만들떄보다 더 빠릅니다.
jjohny=쿠마
23/07/28 18:59
수정 아이콘
(수정됨) 묻어가는 질문...

저도 과금해서 GPT 4.0으로 직업적인 영역에 일부 사용하고 있는데요,
4.0 기준으로도 한국어 문답의 성능을 아직 믿지 못해서 웬만하면 다 영어로 문답하고 있습니다.

당연한 얘기지만 영어보다 한국어가 훨씬 편한지라 '한국어로도 충분한 성능이 나온다'는 판단이 나오면 한국어로 사용해보려고 하는데, 직업적으로 사용하시는 다른 분들은 어떠신지 궁금합니다. (물론 분야마다 다르겠지만, 자기 분야 기준으로요)

1. 한국어 문답은 못 믿겠다. 거의 영어로만 문답한다.
2. 한국어 문답으로는 충분치 않다. 주로 영어로 문답하고, 가끔 간단한 것만 한국어로 문답한다.
3. 한국어 문답도 대체로는 유용하다. 주로 한국어로 문답하고, 가끔 해결과제의 난이도가 높거나 아니면 한국어 문답 성능이 잘 안 나올 때 영어로 문답한다.
4. 한국어 문답으로 충분하다. 거의 한국어로만 문답한다.
고등어자반
23/07/28 19:45
수정 아이콘
전문적으로 사용하는 건 아니지만, 그리고 영어도 잘하지 못하지만 저는 영어로 물어보고 있습니다.
ChatGPT의 좋은 점이, 제가 O떡같은 영어로 물어봐도 찰떡같이 알아듣는 점 아니겠습니까?
나혼자만레벨업
23/07/28 21:00
수정 아이콘
주로 코딩하는데 쓰고 있고, 한국어로 문답하고 있습니다. 프로그래밍 언어는 어차피 만국 공용이라서요.
23/07/28 22:11
수정 아이콘
Chat GPT 초기부터 과금 후 4.0 까지 계속 1번으로 사용하고 있습니다.
4.0 나왔을 때 나온 언어별 MMLU 성능 그래프 보고 계속 1번으로 사용하게 되네요.
23/07/29 04:35
수정 아이콘
하 연구하는 사람 입장에서 이걸 써볼까 말까 고민이 많습니다. 한번 쓰면 계속 써보게 될 것 같은 판도라의 상자처럼 보여서요.. 크크 저도 트위터에서 사람들이 올리는거 보면 다른 분야는 모르겠지만 저희 사회과학쪽은 머지않아 실적채우기식 대충 갖고 있는 데이터로 분석 돌리고 별뜨는거 이론 갖다 붙히고 퍼블리쉬하는 수준의 퀄리티의 논문은 chatGPT가 대체할 수 있지 않나 생각됩니다.
그레이퍼플
23/07/29 11:12
수정 아이콘
대충 실적채우기식 논문들은 지금도 이미 짜집기로 많이들 하고 있습니다.
배글이
23/07/29 20:44
수정 아이콘
제가 쓰면서 가장 많이 듣는 말은 “혼동을 드려 죄송합니다” 더군요
제가 IT에서도 좀 마이너한 영역을 하고 있어 그런지 오답률이 50프로 이상입니다
대신에 이런게 잘못된것 같다고 몇번 하다보면 정답이 나오긴 하더군요
이웃집개발자
23/07/31 01:35
수정 아이콘
이게 근데 은근 러버덕 롤을 잘해줍니다. 코딩하다가 뇌정지왔을때 상황에 대해 아무말을 던지면 얘가 대부분 이상한 대답; 을 하는데 그걸 고치는걸로 돌파구를 찾을때가 가끔 있네요

나중에 뭐먹고살지 싶어요
목록 삭게로! 맨위로
번호 제목 이름 날짜 조회 추천
99499 [정치] 오래된 영화 A Few Good Man [4] singularian7558 23/08/14 7558 0
99498 [일반] [노스포] <콘크리트 유토피아> 후기, 기본기는 출중했으나 부족한 각본 [21] 김유라7992 23/08/13 7992 2
99496 [정치] 국민의 힘 신원식 국회의원: 해병대 전 수사단장은 좌파들과 연계의심 [45] 기찻길14523 23/08/13 14523 0
99495 [일반] [팝송] 벨리 새 앨범 "Lost In Translation" 김치찌개5725 23/08/13 5725 1
99494 [일반] [풀스포] 차라리 신파였으면 나았을 갈팡질팡: 콘크리트 유토피아 [67] Farce13926 23/08/12 13926 23
99493 [정치] 가볍게 보는 22년vs23년 영향력 있는 정치인 여론조사 [74] 사브리자나12312 23/08/12 12312 0
99492 [일반] 한국의 미래와 제왕학의 사회적 활용 [49] 깐부10500 23/08/12 10500 4
99491 [정치] 조선일보 사설: 국방부, 해병대 수사단장 둘다 문제있다. [50] 기찻길12621 23/08/12 12621 0
99490 [정치] 전북시각에서 바라본 새만금 잼버리 문제 [60] rclay13262 23/08/12 13262 0
99489 [일반] 7800X3D+4070TI 본체 핫딜 나왔습니다(230만) 종료 [38] SAS Tony Parker 11312 23/08/12 11312 3
99488 [정치] 바닥밑에 지하실있다는걸 보여주는 잼버리 상황2 [108] 겨울삼각형22151 23/08/11 22151 0
99487 [정치] 표현의 자유 수호를 위한 국내야구 갤러리 성명문 [113] 인민 프로듀서15182 23/08/11 15182 0
99486 [정치] 항명 혐의 전 해병대 수사단장 "국방부 검찰단 수사 거부", 입장문 발표 [115] 로켓15095 23/08/11 15095 0
99485 [일반] 범용성 갑, 용도 무관 갖다쓰기 좋은 컴퓨터 구성 [67] SAS Tony Parker 11415 23/08/11 11415 23
99484 [일반] 세계에서 가장 많이 재배되는 농작물들 [33] VictoryFood11920 23/08/11 11920 17
99483 [정치] 5% 올려달랬는데… 과학기술 출연연 R&D 예산 30% 삭감한다 [188] 톤업선크림16977 23/08/11 16977 0
99482 [정치] 신림동 묻지마범죄의 원인 중 하나로 게임 중독을 지목한 검찰 [75] 검사9201 23/08/11 9201 0
99481 [일반] <콘크리트 유토피아> - 물음을 밀고 나가는 뚝심.(노스포) [57] aDayInTheLife8515 23/08/11 8515 8
99480 [일반] 그녀가 울면서 말했다. [27] ItTakesTwo10476 23/08/10 10476 155
99479 [정치] 잼버리 조직위 직원 월급 60만원 논란 [77] rclay10751 23/08/10 10751 0
99477 [일반] 내 아이는 왕의 DNA를 가진 아이 [178] 톰슨가젤연탄구이15048 23/08/10 15048 19
99476 [일반] 롤스로이스 사건 경과 [52] 빼사스14971 23/08/10 14971 13
99474 [일반] 회뜨는 사진 올린 춘천 칼부림 예고남 구속영장 "재미로 그랬다" [125] Avicii13430 23/08/10 13430 0
목록 이전 다음
댓글

+ : 최근 1시간내에 달린 댓글
+ : 최근 2시간내에 달린 댓글
맨 위로