:: 게시판
:: 이전 게시판
|
- 자유 주제로 사용할 수 있는 게시판입니다.
- 토론 게시판의 용도를 겸합니다.
통합규정 1.3 이용안내 인용"Pgr은 '명문화된 삭제규정'이 반드시 필요하지 않은 분을 환영합니다.법 없이도 사는 사람, 남에게 상처를 주지 않으면서 같이 이야기 나눌 수 있는 분이면 좋겠습니다."
21/10/30 16:57
사회생활 10년차정도 됐는데, 처음 사회생활 시작하고 점점 알아가면서 놀란부분이 그런 것들이었어요.
아니 이걸 이렇게 한다고? 아니 그런데 이게 일단 돌아가고 있다고? 터지면 어쩌려고 저러지? 흐흐... 정말 아슬아슬하게 안터질 정도의 선만을 지키며 운영되는 것들이 많을 것 같아요. 그러다가 터지면 재수 없었네...생각하는거고...흐흐
21/10/30 01:23
부산이라는 이유가 좀 큰게 아닌가 싶습니다.
중간중간 문제가 터졌을때도 부산내부적으로만 잠시 에러가 나는 정도였을테니 직원이나 관리자나 오전에 한다고 뭐 큰일나겠어? 하면서 여태까지 매뉴얼대로 안하고 대충대충 한게 아닌가 싶은...
21/10/30 01:24
그러면 안되는게 이건 KT 관리 책임 100% 라고 볼 수 있는 문제라 협력업체 조진다고 하면 여론이 엄청 안좋아질겁니다.
KT 사장이 모가지 내놓을 생각이 아니라면 공식적인 대응은 안할거라고 봅니다. 문제는 해당 회사 입장에서 알아서 안길래야 안길수가 없다는거겠죠.
21/10/30 01:20
뉴스보면 협력업체 직원이 커맨드를 누락했다고 나오던데
상식적으로 전국망 라우팅 작업을 협력업체에 100% 맡길리가...있나? 암튼 진실은 kt만이 알고있겠죠 크크크
21/10/30 01:27
분석된걸 보니 전국망에 하려고 한게 아니라 부산에서만 한건데
오전에 하다보니 네트워크 고립도 안하고 그냥 한게 하필 모든망에 빠르게 전파가능한 설정을 건드린거라 초대형 사고가 나버린거죠. 저런 설정 입력 작업들은 협력업체가 하는게 대부분일겁니다.
21/10/30 15:03
블라인드 였던가에 올라왔던 글에도 보면 하청업체 직원이 했을거란 KT 직원의 글이 있던. 이유가 KT 직원은 그런거 할줄 모른다고. 덤으로 작은 사고면 크게 책임을 지게 하겠는데 이 정도 급에서 아래에 크게 책임을 지게하면 윗선도 같이 지게 되니 대충 넘어갈거란 내용도 있던 것 같네요.
21/10/30 01:33
https://www.msit.go.kr/SYNAP/skin/doc.html?fn=0fcac17d6b390c0ecd4a795b3ebe9577&rs=/SYNAP/sn3hcv/result/
[과기정통부, 케이티(KT) 연결망(네트워크) 장애 원인분석 결과 발표] 정식 보도자료입니다. 작업자의 작업내역을 확인한 결과, 사고발생 라우터에 라우팅 설정명령어 입력과정에서 IS-IS 프로토콜 명령어를 마무리하는 부분에서 [‘exit’ 명령어를 누락]했으며, 이로 인해, BGP 프로토콜에서 교환해야 할 경로정보가 IS-IS 프로토콜로 전송되었다. - 통상 1만개 내외의 정보를 교환하는 IS-IS 프로토콜에 수십만개의 BGP 프로토콜의 정보가 잘못 전송되면서, 라우팅 경로에 오류가 발생하게 되었다. 이러한 라우팅 경로에 발생한 오류는 다음과 같은 경로로 전국적으로 확산된 것으로 분석되었다. 1. IS-IS 프로토콜 내의 라우터들은 상호간의 정보 최신화를 위해 자동으로 데이터를 주고받는데, 부산 지역라우터에 잘못된 라우팅 경로가 설정된 이후, 다른 지역의 IS-IS 라우터 등에도 잘못된 업데이트 정보가 전달되었다. 2. KT 네트워크 내에 있는 라우터들을 연결하는 IS-IS 프로토콜은 잘못된 데이터 전달에 대한 안전장치 없이 전국을 모두 하나로 연결하고 있고, 3. 결국 한 개 라우터의 잘못된 라우팅 경로 업데이트가 전국의 라우터에 연쇄적으로 일어나서 장애가 전국적으로 확대되었다. <기술적 문제점> 1. (사전검증) 우선 사전검증 단계에서 오류를 파악하지 못했다. - 라우팅 작업계획서상의 라우팅 설정 명령어 스크립트에서 IS-IS 프로토콜을 종료하는 ‘exit’ 명령어가 누락되었으나 [스크립트 작성과정 및 사전 검증 과정에서 발견하지 못했다.] - 1, 2차에 걸친 사전검증 단계가 존재했으나, [사람이 직접 검토하는 체계이기 때문에, 오류를 발견하지 못했다.] 2. (시뮬레이터 및 오류의 확산 방지) 또한, 네트워크가 차단된 가상 상태에서 오류 여부를 사전에 발견하기 위한 [가상 테스트베드가 없었고], 3. [지역에서 발생한 오류가 전국으로 확산하는 것을 차단할 수 있는 시스템도 부재]하였다. 총체적 난국이 부른 대참사였습니다. 그리고 사건 초기에도 의심이 들었던건데 결국 BGP로 인한 사고였고, 이건 이전에도 전세계적으로 일어난적 있는 문제였습니다. https://www.boannews.com/media/view.asp?idx=80296 [실제 사례로 풀어본 BGP 유출의 정의와 위험성] 2019-06-11 2018년 11월 12일, 나이지리아의 작은 ISP(인터넷 업체)가 네트워크 인프라를 업데이트 하다가 실수를 저질렀다. 그러면서 인터넷이라는 이 거대한 시스템이 얼마나 유약하고 깨지기 쉬운지가 드러났다. 아프리카에 있는 작은 업체의 실수 하나가 구글을 74분 동안 마비시켰으니 말이다. http://it.chosun.com/site/data/html_dir/2021/10/06/2021100601589.html [페북 먹통 원인으로 지목된 'BGP 뭐길래'] 2021.10.06 지난 4일 전 세계적으로 발생한 페이스북, 인스타그램, 왓츠앱의 접속 장애 원인으로 BGP(Border Gateway Protocol)가 지목됐다. 다소 생소하게 들리는 BGP란 무엇인가. 더버지가 5일(현지시각) BGP가 왜 페이스북의 접속 장애를 일으킨 원인으로 지목됐는지에 대해 전했다.
21/10/30 11:32
[실수에 대비한 시스템 부재]가 근본원인 인데 'EXIT을 안썼다', '야간작업 안했다' 로 도배되는거 보니 저 회사는 글렀습니다. 저 정도 관리도 안되는 회사가 무슨 기관망을... 사람이라면 누구나 실수를 하니까 당연히 대비책이 있어야 하는데 실수한 사람만 독박쓰는 시스템에서 누가 일하려 합니까
21/10/30 18:45
보통 같은 IT라고 어플리케이션과 비슷하게 생각하는 경우가 많은데, 인프라 시스템은 테스트베드를 구성하기가 쉽지 않습니다.
마치 고속도로를 건설하고 유지보수를 하는데, 테스트베드로 같은 고속도로를 하나 더 만들어야하는 식이어서요. 모형 고속도로를 만들고 거기서 여러가지 시험을 할 수는 있겠지만, 그것도 한계가 있는거죠. 가상 혹은 랩 상의 테스트베드에서 검증하는 것도 기반 기술이나 망 디자인 같은 건 검증이 가능하나, 이번 장애처럼 실제 장비 적용하는 command line 레벨에서 오류가 발생한 것은 현실적으로 검증하기 쉽지 않습니다. 장비 벤더, 기종, 들어가있는 HW 모듈, 라인 구성에 따라서 최종 commad line이 다 달라지거든요.
21/10/30 19:05
해당 보고서를 봤는데, 시뮬레이션 시스템이라고 되어 있고 가상화 기반의 망 시뮬레이션 시스템일겁니다.
오픈소스나 벤더에서 제공하는 솔루션들들이 있고, 요새는 대부분의 장비 OS가 VM 버전으로 나와서 가상화 가반으로 돌릴 수는 있습니다. 실제로 교육이나 개인 학습, 망 디자인 검증 등에는 활용하고 있고요. 그런데, 실제 작업에는 활용하기가 쉽지 않은 것이 실제 작업할 장비와 command line 레벨에서 같게 만들기가 어렵거든요. 이번 장애는 적용 기술이나 디자인적인 문제가 아니라, 장비에 실제 적용해야할 command가 한줄이 빠진 것이 문제인데, 이런 식으로 해당 장비에 적용할 command line 한줄 한줄의 오류를 검증하기가 쉽지 않다는 겁니다. 하지만, 장애 보고나 대책 문서에는 해결책을 적어야하니 저걸 해결책의 하나로 적어놓았을 것이고, 대부분의 관련 업계에서도 저런 시스템을 통해서 검증하겠다 라고 하긴 할겁니다. 여하튼 효과가 아예 없는 것은 아니고, 보고받는 윗분들이 보기에 납득할만한 대책이니까요.
21/10/30 19:14
말씀대로라면 실적용 전에 데스크에서 걸러내는게 최선이라는 건데
그러기에는 KT에는 그걸 할만한 인력이 없는 걸로 아는데 말이죠 결과적으로 KT는 국가 기간망을 책임질 자격이 없는 회사라는 거군요
21/10/30 19:26
KT에 그걸 할만한 인력이 없진 않을겁니다. 말이 많아도 우리나라에서 KT 정도 규모의 망을 운영하는 회사가 몇 없으니...
인프라쪽, 특히 네트워크쪽은 거의 다 실무에서 배울 수 밖에 없는 분야라서요. 그정도 규모의 인프라를 운영하면서 얻는 경험과 노하우는 밖에서는 배우고 싶어도 배우기가 어렵거든요. 문제는 라인 한줄 한줄을 사람이 들여다보면서 인적 실수를 없게 만드는 것이 어려운거죠.
21/10/30 20:31
BGP 특성상 일단 전파되면....
바로 조치를 취한다고 해서 해결되는 건 아니니까요. 실제 엔지니어가 문제 발생 인식은 1분이내였슬 겁니다.
21/11/02 11:04
실무자, 관리자도 알고 있죠. 문제가 있다는걸. 그리고 실무자가 백날 문제 있다고 개선해야한디고 올려도 지금도 잘 하는데 왜? 로 묵인하다 결국 터져야 바꾸는 개떡같은 문화
|