:: 게시판
:: 이전 게시판
|
- PGR21 관련된 질문 및 건의는 [건의 게시판]을 이용바랍니다.
- (2013년 3월 이전) 오래된 질문글은 [이전 질문 게시판]에 있습니다. 통합 규정을 준수해 주십시오. (2015.12.25.)
통합규정 1.3 이용안내 인용"Pgr은 '명문화된 삭제규정'이 반드시 필요하지 않은 분을 환영합니다.법 없이도 사는 사람, 남에게 상처를 주지 않으면서 같이 이야기 나눌 수 있는 분이면 좋겠습니다."
16/04/10 10:42
1. 모든 검색엔진은 페이지를 통째로 저장하여 데이터를 모아두고 그 결과를 검색 결과로 보여줍니다. 단 이때 텍스트로 된 결과만 저장하고 미디어(사진 등)은 저장하지 않습니다. 이 개념을 크롤링이라고 할겁니다 아마.
2. 실시간으로 어떤 사이트를 체크할수도 있지만 실시간이라는 개념은 서버를 지속적으로 체크할 수 있기 때문에 별도의 동기화(새 글을 쓰면 검색엔진에 알려주는)같은 기능이 없다면 10분 15분 같은 일정 주기로 새 글이 올려진지 검색한 후 크롤링을 합니다. 그렇기 때문에 글이 저장될때는 댓글이 여러개도 한개도 없을수가 있습니다. 3. 저장된 내용에 대해서 갱신도 해야합니다. 링크가 삭제됐을수가 있고 변동된 내용이 있을수가 있으니까요. 그 주기는 하루 단위 같은 개념으로 이뤄집니다. 도움 되셨나 모르겠습니다
16/04/10 11:00
우선 답변감사합니다.
1번에 대해서 좀더 이해를 구하자면 스냅샷이라는 개념자체가 스크린샷으로 사진을 찍는 것 아닌가요? 제가 그동안 알고 있기로는 스냅샷은 데이터를 사진화 하는걸로 알고 있는데 구글캐쉬에 대한 설명을 하는 블로그에 따르면 스냅샷을 찍는다고 표현을 하던데 그건 제가 알고 있었던 스냅샷의 개념이 아니라 글을 그냥 자체적으로 구글서버에 저장한다는 개념으로 스냅샷이란 표현을 쓴건가요? 그리고 미디어는 저장하지 않는다는 것에 대한 개념도 좀 설명 부탁드려도 될까요? 미디어는 저장하지 않는 다는 건 결국 데이터의 불필요한 양을 줄이겠다라는 의도로 해석할 수 있는데 저희가 검색엔진에서 보는 것은 전부 미디어 포함해서 검색할 수 있잖아요 이미지검색도 있고.. 2번에 대해서는 완벽히 이해가 되었습니다. 카톡의 친구관리도 일정한 주기로 최신화 하듯이 검색엔진도 일정한 주기로 모든 데이터에 대한 저장을 하는거군요. 완전히 이해됐어요. 3번에서 여전히 이해가 되지않는 부분이 있습니다. 저장된 내용에 대해서 갱신이 하루와 같은 주기로 이루어 진다고 하셨는데 그렇다면 왜 캐시로 최초글만 알 수 있는지 궁금합니다. 하루단위같은 주기로갱신이 되었다면 캐시로 알 수 있는 자료는 최초의 글이 아니라 마지막 글이 되어야 정상이지 않나요? 캐시로 수정전 최초글은 알 수 있는데 2차 3차 수정된 글들은 검색할 수 없고 최종글은 검색할 수 있는건 당연한거구요. 캐시에 대한 개념중 가장 이해가 되지 않는 부분이네요. 최초글은 캐시로 알아낼 수 있다. 근데 중간글은 캐시로 알아낼 수 없다 그렇다면 왜 하필 최초글은 캐시로 저장해서 알수 있도록 했을까 이부분이 참 궁금합니다.
16/04/10 11:05
1. 사용자가 구글에 검색어를 입력할 때마다 구글이 네이버, 다음, 루리웹, PGR21, MLB파크 등 온갖 사이트에 접속하여 뒤지는 것은 지극히 비효율적이므로 각 사이트의 내용을 구글에 미리 복사해 놓게 됩니다. 이것을 캐시라고 합니다. 캐시의 정의를 위키백과에서 찾아보면 "데이터나 값을 미리 복사해 놓는 임시 장소를 가리킨다. 캐시의 접근 시간에 비해 원래 데이터를 접근하는 시간이 오래 걸리는 경우나 값을 다시 계산하는 시간을 절약하고 싶은 경우에 사용한다. 캐시에 데이터를 미리 복사해 놓으면 계산이나 접근 시간 없이 더 빠른 속도로 데이터에 접근할 수 있다"이므로 이 정의에 부합하죠.
여기에 덧붙여 구글 캐시는 사용자가 확인할 수 있게 공개하고 있으므로 대상 웹 사이트가 잠시 다운됐을 때 임시로 내용을 확인하는 용도로도 요긴하게 쓸 수 있습니다. 2. 검색 엔진이 작동하는 방식은 그냥 평범한 사람이 웹 서핑하는 거랑 똑같습니다. 어떤 사이트에 새 글이 올라왔나 확인하려면 틈틈이 그 사이트에 접속해야 하죠. 좀 관심도가 떨어지는 사이트의 경우에는 며칠 동안 새 글을 확인 못 할 (안 할) 수도 있죠. 마찬가지로 구글도 틈틈이 PGR21에 접속해서 새 글을 클릭해보는데 마침 그때 댓글이 두 개 달려 있었던 거죠. 3. 자원을 효율적으로 활용하기 위해 일단 읽어본 글에는 덜 자주 방문하게 됩니다. 너무 오래된 글은 아예 평생 다시는 방문 안 할 수도 있고요. 모든 글을 최신본으로 가지고 있으려면 PGR21에 있는 수만 개의 글을 (전 지구적으로 확대하면 수십억 개의 글을!) 매일 클릭해봐야 한다는 건데 이건 사람에게나 컴퓨터에게나 현실적으로 불가능하죠. 좀 더 부연하자면 유명한 사이트 & 최신 글일수록 자주 방문하게 되어 있습니다. 사람 안 오는 개인 사이트 같은 경우에는 며칠에 한 번씩밖에 안 오기도 합니다.
16/04/10 11:20
1번에 대해서 대략적으로 이해가 되었습니다. 그러니까 저희가 구글에서 검색을 할때 검색창에 뜨는 것들은 전부 캐시로 구글서버에 저장해놓은 것이고 그 검색정보를 클릭할때는 그 사이트로 연결되도록 해놓은 것이라 이해하면 되겠지요?
2번도 마찬가지로 이해되었습니다. 3번에 대해서는 이렇게 이해햐면 되는지 궁금합니다. 그러니까 캐시는 어디까지나 글의 흔적을 구글서버에 남겨놓아서 더 효율적으로 검색하고 또 검색능력을 올려주는 것일뿐 최초글이나 2차 3차 수정글들을 남겨놓기 위한 목적이 아니니까 2차 3차 수정글까지 저장해놓을 필요가 전혀 없다. 캐시로 수정전 최초글을 알아낼 수 있는건 목적에 부합하지 않는 그냥 얻어걸린 능력일뿐이다. 이렇게 이해하면 될까요? 그렇다면 과거의 자료중 최초 글은 캐시로 남아있지만 2차 3차 수정글은 알아낼 방법이 없다. 최종글은 어짜피 우리가 검색으로 알아낼 수있는 것이고.. 이렇게 이해하면 될런지요?
16/04/10 11:27
1. 정확합니다.
3. 얻어 걸린 게 맞습니다. 최신 내용으로 갱신되어 있을 수도 있으니까요. 캐시에 낡은 내용이 있다는 것은 다르게 말하면 검색 품질이 저하되었다는 이야기이기도 합니다. 원래 'A'만 있었던 글을 수정하여 'A B C'로 바꿨다고 했을 때, 구글 캐시에 초기 버전만 저장되어 있다면 'B'나 'C'로 검색했을 때는 그 글이 안 잡히겠죠. 그러나 구글 입장에서는 글이 그렇게까지 대격변하는 경우는 흔치 않고, 저런 세세한 변화까지 다 감지하려면 비용이 많이 드니까 (모든 글을 매일 클릭해 봐야 하니까) 어느 정도 낡은 데이터도 감수하는 것입니다. 물론 여건이 되면 그 사이에 캐시를 최신 내용으로 갱신하기도 하고요. 따라서 위에서 말했다시피 최초 버전을 확인할 수 있었던 것은 순전히 우연이며, 2차 버전이나 3차 버전만 확인될 수도 있습니다. 실제로 후자일 경우가 더 흔합니다.
16/04/10 11:57
캐시의 개념을 이해하셨으면 왜 캐시에 이미지 등을 저장하지 않는 지도 이해하실 수 있을 것 같아요.
용량으로 치면 동영상 >>>>>>>>> 이미지 >>>>>>>>> 텍스트이기 때문입니다. 이미지에 대해 썸네일을 사용하는 것도 같은 이유죠.
|