:: 게시판
:: 이전 게시판
|
- PGR21 관련된 질문 및 건의는 [건의 게시판]을 이용바랍니다.
- (2013년 3월 이전) 오래된 질문글은 [이전 질문 게시판]에 있습니다. 통합 규정을 준수해 주십시오. (2015.12.25.)
통합규정 1.3 이용안내 인용"Pgr은 '명문화된 삭제규정'이 반드시 필요하지 않은 분을 환영합니다.법 없이도 사는 사람, 남에게 상처를 주지 않으면서 같이 이야기 나눌 수 있는 분이면 좋겠습니다."
16/03/20 18:33
1은 아마 검색엔진에서 어디까지가 단어인지 구별하고 있어서 그런게 아닐까요?
먹는 김에 대해 알아보려고 [김]이라고 검색했을때 김해 김XX 같은 사람이름까지 다 나온다면 불편한 검색이 되겠죠... 2는 검색엔진별로 검색 옵션이 다를겁니다. 앞에 특수문자 등을 붙여서 여러가지 검색이 가능한데 https://support.google.com/websearch/answer/2466433?hl=ko 구글의 경우 이런 페이지도 있네요.
16/03/20 18:39
얼추 제가 알고 있기로는... Q1에만 답을 써 보자면,
데이터베이스에 저장된 텍스트 속에서 특정한 문자열만 찾으려고 할 때 모든 경우를 다 검사하려면 들어가는 품이 너무 많이 듭니다. 그래서 규모가 있는 데이터베이스 검색 시스템의 경우에는 속도 향상을 위해 미리 입력되어 있는 정보를 스페이스 같은 구분자를 기준으로 해서 잘라 놓습니다. '홍진호는 임요환에게 삼연벙을 당했다.' 같은 문장이 있다면 홍진호는, 임요환에게, 삼연벙을, 당했다로 미리 나누어 두는 것이죠. 이렇게 하면 검색시 딱 4개만 찾아보면 되는데, 이렇게 잘라놓지 않으면 홍진호, 진호는, 호는임, 요환에, 에게삼, 연벙을 등등 가능한 문자열을 다 검사하는 자원의 낭비가 발생하게 됩니다. 그리고 영어의 경우에는 스페이스 같은 구분자로도 제법 성과물이 쉽게 나오지만, 한글의 경우에는 스페이스로 끊게 되면 김택용을, 김택용이, 김택용에게를 전부 다른 것으로 인식하게 되는 문제가 있죠. 그래서 형태소 분석 구문을 추가해서 김택용만 쳐도 김택용을, 김택용이, 김택용에게를 (미리 데이터베이스에 인덱싱으로 저장할 때 형태소를 분석한 결과로 저장을 해 두든, 나중에 분석을 하든 해서) 같은 것으로 인식하는 처리 과정을 붙여 줍니다. 그래서 프로게이머 김택용이라고 치면 (한글 형태소 분석을 통해 모두 김택용으로 인식되는) 김택용에게, 김택용을, 김택용은 같은 게 다 검색이 되지만, 김택은 전혀 다른 단어이기 때문에 검색이 안 되는 것입니다. 물론 대형 포털 검색엔진은 더 특별한 게 있을지도 모르겠는데... 오픈소스로도 이 데이터베이스 한글 검색 쪽은 코드가 있어서 (주로 쓰이는 게 일본에서 만든 일본어용 플러그인에다가 한글 사전을 끼얹어서 한글판으로 돌리는 게 있죠.) 얼추 개인 개발자가 만든 게시판 사이트들 중에서도 이렇게 돌릴 수도 있습니다. (이런 처리를 거치지 않은 기본적인 사이트라면 그냥 김택만 쳐도 김택용이 같이 검색이 되는 경우가 있을 수 있겠죠.)
|