:: 게시판
:: 이전 게시판
|
이전 질문 게시판은 새 글 쓰기를 막았습니다. [질문 게시판]을 이용바랍니다.
통합규정 1.3 이용안내 인용"Pgr은 '명문화된 삭제규정'이 반드시 필요하지 않은 분을 환영합니다.법 없이도 사는 사람, 남에게 상처를 주지 않으면서 같이 이야기 나눌 수 있는 분이면 좋겠습니다."
11/03/22 22:47
전산 전공은 아니라서 정확한 대답일지는 모르겠는데, tokenizer로 처리하시는 게 맞는 것 같습니다.
한국어처럼 한 글자가 한 음절이라면 그냥 한 글자씩 읽어들이면 되겠지만, 해당 언어에서 모음을 표시하는 문자를 받았을 때, 토큰이 끝나게 해서 전체 글이 끝날 때까지 루프 돌리면 될 것 같네요. http://www.joinc.co.kr/modules/moniwiki/wiki.php/man/3/strtok?cx=002661009167463862046%3A8oq6cxlfibu&cof=FORID%3A9&q=strtok&sa=Search&ie=EUC-KR#1257 위 링크는 C언어의 strtok함수이니 프로그래밍에 대한 기초적인 지식이 있으시다면 참고하시면 좋을 것 같아요.
11/03/22 22:54
자바는 유니코드를 사용하기 때문에 한글이든, 영어든 쉽게 표현할 수 있을텐데,
C나 C++의 경우는 영어나 한글을 따로 구분해서 처리해줘야 할 것 같네요. 이런거에 대한 제약사항을 두고 접근해 보세요... tokenizer를 쓰라고 한 것과 자연언어 처리라는 것에 비추어 보아 교수는 C를 염두에 두지 않았을까 싶네요.
11/03/23 00:18
tokenizer 가 뭐 하는 것인 지 이해를 하고, 그것의 알고리즘을 pseudo code 로 표현하란 말입니다.
tokenizer 의 동작 원리를 코딩 가능한 수준까지 이해해 오란 것인데, 논리적인 순서대로 알고리즘을 한 단계 한 단계를 설명할 수 있어야 합니다.
|