AESOP Embedded Forum : QandA - [질문] 하나의 텍스트 파일안에 utf8 과 euc-kr 이 섞여 있을때의 처리방법?

Favorites

묻고답하기 : 임베디드 개발에 관한 질문과 답변을 얻을 수 있는 게시판 입니다.

기존 이솝 임베디드 포럼의 지식인 서비스가 게시판 형태로 변경되었습니다.

글 수 6,368

[질문] 하나의 텍스트 파일안에 utf8 과 euc-kr 이 섞여 있을때의 처리방법?

조회 수 1293 추천 수 0 2008.01.06 09:34:26

유형목 *.162.5.194 http://www.aesop.or.kr/index.php?mid=Board_Community_QandA&document_srl=18388

아는 분이 서버를 해킹당해서 CentOS 를 재설치해 드렸습니다.

그런데 이전 서버가 워낙 오래된 것이라 mysql 버전이 3.23.58 버전이었고, 새로 설치된 CentOS5 의 mysql 버전은 5.0.x 최신버전이라서 마이그레이션이 필요하게 되었습니다.

그런데 mysql 3.23.58 에서 덤프시켜 놓은 데이터가 같은 테이블 안에서도 utf8 및 euc-kr 이 마구 섞여 있는 고로, 어느 인코딩을 사용하던지 암튼 통일시켜서 바꿔놓긴 해야겠는데 파일이 너무 커서 엄두가 나질 않는군요.

구글을 이리저리 찾아보니 iconv_open() 이랑 관련 함수를 사용하여 라인 단위로 처리하면 될것 같긴 합니다만..

각 라인마다 utf8 인지 euc-kr 인지 어떻게 구분해야 될까요?

덤프 받은 데이터 파일은 텍스트로 되어있고, 파일 크기가 2백메가 바이트에 대충 백만 라인 정도 됩니다.

이 게시물을

엮인글 :: http://www.aesop.or.kr/index.php?mid=Board_Community_QandA&document_srl=18388&act=trackback&key=7f8

고도리

2008.01.06 11:02:21
*.51.146.125

음......character를 읽어서 구분을 해야하는데, 즉 코드를 읽어서요.

간단하게 euc-kr의 시작 hex와 utf8의 시작 hex의 range가 틀린것을 이용해서 일일이 컨버팅하는 프로그램을 짜야할 듯 합니다.

좀 노가다 일이 되겠지만요.....

iconv_open()보다는 일일이 글자단위로 컨버팅하는 프로그램이 필요할 듯 하네요.

완성형 to utf8로요.

2백메가 바이트라도 프로그램만 잘짜면 큰 문제는 없을 듯 합니다.

제가 컨버전 프로그램이 있나 찾아보겠습니다. 오래된 자료라 어디있는지
찾을려면 좀 시간이 걸리겟네요....--;

List of Articles

번호	제목	글쓴이	날짜	조회 수
168	초보적인 Toolchain 문제 [1]	서영태	2008-01-16	1173
167	2G SD카드 인식문제 [9]	문철민	2008-01-12	3177
166	bootloader 에서 usb device 인식( usb ethernet adator ) [3]	황기천	2008-01-10	1503
165	2차 보드와 3차 보드의 차이점을 알고 싶습니다. [1]	김영수	2008-01-07	1144
»	[질문] 하나의 텍스트 파일안에 utf8 과 euc-kr 이 섞여 있을때의... [6]	유형목	2008-01-06	1293
163	[완료]공유기 없이 VMware network 환경 설정 [7]	최재혁	2007-12-24	3700
162	sd card 질문입니다. [7]	박진우	2007-12-21	1273
161	[완료] 프로세서가 먹통되었을 때 리셋버튼 눌러도 반응이 없는 경... [3]	오주열	2007-12-18	1386
160	[완료] 삼성 NAND Flash 제어 질문입니다. ^^ [4]	김태현	2007-12-10	1652
159	[완료]LCD - framebuffer 관련 질문 이요 ^^; [1]	박준영	2007-12-09	1695
158	nfs서버 질문입니다. [2]	문철민	2007-12-04	1434
157	[질문]페도라의 ntsysv 와 같은 역활의 명령어 Slackware11에 어떤게... [5]	조준동	2007-11-30	1314
156	회사의 다른컴에서 aesop-embedded.org 접속이 안됩니다. [5]	조준동	2007-11-28	1546
155	nand bad 관련 의문점 [2]	문철민	2007-11-27	1289
154	nand erase error입니다 도움 부탁합니다. [2]	문철민	2007-11-24	2787
153	[완료]레드햇9 리눅스 부팅에러입니다. [2]	문철민	2007-11-21	1791
152	[완료]NAND Flash 제어할때 주소구성이 어떻게 되는지 궁금합니다... [4]	임종환	2007-11-18	2070
151	삼성 2440 I/O Speed [1]	전철웅	2007-11-17	2761
150	[완료]SDL 기본 화면 뛰우기 [3]	윤치호	2007-11-15	2732
149	[완료]QTE vs TinyX+QT/X11 [2]	박준영	2007-11-13	1978

쓰기... 목록

첫 페이지 306 307 308 309 310 311 312 313 314 315 끝 페이지

묻고답하기 : 임베디드 개발에 관한 질문과 답변을 얻을 수 있는 게시판 입니다.

[질문] 하나의 텍스트 파일안에 utf8 과 euc-kr 이 섞여 있을때의 처리방법?

고도리

고현철

유형목

고도리

고현철

유형목

사용자 로그인