라떼는말이야

[프로그래머스 lv2] [3차] 파일명 정렬 본문

알고리즘/코딩 테스트

[프로그래머스 lv2] [3차] 파일명 정렬

MangBaam 2021. 8. 15. 00:33
반응형

2018 KAKAO BLIND RECRUITMENT 문제입니다.


문제 설명

세 차례의 코딩 테스트와 두 차례의 면접이라는 기나긴 블라인드 공채를 무사히 통과해 카카오에 입사한 무지는 파일 저장소 서버 관리를 맡게 되었다.

저장소 서버에는 프로그램의 과거 버전을 모두 담고 있어, 이름 순으로 정렬된 파일 목록은 보기가 불편했다. 파일을 이름 순으로 정렬하면 나중에 만들어진 ver-10.zip이 ver-9.zip보다 먼저 표시되기 때문이다.

버전 번호 외에도 숫자가 포함된 파일 목록은 여러 면에서 관리하기 불편했다. 예컨대 파일 목록이 ["img12.png", "img10.png", "img2.png", "img1.png"]일 경우, 일반적인 정렬은 ["img1.png", "img10.png", "img12.png", "img2.png"] 순이 되지만, 숫자 순으로 정렬된 ["img1.png", "img2.png", "img10.png", img12.png"] 순이 훨씬 자연스럽다.

무지는 단순한 문자 코드 순이 아닌, 파일명에 포함된 숫자를 반영한 정렬 기능을 저장소 관리 프로그램에 구현하기로 했다.

소스 파일 저장소에 저장된 파일명은 100 글자 이내로, 영문 대소문자, 숫자, 공백(" "), 마침표("."), 빼기 부호("-")만으로 이루어져 있다. 파일명은 영문자로 시작하며, 숫자를 하나 이상 포함하고 있다.

파일명은 크게 HEAD, NUMBER, TAIL의 세 부분으로 구성된다.

  • HEAD는 숫자가 아닌 문자로 이루어져 있으며, 최소한 한 글자 이상이다.
  • NUMBER는 한 글자에서 최대 다섯 글자 사이의 연속된 숫자로 이루어져 있으며, 앞쪽에 0이 올 수 있다. 0부터 99999 사이의 숫자로, 00000이나 0101 등도 가능하다.
  • TAIL은 그 나머지 부분으로, 여기에는 숫자가 다시 나타날 수도 있으며, 아무 글자도 없을 수 있다.

파일명을 세 부분으로 나눈 후, 다음 기준에 따라 파일명을 정렬한다.

  • 파일명은 우선 HEAD 부분을 기준으로 사전 순으로 정렬한다. 이때, 문자열 비교 시 대소문자 구분을 하지 않는다. MUZI와 muzi, MuZi는 정렬 시에 같은 순서로 취급된다.
  • 파일명의 HEAD 부분이 대소문자 차이 외에는 같을 경우, NUMBER의 숫자 순으로 정렬한다. 9 < 10 < 0011 < 012 < 13 < 014 순으로 정렬된다. 숫자 앞의 0은 무시되며, 012와 12는 정렬 시에 같은 같은 값으로 처리된다.
  • 두 파일의 HEAD 부분과, NUMBER의 숫자도 같을 경우, 원래 입력에 주어진 순서를 유지한다. MUZI01.zip muzi1.png가 입력으로 들어오면, 정렬 후에도 입력 시 주어진 두 파일의 순서가 바뀌어서는 안 된다.

무지를 도와 파일명 정렬 프로그램을 구현하라.

입력 형식

입력으로 배열 files가 주어진다.

  • files는 1000 개 이하의 파일명을 포함하는 문자열 배열이다.
  • 각 파일명은 100 글자 이하 길이로, 영문 대소문자, 숫자, 공백(" "), 마침표("."), 빼기 부호("-")만으로 이루어져 있다. 파일명은 영문자로 시작하며, 숫자를 하나 이상 포함하고 있다.
  • 중복된 파일명은 없으나, 대소문자나 숫자 앞부분의 0 차이가 있는 경우는 함께 주어질 수 있다. (muzi1.txt, MUZI1.txt, muzi001.txt, muzi1.TXT는 함께 입력으로 주어질 수 있다.)

출력 형식

위 기준에 따라 정렬된 배열을 출력한다.

입출력 예제

입력: ["img12.png", "img10.png", "img02.png", "img1.png", "IMG01.GIF", "img2.JPG"]
출력: ["img1.png", "IMG01.GIF", "img02.png", "img2.JPG", "img10.png", "img12.png"]

입력: ["F-5 Freedom Fighter", "B-50 Superfortress", "A-10 Thunderbolt II", "F-14 Tomcat"]
출력: ["A-10 Thunderbolt II", "B-50 Superfortress", "F-5 Freedom Fighter", "F-14 Tomcat"]

 


나의 풀이

def solution(files):
    fileList = []
    idx = -1
    for file in files:
        idx += 1
        i = 0
        while not file[i].isdigit(): i += 1 # 숫자 시작 위치 찾기
        start = i
        while i < len(file) and file[i].isdigit(): i += 1 # 숫자 끝 위치 찾기
        end = i
        fileList.append([idx, file[:start], file[start:end], file[end:]])
    fileList = sorted(fileList, key=lambda x:(x[1].lower(), int(x[2]), x[0]))
    
    return [''.join(file[1:]) for file in fileList]

 

아이디어

  1. 주어진 파일명을 원래index, HEAD, NUMBER, TAIL 부분으로 나눠서 리스트로 만든다.
    • 그 각각의 리스트를 fileList라는 하나의 리스트에 담아서 관리
  2. 다음의 기준에 따라 fileList를 정렬한다. (각 요소의)
    1. HEAD (소문자로 변경하여 대소문자 구분 없이 정렬)
    2. NUMBER
    3. 원래 순서(원래 index)
  3. 리스트로 구분된 각 요소를 하나의 파일명으로 묶어 return

 

구현

파일 명 구분 및 리스트에 담기

(for file in files: 반복문 내부)

idx += 1
i = 0
while not file[i].isdigit(): i += 1 # 숫자 시작 위치 찾기
start = i
while i < len(file) and file[i].isdigit(): i += 1 # 숫자 끝 위치 찾기
end = i
fileList.append([idx, file[:start], file[start:end], file[end:]])

원래 파일의 인덱스인 idx를 구한다.

파일 이름에서 숫자를 발견할 때까지 i를 증가시킨다.

숫자를 발견하면 start에 그 인덱스를 넣어준다.

다시 i가 file의 크기를 넘어가지 않으면서 숫자가 끝날 때까지 i를 증가시키다가

숫자가 아닌 문자를 만나면 end에 그 인덱스를 넣어준다. (i가 file의 크기까지 증가하는 경우는 TAIL 부분이 빈 문자열일 경우이다.)

그리고 idx와 숫자 앞까지의 문자(HEAD), 숫자(NUMBER), 나머지 문자(TAIL)을 fileList 리스트에 담는다.

위 과정들을 for file in files를 모두 돌면 fileList에는 다음 사진과 같이 files의 모든 파일들에 대해 HEAD, NUMBER, TAIL로 구분된다.

fileList1
fileList2

 

정렬

이제 fileList를 조건에 맞춰 정렬해준다.

정렬은 sorted 메소드를 사용하며, 옵션으로 key 를 줄 수 있는데 여러 조건을 동시에 부여할 수 있다.

fileList = sorted(fileList, key=lambda x:(x[1].lower(), int(x[2]), x[0]))

x[1]에는 HEAD 부분이 담겨있다. 대소문자 구분을 하지 않기 위해 .lower()로 모두 소문자로 만든 것을 오름차순으로 비교하는 것이 첫 번째 조건이다.

x[2]에는 NUMBER 부분이 들어있다. 숫자 순으로 정렬하기 위해 int()를 사용해 정수로 바꿔준다.

x[0]에는 원래 인덱스 값이 들어있다. 첫 번째, 두 번째 조건까지 동일했다면 원래 입력됐던 index를 기준으로 정렬한다.

 

파일명 다듬기

정렬 결과1
정렬 결과2

정렬은 성공적으로 이루어졌지만 파일명이 [3, 'img', '1', '.png'] 와 같이 쪼개져 있다. 이를 'img1.png' 로 바꿔야 한다.

[''.join(file[1:]) for file in fileList]

리스트 컴프리헨션을 사용해 한 줄로 구현했다.

fileList에서 file을 하나씩 뽑아서 처리하는데

file[0]은 인덱스이다. 원래 파일명에는 포함되지 않는 정보이기 때문에 file[1:] 로 슬라이싱한다.

그 결과를 ''.join() 하게 되면 리스트의 모든 요소들을 '' 안에 있는 문자로 연결해준다. 즉, 아무 값도 안들어 있기에 모두 공백없이 이어준다.

결과 1
결과 2

그 결과 위와 같이 원래의 파일명으로 되돌릴 수 있다.

바로 return 해주면 된다.

테스트 결과

반응형
Comments