라떼는말이야

[프로그래머스 lv2] 순위 검색 (최적화 문제) 본문

알고리즘/코딩 테스트

[프로그래머스 lv2] 순위 검색 (최적화 문제)

MangBaam 2021. 10. 9. 00:39
반응형

2021 KAKAO BLIND RECRUITMENT 문제이다.

카카오 문제는 다른 2단계 문제들에 비해 더 어려운 것 같다... 이 문제도 단순히 풀이하면 간단한 문자열 파싱 문제지만 효율성 테스트가 극악이었다.


문제 설명

[본 문제는 정확성과 효율성 테스트 각각 점수가 있는 문제입니다.]

카카오는 하반기 경력 개발자 공개채용을 진행 중에 있으며 현재 지원서 접수와 코딩테스트가 종료되었습니다. 이번 채용에서 지원자는 지원서 작성 시 아래와 같이 4가지 항목을 반드시 선택하도록 하였습니다.

  • 코딩테스트 참여 개발언어 항목에 cpp, java, python 중 하나를 선택해야 합니다.
  • 지원 직군 항목에 backend와 frontend 중 하나를 선택해야 합니다.
  • 지원 경력구분 항목에 junior와 senior 중 하나를 선택해야 합니다.
  • 선호하는 소울푸드로 chicken과 pizza 중 하나를 선택해야 합니다.

인재영입팀에 근무하고 있는 니니즈는 코딩테스트 결과를 분석하여 채용에 참여한 개발팀들에 제공하기 위해 지원자들의 지원 조건을 선택하면 해당 조건에 맞는 지원자가 몇 명인 지 쉽게 알 수 있는 도구를 만들고 있습니다.
예를 들어, 개발팀에서 궁금해하는 문의사항은 다음과 같은 형태가 될 수 있습니다.
코딩테스트에 java로 참여했으며, backend 직군을 선택했고, junior 경력이면서, 소울푸드로 pizza를 선택한 사람 중 코딩테스트 점수를 50점 이상 받은 지원자는 몇 명인가?

물론 이 외에도 각 개발팀의 상황에 따라 아래와 같이 다양한 형태의 문의가 있을 수 있습니다.

  • 코딩테스트에 python으로 참여했으며, frontend 직군을 선택했고, senior 경력이면서, 소울푸드로 chicken을 선택한 사람 중 코딩테스트 점수를 100점 이상 받은 사람은 모두 몇 명인가?
  • 코딩테스트에 cpp로 참여했으며, senior 경력이면서, 소울푸드로 pizza를 선택한 사람 중 코딩테스트 점수를 100점 이상 받은 사람은 모두 몇 명인가?
  • backend 직군을 선택했고, senior 경력이면서 코딩테스트 점수를 200점 이상 받은 사람은 모두 몇 명인가?
  • 소울푸드로 chicken을 선택한 사람 중 코딩테스트 점수를 250점 이상 받은 사람은 모두 몇 명인가?
  • 코딩테스트 점수를 150점 이상 받은 사람은 모두 몇 명인가?

즉, 개발팀에서 궁금해하는 내용은 다음과 같은 형태를 갖습니다.

* [조건]을 만족하는 사람 중 코딩테스트 점수를 X점 이상 받은 사람은 모두 몇 명인가?

[문제]

지원자가 지원서에 입력한 4가지의 정보와 획득한 코딩테스트 점수를 하나의 문자열로 구성한 값의 배열 info, 개발팀이 궁금해하는 문의조건이 문자열 형태로 담긴 배열 query가 매개변수로 주어질 때,
각 문의조건에 해당하는 사람들의 숫자를 순서대로 배열에 담아 return 하도록 solution 함수를 완성해 주세요.

[제한사항]

  • info 배열의 크기는 1 이상 50,000 이하입니다.
  • info 배열 각 원소의 값은 지원자가 지원서에 입력한 4가지 값과 코딩테스트 점수를 합친 "개발언어 직군 경력 소울푸드 점수" 형식입니다.
    • 개발언어는 cpp, java, python 중 하나입니다.
    • 직군은 backend, frontend 중 하나입니다.
    • 경력은 junior, senior 중 하나입니다.
    • 소울푸드는 chicken, pizza 중 하나입니다.
    • 점수는 코딩테스트 점수를 의미하며, 1 이상 100,000 이하인 자연수입니다.
    • 각 단어는 공백문자(스페이스 바) 하나로 구분되어 있습니다.
  • query 배열의 크기는 1 이상 100,000 이하입니다.
  • query의 각 문자열은 "[조건] X" 형식입니다.
    • [조건]은 "개발언어 and 직군 and 경력 and 소울푸드" 형식의 문자열입니다.
    • 언어는 cpp, java, python, - 중 하나입니다.
    • 직군은 backend, frontend, - 중 하나입니다.
    • 경력은 junior, senior, - 중 하나입니다.
    • 소울푸드는 chicken, pizza, - 중 하나입니다.
    • '-' 표시는 해당 조건을 고려하지 않겠다는 의미입니다.
    • X는 코딩테스트 점수를 의미하며 조건을 만족하는 사람 중 X점 이상 받은 사람은 모두 몇 명인 지를 의미합니다.
    • 각 단어는 공백문자(스페이스 바) 하나로 구분되어 있습니다.
    • 예를 들면, "cpp and - and senior and pizza 500"은 "cpp로 코딩테스트를 봤으며, 경력은 senior 이면서 소울푸드로 pizza를 선택한 지원자 중 코딩테스트 점수를 500점 이상 받은 사람은 모두 몇 명인가?"를 의미합니다.

[입출력 예]

입출력 예

 

입출력 예에 대한 설명

지원자 정보를 표로 나타내면 다음과 같습니다.

  • "java and backend and junior and pizza 100" : java로 코딩테스트를 봤으며, backend 직군을 선택했고 junior 경력이면서 소울푸드로 pizza를 선택한 지원자 중 코딩테스트 점수를 100점 이상 받은 지원자는 1명 입니다.
  • "python and frontend and senior and chicken 200" : python으로 코딩테스트를 봤으며, frontend 직군을 선택했고, senior 경력이면서 소울 푸드로 chicken을 선택한 지원자 중 코딩테스트 점수를 200점 이상 받은 지원자는 1명 입니다.
  • "cpp and - and senior and pizza 250" : cpp로 코딩테스트를 봤으며, senior 경력이면서 소울푸드로 pizza를 선택한 지원자 중 코딩테스트 점수를 250점 이상 받은 지원자는 1명 입니다.
  • "- and backend and senior and - 150" : backend 직군을 선택했고, senior 경력인 지원자 중 코딩테스트 점수를 150점 이상 받은 지원자는 1명 입니다.
  • "- and - and - and chicken 100" : 소울푸드로 chicken을 선택한 지원자 중 코딩테스트 점수를 100점 이상을 받은 지원자는 2명 입니다.
  • "- and - and - and - 150" : 코딩테스트 점수를 150점 이상 받은 지원자는 4명 입니다.

나의 풀이

첫 번째 시도 (효율성 테스트 실패)

def solution(info, query):
    answer = []
    userInfos = []
    for user in info:
        user = user.split()
        userInfo = {'언어': user[0], '직군': user[1], '경력': user[2], '소울푸드': user[3], '점수': user[4]}
        userInfos.append(userInfo)
    
    for q in query:
        언어, 직군, 경력, tmp = q.split(' and ')
        소울푸드, 점수 = tmp.split()
        answer.append(find(userInfos, 언어, 직군, 경력, 소울푸드, 점수))
        
    return answer

def find(userInfo, 언어, 직군, 경력, 소울푸드, 점수):
    findAll = lambda x, y : x==y if y != '-' else True
    return len([user for user in userInfo 
                if (
                    findAll(user['언어'], 언어) and
                    findAll(user['직군'], 직군) and
                    findAll(user['경력'], 경력) and
                    findAll(user['소울푸드'], 소울푸드) and
                    int(user['점수'])>=int(점수)
                   )
               ])

info의 문자열을 공백을 기준으로 쪼개서 userInfo 라는 사전을 만들었다. 그리고 userInfos라는 리스트에 userInfo를 담았다.

query를 순회하며 find 함수를 사용해 값을 구했다.

find함수는 내부에서 findAll 이라는 람다 함수를 사용했다.

findAll은 입력 받은 값이 '-' 라면 True를 반환해 항상 참이 되도록 하고, '-'가 아니라면 매개 변수로 받은 x와 y가 같을 때 True를 반환하는 함수이다.

 

예를 들어 findAll("같은 값" , "같은 값") 이 들어온다면 True, 

findAll("같은 값", "다른 값") 이 들어온다면 False,

findAll("어떤 값", "-") 이 들어온다면 항상 True를 반환한다.

 

findAll 람다 함수로 언어, 직군, 경력, 소울푸드에 대해서 검사하고 점수를 확인해서 점수가 X점 이상인 user의 수를 return 한다.

 

이렇게 하였을 때 정확성 테스트에서는 모두 통과했지만 효율성 테스트에서는 하나도 통과하지 못했다.

 

최종 풀이 (정답)

1. users 사전 만들기

def solution(info, query):
    answer = []
    
    users = {}
    for user in info:
        user = user.split()
        for i in range(16):
            item = ""
            item += user[0] if int(bin(i&8)[2:]) else '-'
            item += user[1] if int(bin(i&4)[2:]) else '-'
            item += user[2] if int(bin(i&2)[2:]) else '-'
            item += user[3] if int(bin(i&1)[2:]) else '-'
            if item in users.keys():
                users[item].append(int(user[-1]))
            else: users[item] = [int(user[-1])]

이번에는 아예 다른 방법을 사용해 풀이했다.

우선 파라미터로 입력 받은 info를 순회한다.

만약 info의 값 중 하나가 "java backend junior pizza 150" 이라면 users라는 사전에

  1. ----
  2. ---pizza
  3. --junior-
  4. --juniorpizza
  5. -backend--
  6. -backend-pizza
  7. -backendjunior-
  8. -backendjuniorpizza
  9. java---
  10. java--pizza
  11. java-junior-
  12. java-juniorpizza
  13. javabackend--
  14. javabackend-pizza
  15. javabackendjunior-
  16. javabackendjuniorpizza

이렇게 16개의 키 값으로 150이라는 값을 추가한다. (이때 점수가 str형이므로 int형으로 바꾸어 저장한다)

언어, 직군, 경력, 소울푸드 각각의 값과 '-'를 스위칭하여 만들어낸 16개의 값이다. (2의 4제곱)

150이라는 값을 추가한다고 한 이유는 다른 info 값에서 같은 키 값이 나올 수 있기 때문에 모든 값을 저장하기 위해서 사전의 value는 list로 하였다.

2. 값 정렬하기

def solution(info, query):
    answer = []
    
    users = {}
    
    ... # 1번 과정
    
    for k in users.keys():
        users[k]=sorted(users[k])

1.에서 만들어진 users의 값들은 리스트이다. 이 값들을 오름차순으로 정렬한다.

정렬하는 이유는 효율성 테스트를 통과하기 위해서이다.

여기에 저장된 값 중 query에서 요구하는 점수보다 크거나 같은 점수를 가진 사람의 수를 세어야 하는데 그러기 위해서는 리스트 전체를 쭉 훑어야 하므로 O(n^2)의 복잡도를 가진다.

효율성 테스트를 통과하기 위해서 오름차순으로 정렬한 이유는 이분 탐색(Binary Search)를 사용하면 훨씬 효율적으로 값을 찾아낼 수 있기 때문이다.

3. 쿼리 파싱

def solution(info, query):
    answer = []
    
    users = {}
    
    ... # 1, 2번 과정
    
    for q in query:
        언어, 직군, 경력, tmp = q.split(' and ')
        소울푸드, 점수 = tmp.split()
        점수 = int(점수)
        keyword = 언어+직군+경력+소울푸드

query를 순회하며 파싱한다.

' and '를 기준으로 잘라내면 언어, 직군, 경력을 분리해낼 수 있고, 마지막 값은 [소울푸드 점수] 형태가 된다.

이를 다시 공백을 기준으로 분리한 후 점수는 int형으로 형변환 시켜준다.

keyword는 언어+직군+경력+소울푸드 로 만든다. (users를 탐색할 때 key 값이 된다)

 

4. 이분 탐색으로 값 찾기

def solution(info, query):
    answer = []
    
    users = {}
    
    ... # 1, 2번 과정
    
    for q in query:
        
        ... # 3번 과정
        
        keyword = 언어+직군+경력+소울푸드
        if keyword in users.keys():
            points = users[keyword]
            start, end = 0, len(points)-1
            mid = 0
            while start <= end:
                mid = (start+end) // 2
                if points[mid]==점수:
                    break
                elif points[mid] > 점수:
                    end = mid-1
                elif points[mid] < 점수:
                    start = mid+1
                    
            while mid>=0 and points[mid] >= 점수:
                mid -= 1
            answer.append(len(points)-mid-1)
        
        else:
            answer.append(0)
 
    return answer

우선 keyword가 users의 키 값으로 존재하지 않을 수도 있다. 만약 존재하지 않는다면 해당하는 사람이 없는 것이므로 answer에 0을 추가하면 된다.

points 변수에 users[keyword] 값을 저장한다. 그러면 keyword로 검색되는 사람들의 점수가 저장된 리스트가 points에 저장되는 것이다. (points는 오름차순으로 정렬되어 있다. 2번 과정 참고)

이후 이분 탐색으로 mid 값을 찾아낸다. ( 이분 탐색에 대해서는 여기서는 자세히 다루지 않겠다. )

 

주의할 점은 mid값을 찾는 것으로 끝내면 안된다는 것이다.

points에는 중복되는 점수가 들어있을 수 있기 때문에 찾고자 하는 점수보다 작은 값을 선택해야 한다.

예를 들어 points = [40, 60, 60, 60, 80] 의 값을 가지고, 찾고자 하는 점수가 60점 이상일 때 위 소스코드의 이분 탐색 알고리즘으로 탐색하면 points[2] 가 선택될 것이다. 그렇게 되면 points[1]에 있는 60점은 누락될 수 있다.

그렇기 때문에 points[mid]가 찾고자 하는 점수보다 작을 때까지 mid를 하나씩 감소시켜야 한다.

그러면 위 예에서는 mid = 0이 될 것이다.

결국 60점 이상인 사람의 수를 구하고 싶다면 points의 길이인 5에서 mid인 0을 빼고 1을 하나 더 빼주면 된다.

len(points)-mid-1

 

5. 마무리

이렇게 적절한 문자열 파싱과 정렬, 이분 탐색을 사용하면 효율성 테스트를 통과할 수 있다.

최종 소스 코드 (정답)

def solution(info, query):
    answer = []
    
    users = {}
    for user in info:
        user = user.split()
        for i in range(16):
            item = ""
            item += user[0] if int(bin(i&8)[2:]) else '-'
            item += user[1] if int(bin(i&4)[2:]) else '-'
            item += user[2] if int(bin(i&2)[2:]) else '-'
            item += user[3] if int(bin(i&1)[2:]) else '-'
            if item in users.keys():
                users[item].append(int(user[-1]))
            else: users[item] = [int(user[-1])]
    for k in users.keys():
        users[k]=sorted(users[k])
    
    for q in query:
        언어, 직군, 경력, tmp = q.split(' and ')
        소울푸드, 점수 = tmp.split()
        점수 = int(점수)
        keyword = 언어+직군+경력+소울푸드
        if keyword in users.keys():
            points = users[keyword]
            start, end = 0, len(points)-1
            mid = 0
            while start <= end:
                mid = (start+end) // 2
                if points[mid]==점수:
                    break
                elif points[mid] > 점수:
                    end = mid-1
                elif points[mid] < 점수:
                    start = mid+1
            while mid>=0 and points[mid] >= 점수:
                mid -= 1
            answer.append(len(points)-mid-1)
        else:
            answer.append(0)
 
    return answer

 

정확성 테스트 결과
효율성 테스트 결과

반응형
Comments