Lee JaeKyu

정보보호 R&D 데이터 챌린지 2018 차량주행 데이터기반 도난탐지 본선 참가 후기

본선참가중 pic.twitter.com/dQtxlX2iUV

— Lee JaeKyu (@jk423) 2018년 11월 30일

소개

즉 차량주행 데이터만 보고 드라이버를 구분해 내는 것이다. 물론 데이터에는 엑셀이나 엔진 토크같은 차량의 내부 데이터만 있고 위치 정보는 제공 하지 않는다.
예선에는 9명, 본선에는 5명이 같은 차량으로 같은 경로를 주행한 데이터가 제공된다. 이 데이터를 보고 머신러닝이나 딥러닝을 통해 구분하는 것.

후기

에선도 마찬가지로 본선도 발표자료(예선은 설명서)의 점수도 들어간다.
데이터 분석은 여러가지 알고리즘이 있다. 그리고 정확도 뿐만 아니라 발표 점수도 들어가는데 ‘이것저것 적용해보다가 정확도가 높게 나오는것을 사용하였다.’라는 것 보다는, 데이터의 특성을 분석해서 이런저런 적용을 해보는것이 좋을것이라고 보인다. 본선 데이터를 미리 준 이유가 분석을 미리 하라는 뜻이였다. 그리고 물론 이떤 feature를 빼고 더하니 정확도가 변하는 이유에 대해서도 고찰을 해서 발표하는 것이 좋아보인다.
각 feature를 적용할까 안할까 정하는 과정에서 어떤것은 포함하고 어떤것은 제외하게 된다. 이떄 적용을 하는 feature에 (데이터를 보고)가중치를 정해서 판단하는 것도 좋아보인다.

데이터 분석을 실전으로 처음 해보는 입장이라서 예선 통과를 예상 하지 않았다. 그래서 예선을 통과하고 본선이 있기전에 미리 본선 데이터를 받았다. 그렇지만 데이터를 분석할 시간은 다른 일정으로 이미 분배가 되어 있었다. 그래서 시간상 예선에 사용했던 알고리즘을 그대로 사용하었다. 본선 당일에는 올림픽 정신으로 참가하는데에 의의를 두었다.

링크

챌린지 소개 - 정보보호 R&D 데이터 챌린지 2018
‘2018년 정보보호 R&D 데이터 챌린지’예선 결과 발표 (web archive)