서울 광화문역에서 시민들이 마스크를 착용한 채 역을 나서고 있다. /한경DB
서울 광화문역에서 시민들이 마스크를 착용한 채 역을 나서고 있다. /한경DB
빅데이터 크기를 줄이는 방법(데이터 분할) 가운데 ‘햄샌드위치 정리’라는 수학 기법이 있다. 햄샌드위치 세 개를 공중에 띄운 뒤 단칼에 각각을 정확히 2등분하는 묘기가 가능하다는 사실을 수식화한 것으로, 고차원 데이터 과학에 응용되는 수학 이론이다.

신종 코로나바이러스 감염증(코로나19) 확산 방지 차원에서 이런 데이터 분할법을 이용해 ‘지하철 탑승 및 재택근무 2부제’ 등을 고려할 필요가 있다는 연구결과가 나왔다. 승객들이 밀집한 대중교통에선 사회적 거리두기가 전혀 지켜지고 있지 않다는 문제의식에서다.

국웅 서울대 수리과학부 교수와 김원세 박사후 연구원, 소병창 박사과정 연구원은 이런 내용을 담은 ‘출퇴근 지하철 혼잡도 분산을 위한 최적 수도권 지역 분할’ 연구를 과학기술정보통신부 지원으로 수행했다고 3일 밝혔다.

연구팀은 수도권 지하철 노선도(1~9호선, 인천 1~2호선, 분당선 등) 전체를 ‘가중그래프’라는 수학 모델로 만들었다. 노선도 701개 역 탑승자 숫자 데이터를 분석하기 쉽게 단순화한 것이다. 탑승자 숫자는 2016~2018년 주중(월~금) 30개 요일을 꼽아 분석했다. 서울교통공사가 제공한 암호화된 T머니 데이터를 이용했다. 하루평균 탑승 건수(승하차 1쌍을 1건으로 간주)는 800만여 건에 달했다.

이어 구간별 혼잡도를 계산했다. 단일구간(예: 2호선 낙성대~서초)은 승하차 데이터가 단순해 분석하기 쉽다. 문제는 출퇴근 경로에 환승역이 혼재될 경우다. 예를 들면 2호선 서울대입구에서 3·7·9호선 환승역인 고속터미널까지 가는 방법은 여러 가지다. 연구팀은 가중그래프 내에서 최단거리를 구하는 기법인 ‘다익스트라 알고리즘’을 썼다. 최단시간 환승법(서울대입구→교대→고속터미널) 또는 그에 가까운 환승법을 찾아주는 알고리즘이다.

다익스트라 알고리즘을 돌린 결과 출근시간대(오전 7~9시)에 가장 붐비는 승하차 구간이 나왔다. 2호선 사당~방배, 2호선 방배~서초, 4호선 한성대입구~혜화, 1호선 구일~구로, 1호선 개봉~구일, 4호선 성신여대입구~한성대, 4호선 혜화~동대문, 2호선 낙성대~사당, 4호선 길음~성신여대입구 등 9곳이다. 이들 지역의 5분당 평균 통행량(승차+하차)은 3130명에 달했다.

이들 구간 데이터에선 탑승자 주거지역도 나왔다. 예를 들어 가장 붐비는 구간 4위인 구일~구로는 경기 부천 거주자가 41%, 인천 부평 거주자가 20%, 서울 구로 거주자가 19% 등이었다. 연구팀은 이를 ‘혼잡 기여도’로 명명했다.

마지막으로 연구팀은 혼잡 기여도 등을 변수화해 701개 역이 있는 74개 지역(서울 25개 구, 경기·인천 49개 시·구)을 토대로 ‘손실함수’를 설계했다. 그리고 ‘햄 샌드위치 정리’처럼 혼잡도를 정확히 반으로 쪼갤 수 있는 손실함수 최소값을 구했다. 그 결과 월·수·금 지하철 출근 권장지역(A) 36곳, 화·목 출근 권장지역(B) 38곳이 나왔다.

국웅 교수는 “코로나19 감염경로가 전혀 파악되지 않는 사례가 늘어나는 것은 동선 추적이 거의 이뤄지지 않고 있는 지하철, 버스 등 대중교통 영향이 크다”며 “A지역 출근날엔 B지역은 재택근무를 명하는 등 각 기관·기업이 재량을 발휘하면 감염 확산을 막는 데 도움이 될 것”이라고 말했다.

이해성 기자 ihs@hankyung.com