데이터샤우츠

[2026-05-14 | Data Frontier] 한눈에 보는 AI x 비즈니스 분야 연구 동향 본문

논문(AI,DATA)

[2026-05-14 | Data Frontier] 한눈에 보는 AI x 비즈니스 분야 연구 동향

gibdata 2026. 5. 14. 09:26
반응형

📖 Sensing labour mobility flows of cross-border urban regions using machine learning and geolocated social network data

  • 저널: EPJ Data Science
  • 저자: Manuel Mendoza-Hurtado, Olle Järv, Milad Malekzadeh, Oleksandr Karasov 외 1명
  • 출판일자: 2026-05-13
  • 키워드: 국경 노동 이동, 위치 기반 소셜 네트워크, 머신러닝, 전이 학습

국경 지역의 노동 이동은 공식 통계가 늦게 따라오는 사이 실제 생활권과 행정 경계가 어긋나는 문제를 만든다. 연구진은 룩셈부르크 대지역, 바스크 국가, 외레순 지역의 위치 기반 소셜 네트워크 데이터에서 이동 빈도, 체류 시간, 국경 통과 등 18가지 특징을 만들고 CatBoost, XGBoost, 랜덤 포레스트, k-최근접 이웃 모델을 비교했다. 룩셈부르크에서 학습한 모델은 다른 두 지역에 제로샷 전이 학습(zero-shot transfer learning, 별도 재학습 없이 다른 지역에 적용하는 방식)으로 적용됐다. 지오로케이션 소셜 미디어 특징을 쓴 모델은 국경 간 노동 이동 탐지에서 최대 98%의 전체 정확도와 교차 검증 기준 재현율 78%, 정밀도 70%를 기록했다.

논문 원문 바로가기

📖 Predictive modeling for auto repossession success: a comparative evaluation

  • 저널: Journal of Big Data
  • 저자: Andy Sinclair, Preston Billion-Polak, Taghi M. Khoshgoftaar
  • 출판일자: 2026-05-13
  • 키워드: 차량 압류, 예측 모델, 고객사별 검증, 데이터 드리프트

차량 압류 성공 예측은 실패 방문 비용, 현장 인력 배치, 고객 마찰을 동시에 좌우하는 운영 문제다. 연구진은 지역 압류 회사의 Automobile Repossession Dataset(ARD)을 사용해 CatBoost, XGBoost, 로지스틱 회귀를 비교하고, 표준 교차 검증, 고객사별 분할, 연도별 분할이라는 세 가지 평가 방식을 나눴다. CatBoost는 무작위 언더샘플링 조건의 표준 교차 검증에서 AUC-ROC 0.692로 가장 높았지만, 고객사별 분할에서는 0.606까지 낮아졌다. 로지스틱 회귀는 연도별 분할에서 AUC-ROC 0.672를 기록해 시간 변화에 대한 안정성이 두드러졌다.

논문 원문 바로가기

📖 A new paradigm of time series forecasting with attributes learning

  • 저널: Journal of Big Data
  • 저자: Haibin Liao, Zhe Ai, Xin Liu, Zhijie Song 외 1명
  • 출판일자: 2026-05-13
  • 키워드: 시계열 예측, Attri-Loss, 추세, 계절성

시계열 예측에서는 평균 오차가 낮아도 추세와 계절성의 모양을 놓치면 수요, 에너지, 운영 지표 판단이 빗나갈 수 있다. 연구진은 예측값과 실제값의 거리만 줄이는 기존 손실 함수 대신 추세 방향, 계절 변화, 점별 표현을 함께 학습하는 Attri-Loss를 제안했다. 실험은 여러 예측 모델에 손실 함수만 교체해 넣는 플러그 앤 플레이(plug-and-play, 기존 시스템에 끼워 넣는 방식) 조건을 포함했다. 72시간 예측에서 Attri-Loss는 평균 절대 오차를 13%, 대칭 평균 절대 백분율 오차를 8% 줄였다.

논문 원문 바로가기

📖 A long-term photographic dataset for individual identification of the Balearic wall lizard

  • 저널: Scientific Data
  • 저자: Roberto Alcaraz, Balma Albalat-Oliver, Alejandro Villa, Giacomo Tavecchia 외 2명
  • 출판일자: 2026-05-13
  • 키워드: 생태 데이터셋, 개체 재식별, 발레아레스 벽도마뱀, 컴퓨터 비전

야생동물 개체 식별은 같은 개체를 여러 해에 걸쳐 다시 찾아야 하므로 사진 품질과 식별 기준이 모두 중요하다. 연구진은 2010년 10월부터 2024년 9월까지 스페인 마요르카 남부 Illot d’en Curt 섬에서 포획-재포획(capture-recapture) 방식으로 발레아레스 벽도마뱀 사진을 모았다. BalearicLizard 데이터셋은 1,009개체의 고해상도 사진 4,619장, 복부 비늘 패턴 집중 이미지, 촬영 날짜, 개체 식별자, 파일 위치를 함께 담았다. 수동 식별 결과는 자동 재식별 모델을 활용한 과거 오류 보정과 비교되어 장기 데이터의 신뢰도를 높였다.

논문 원문 바로가기

📖 Reconstructing Historical Housing Data Using Kriging Interpolation and Zonal Statistics

  • 저널: Scientific Data
  • 저자: Shuang Tian, Fang Qiu
  • 출판일자: 2026-05-13
  • 키워드: 주택 가치, 공간 보간, 구역 통계, 장기 시계열

장기 주택 가치 분석은 행정구역 경계가 바뀔 때 같은 지역을 같은 단위로 비교하기 어렵다는 문제에 부딪힌다. 연구진은 1990년부터 2020년까지 캘리포니아의 인구 조사 구역, 블록 그룹, 주택 가치 자료를 2020년 기준 블록 그룹 단위로 재구성했다. 크리깅 보간법(Kriging interpolation, 공간적 자기상관을 이용해 빠진 값을 추정하는 방법)은 중간 연도의 주택 가치 결측을 채우고, 구역 통계(zonal statistics)는 값을 일관된 지리 단위로 다시 집계했다. 이 절차는 과거 경계와 현재 경계를 단순히 맞추는 방식보다 결측 연도와 경계 불일치를 함께 처리한다.

논문 원문 바로가기

📖 Artificial Intelligence-Powered Multimodal Approaches for Depression and Anxiety Detection: A Review

  • 저널: Applied Artificial Intelligence
  • 저자: Rui Liu, Jing Guo, Eben Sophia P
  • 출판일자: 2026-05-13
  • 키워드: 정신 건강 AI, 다중 양식 데이터, 우울증 탐지, 불안 탐지

우울증과 불안 탐지는 자기보고와 임상 면담에 크게 의존해 접근성, 낙인, 주관성 문제를 안고 있다. 연구진은 텍스트, 음성, 얼굴 표정, 행동 패턴, 웨어러블 센서 데이터를 결합하는 다중 양식 AI 접근을 검토했다. 검토 대상 기술은 자연어 처리(Natural Language Processing, NLP), 감성 분석, 머신러닝 분류기, 딥러닝 모델을 포함하며, 비교 기준은 진단 정확도, 실시간 모니터링, 개인 맞춤 관리, 데이터 통합 방식, 임상 적용 조건으로 잡혔다. 여러 양식은 감정 표현과 생활 패턴 변화를 서로 다른 신호로 포착해 단일 데이터의 오류 가능성을 줄인다.

논문 원문 바로가기

반응형