#데이터수집#웹크롤링#메타데이터#유기동물보호소 구독자님들, 안녕하세요! 스파이더킴의 데이터 뉴스레터 디귿입니다😊 이번 주차에는 저희 스파이더킴에서 새롭게 개발한 '대형 플랫폼 전용 크롤러'에 대한 소식과, 위메프의 메타데이터, 고양이 보호소 데이터 분석까지 총 3가지 이야기를 가져왔어요! 유익한 정보가 가득한 이번 주의 뉴스레터! 재밌게 읽어보시고, 행복으로 가득한 한 주가 되시길 바랄게요💕 '디귿'은 가장 쉬운 웹크롤링 서비스, 스파이더킴에서 발행하는 뉴스레터💌입니다. 스파이더킴에 방문하셔서 무료로 웹크롤링 서비스✨를 이용해보세요. 이번주에 디귿이 준비한 내용
1. 플랫폼 전용 크롤러로 원하는 데이터를 클릭 한 번에 수집하자!👆 서론 안녕하세요 여러분 디귿이에요! 현재 온라인에는 쇼핑, 뉴스 그리고 커뮤니티와 같은 서로 다른 성격의 플랫폼들이 존재합니다. 이러한 플랫폼들은 최신 정보, 고객들의 의견, 트렌드 그리고 페이크 뉴스 등 실무자들이 발견, 활용 혹은 품질 관리하여야 하는 데이터들을 포함하고 있습니다. 그리고 해당 웹 데이터를 수집하기 위해 실무자들은 대형 플랫폼들에 맞추어진 웹 크롤러를 원해왔습니다. 저희 스파이더킴은 그동안의 실무자들의 니즈를 충족시킬 수 있는 스파이더킴 템플릿 서비스를 개발/출시하였습니다!✌✌ 어떤 상품들이 어떻게 판매되고 있을까?🧐 시중에서 어떤 상품들이 어떻게 판매되고 있는지 알아보기 위해 이번 새로운 템플릿 기능을 활용할 수 있습니다. 현재, 국내에서 가장 활발히 이용되는 쿠팡, 네이버 쇼핑, G마켓 총 3개의 쇼핑🎁 플랫폼에 대해 전용 크롤러를 지원하고 있는데요! 위처럼 카테고리(ex. 여성의류>상의>셔츠) 상품 검색과 검색어(ex. 검색창에 '여성 셔츠' 검색 후 정렬되는 제품) 상품 검색 두가지 타입 모두 데이터 수집이 가능합니다. 또 수집할 항목, 정렬 옵션도 커스터마이징해서 원하는 정보를 수집할 수 있습니다. 원하는 플랫폼을 선택하여 수집하고자 하는 정보를 클릭 한 번으로 받아보세요😉 소비자들의 실제 목소리, 여론 파악하기! 쇼핑 플랫폼 뿐만 아니라 실제 소비자들의 목소리를 들을 수 있는 커뮤니티 플랫폼👨👨👧👦의 데이터 수집도 물론 가능해요😄 현재 네이버 뉴스, 네이버 블로그, 네이버 카페 총 3개의 플랫폼에 대한 데이터 수집 템플릿을 제공하고 있습니다. 위 사진은 네이버 카페 데이터 수집을 위한 템플릿이에요. 글을 다 읽어보지 않아도 특정 키워드에 대한 게시글을 효율적으로 수집할 수 있습니다. 수집 요청된 모든 프로젝트는 xlsx, csv 그리고 json 파일로 다운로드 가능합니다.😉 스파이더킴은 실무자분들이 업무에서 실제로 의미있게 활용하실 수 있는 데이터 수집을 가장 중요한 목표로 두고 있습니다. 그러기 위해서는 가장 많은 사용자들이 모여있는 대형 플랫폼의 데이터가 반드시 필요합니다. 새롭게 추가된 저희 스파이더 템플릿 기능을 통해 업무 속 데이터 분석의 효율성과 정확도를 높여보세요!💻 스파이더킴 바로가서 템플릿 기능 시도해보기👇👇 2. 위메프의 '메타데이터'로 똑똑하게 쇼핑하자🛒 메타 데이터로 더 나은 쇼핑 만들기 이커머스 플랫폼에서 빠질 수 없는 추천 시스템! 이젠 데이터를 기반으로
추천 기능을 비롯한 쇼핑 시스템이 더욱 발전할 것이라고 해요. 어떻게 하냐고요? 바로 ‘메타데이터’를
활용하는 것이랍니다! 메타데이터란 속성정보라고도 하며, 대량의 정보 가운데에서 찾고 있는 정보를 효율적으로
찾아내서 이용하기 위해 일정한 규칙에 따라 콘텐츠에 대하여 부여되는 데이터를 의미해요. 위메프, '메타쇼핑'으로 진화하다 지난 13일, 위메프는
총 23만개 쇼핑몰, 7억개 상품에서 추출한 메타데이터를
활용해 소비자에게 더 나은 쇼핑 경험을 제공하는 ‘메타쇼핑’으로
진화할 계획이라고 밝혔답니다! 메타쇼핑이란, ‘큐레이션’ 서비스에 방대한 데이터를 AI가 수집, 분석하는 메타데이터 기술을 더한 커머스 플랫폼이에요. 구체적으로 이 방대한 데이터를 활용해 어떤 것들을 구축하냐면, 📌가격 비교에서 더 나아가 상품의 특징, 스타일
등 세부적인 정보를 비교/분석하는 서비스를 제공해요. 그
대상도 특정 카테고리에 국한하지 않고
모든 카테고리 상품에 적용한다고 해요.
📌7억개의 상품 데이터가 집합된 ‘데이터레이크’를 위메프가 자체 개발한 검색AI가 모두 취합해 분석하고, 인간과의 협업을 통해 이용자에게 도움을 주는 쇼핑 콘텐츠를 제공해요. 앞으로 메타데이터를 기반으로
이커머스가 어떻게 더 발전할지, 정말 기대되네요! 3. [데이터 분석] 유기동물 보호소에서 고양이😺를 효율적으로 입양 보내려면? 서론 유기 동물 보호 문제는 우리나라에서뿐만 아니라 전세계적으로 관심이 많은 문제입니다. 지금 이 순간에도 수십 마리의 반려 동물😿들이 유기되고 죽음의 위기에 내몰리고 있습니다. 모든 동물을 구조하고 좋은 가정에 입양 보낼 수 있다면 좋겠지만, 안타깝게도 보호소의 수용 가능 마리 수에는 한계가 있죠.😥 오늘은 우리나라의 ‘포인핸드’ 같은 동물 보호소 및 입양 중개 플랫폼인 ‘Petfinder’의 데이터를 분석하여 고양이를 성공적으로 입양 보내는 법에 대해 탐구해볼게요. 데이터 수집 Selenium을 사용하여 뉴욕 시에서 25마일 이내의 고양이 데이터를 스크랩했습니다. 보호 기간에 다른 분류인데 차례로 1일에서 6일, 7일에서 13일, 14일에서 30일, 30일 초과, 그 외 순입니다. 우리 분석에서는 30일 이내에 등록되어 있는 개체가 입양 확률이 높다고 가정합니다. 등록된 지 30일이 지난 개체는 긴 기간 동안 선택을 받지 못했다는 것을 의미하기 때문입니다. 데이터 분석 1. 아래의 그래프는 30일 미만과 이상으로 분류된 고양이 나이별 분포도입니다. 비율을 확인해보면 30일 미만에서는 Kitten(아기👶 고양이)가 차지하는 비율이 50% 이상으로 매우 높지만 30일 이상에서는 Adult(성체🧑 고양이)가 차지하는 비율이 가장 높다는 것이 보입니다. 사람들은 대체로 아기 고양이 입양을 더 선호한다는 것을 알 수 있습니다. 2. 장모(DLH)에 대한 선호가 단모(DSH)에 비해 약간 높습니다. 장모에 비해 단모 개체가 압도적으로 많은데 30일 이상 집단에서는 장모의 비율이 더 줄어드는 것으로 보아 비교적 입양이 잘 된다는 것을 확인할 수 있죠. 아래의 비율로도 확인할 수 있지만 장모는 상대적으로 희귀종✨에 해당하기 때문입니다. 유기동물 보호소 플랫폼을 크롤링하고 그 데이터를 분석해서 여러 인사이트를 얻을 수 있었는데요. 유기 고양이 입양에 관해 더 많은 분석을 확인하고 싶다면 아래 버튼👇을 클릭해주세요! 💌피드백 보내주신 소중한 피드백을 바탕으로 디귿이 계속 발전하고 있어요🥰 정말 감사드려요! 디귿이 더 성장하기 위해, 의견이 있으시다면 적극적으로 말씀해주세요😊 그럼 오늘도 화이팅하세요✨ 오늘의 디귿은 여기까지! 이번주 디귿의 뉴스레터, 어땠나요? 좋았던 점, 아쉬웠던 점, 더 알고 싶은 점 마구마구 알려주세요! '디귿'은 가장 쉬운 웹크롤링 서비스, 스파이더킴에서 발행하는 뉴스레터💌입니다. 스파이더킴에 방문하셔서 무료로 웹크롤링 서비스✨를 이용해보세요. |