Semalt Review – 스크랩 핑 스크립트 실행

Airflow는 여러 사용자에 대해 병렬로 실행되는 다중 시스템 워크 플로를 구성하는 데 사용되는 Python의 스케줄러 라이브러리입니다. 단일 공기 흐름 파이프 라인은 SQL, bash 및 Python 작업으로 구성됩니다. 이 도구는 작업 사이의 종속성, 병렬로 실행할 작업 및 다른 기능이 완료된 후 실행될 작업을 결정하는 데 중요한 요소 인 종속성을 지정하여 작동합니다.

공기 흐름이 필요한 이유

기류 도구는 Python으로 작성되어 이미 설정된 사용자 정의 기능에 연산자를 추가 할 수있는 이점을 제공합니다. 이 도구를 사용하면 웹 사이트에서 체계적인 데이터 시트로의 변환을 통해 데이터긁을 수 있습니다. 에어 플로우는 DAG (Directed Acyclic Graphs)를 사용하여 특정 워크 플로우를 나타냅니다. 이 경우 워크 플로는 방향 종속성으로 구성된 작업 모음을 나타냅니다.

Apache Airflow 작동 방식

기류는 코드가 일정에 따라 기능을 실행하고 모든 작업자 프로세스에 작업 실행을 배포 할 때 작업을 궁극적 인 종속성으로 정의하는 창고 관리 시스템입니다. 이 도구는 실행중인 작업과 과거 작업의 상태를 표시하는 사용자 인터페이스를 제공합니다.

Airflow는 작업 실행 프로세스와 관련하여 진단 정보를 사용자에게 표시하고 최종 사용자가 작업 실행을 수동으로 관리 할 수 있도록합니다. 유향 비순환 그래프는 실행 컨텍스트를 설정하고 작업을 구성하는 데만 사용됩니다. Airflow에서 작업은 스크래핑 스크립트를 실행하는 중요한 요소입니다. 스크래핑에서 작업은 다음을 포함하는 두 가지 맛으로 구성됩니다.

  • 운영자

경우에 따라 작업은 최종 사용자가 지정한대로 작업을 실행하는 연산자로 작동합니다. 연산자는 스크래핑 스크립트 및 Python 프로그래밍 언어로 수행 할 수있는 기타 기능을 실행하도록 설계되었습니다.

  • 감지기

센서로 작동하는 작업도 개발되었습니다. 이 경우 워크 플로가 원활하게 실행되는 기준이 충족 될 때까지 서로 의존하는 작업의 실행을 일시 중지 할 수 있습니다.

기류는 다른 분야에서 스크래핑 스크립트를 실행하는 데 사용됩니다. 다음은 기류 사용 방법에 대한 안내서입니다.

  • 브라우저를 열고 사용자 인터페이스를 확인하십시오
  • 실패한 워크 플로를 확인하고 클릭하여 잘못된 작업을 확인하십시오.
  • 실패 원인을 확인하려면 "로그보기"를 클릭하십시오. 대부분의 경우 비밀번호 인증 실패로 인해 워크 플로우 실패가 발생합니다.
  • 관리자 섹션으로 이동하여 "연결"을 클릭하십시오. Postgres 연결을 편집하여 새 비밀번호를 검색하고 "저장"을 클릭하십시오.
  • 브라우저를 다시 방문하여 실패한 작업을 클릭하십시오. 다음에 작업이 성공적으로 실행되도록 작업을 클릭하고 "삭제"를 누릅니다.

고려해야 할 다른 파이썬 스케줄러

크론

Cron은 일정한 간격, 날짜 및 시간으로 스크래핑 스크립트를 주기적으로 실행하는 데 사용되는 Unix 기반 OS입니다. 이 라이브러리는 주로 소프트웨어 환경을 유지 관리하고 설정하는 데 사용됩니다.

루이지

Luigi는 시각화 및 종속성 해결을 처리 할 수있는 Python 모듈입니다. Luigi는 복잡한 작업 수집 파이프 라인을 만드는 데 사용됩니다.

Airflow는 종속성 관리 프로젝트를 처리하는 데 사용되는 Python의 스케줄러 라이브러리입니다. 기류에서 작업 실행은 서로 다릅니다. 일관된 결과를 얻으려면 1 시간 또는 2 시간마다 Airflow 스크립트가 자동으로 실행되도록 설정할 수 있습니다.