PythonからElasticsearchのbulk処理実行時のエラーを出力、加工する

release: 2018-06-09 update: 2020-09-21

調べた際に、そのものズバリで引っかからなかったので念の為残しておく。以下のように、bulk処理をtryで実行し、exceptでhelpers.BulkIndexError.errorsを指定することで、エラーリストを取得できるようだ。

Elasticsearch 5.4でIndexのSnapshotを取得してバックアップ・リストアをする

release: 2018-06-06 update: 2020-09-21

Elasticsearchでは、Snapshotという機能を使うことでIndexのバックアップを取得することができるらしい。別ディスクにオンタイムで取得できるらしく、使い勝手はよさそう。

1. Snapshot用リポジトリの作成

Snapshotを取得するにあたり、事前にElasticsearch側にSnapshot用のリポジトリを作成する必要がある(取得対象となるリポジトリとは別)。 Snapshotの保存先ディレクトリについても作成する必要があるので、まず最初にSnapshot用のディレクトリを作成する。

sudo mkdir -p /path/to/snapshot
sudo chown elasticsearch:elasticsearch /path/to/snapshot

ディレクトリを作成したら、Elasticsearchの設定ファイル(/etc/elasticsearch/elasticsearch.yml)に以下のように追記をする。

Elasticsearch 5.3でメールアドレス登録時にドメインだけを抜き出してfieldに登録するようmappingする

release: 2018-03-27 update: 2020-09-21

Elasticsearchでメールアドレスを登録する際、ドメイン名でのみヒットするようにしたいということがあったので、そのいった処理ができるようanalyzerを設定してみたのでその備忘。今まで知らなかったのだけど、Analyzerで指定できるchar_filterでは正規表現での値の置換が行えるらしく、それで@より前を全て削除することでドメインのみをtokenとして登録できるようだ。

以下、定義用のjsonサンプル。

{
  "settings": {
    "analysis": {
      "analyzer": {
        "domain_split_analy...

Elasticsearchでドメイン用のAnalyzerを定義する

release: 2018-03-23 update: 2020-09-21

Elasticsearchにメールアドレスを放り込む際、どうもサブドメイン等でSearchを行う際にうまく検索ができないことがあった。そもそもElasticsearchの検索の仕組みをよく理解できてなかったのもあるのだが、ドキュメント作成時にAnalyzerで分割した文字単位で検索を行うようだ。で、その差異にデフォルトのAnalyzerではうまくメールアドレスの分割ができていなかったのが原因のようだ。

Elasticsearchでは、以下のようにリクエストを投げることでAnalyzerでどのように分割されるのかを見ることができるので、それでメールアドレスがどのように分割されるのか見てみ...

PythonでElasticsearchからAggregationsの結果を10件以上取得する

release: 2018-03-03 update: 2020-09-21

ElasticsearchでAggregationsを使って集計処理を行っていたところ、どうも件数が少なかった。で調べてみたところ、どうやら抽出結果と同じくこちらもデフォルトでは10件までしか取得できないらしい。

で、集計結果を10件以上取得するにはどうすれば良いのかなと調べてみたところ、どうやらクエリ内でサイズを指定して、そこから取得する必要があるようだ。上限は10,000件らしい。

    s_base_query = {
        'query':{'bool':{'must':[],'should':[]}},
        'size': 0,
        'a...

PythonでElasticsearch 5からscrollを使って検索結果をすべて取得する

release: 2018-03-02 update: 2020-09-21

Pythonを使ってElasticsearchからデータを取ってくる際、どうも計算が合わない。なんでだろうなぁと思い調べてみたところ、どうやらElasticsearchではデータを取得する際、デフォルトでは10件までしか取得できないらしい。で、10件以上のデータを取得する場合だと、以下の方法があるようだ。

scrollでデータを繰り返し取得して条件にあったデータを全て取得してくる
query実行時にsizeを指定することで指定した件数までのデータを取得する(上限は10,000まで？)

上限があるというのもあり、2個目の方法はちょっと… という訳で、scrollで処理をさせることに...

俺的備忘録〜なんかいろいろ〜

Blog

Documents

Tools

PythonからElasticsearchのbulk処理実行時のエラーを出力、加工する

Elasticsearch 5.4でIndexのSnapshotを取得してバックアップ・リストアをする

1. Snapshot用リポジトリの作成

Elasticsearch 5.3でメールアドレス登録時にドメインだけを抜き出してfieldに登録するようmappingする

Elasticsearchでドメイン用のAnalyzerを定義する

PythonでElasticsearchからAggregationsの結果を10件以上取得する

PythonでElasticsearch 5からscrollを使って検索結果をすべて取得する

俺的備忘録

〜なんかいろいろ〜

最近の投稿

PythonからElasticsearchのbulk処理実行時のエラーを出力、加工する

Elasticsearch 5.4でIndexのSnapshotを取得してバックアップ・リストアをする

Elasticsearch 5.3でメールアドレス登録時にドメインだけを抜き出してfieldに登録するようmappingする

Elasticsearchでドメイン用のAnalyzerを定義する

PythonでElasticsearchからAggregationsの結果を10件以上取得する

Twitter

Sponsored Link

1. Snapshot用リポジトリの作成

Other Page

Sponsored Link

最近の投稿

Twitter

Sponsored Link