Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

...

Sv translation
languageja

MLプロジェクトでデータを処理できるように、最初に読込が必要があります。データは、CSVファイル、XLSファイル、データベース、データセット、または一時テーブルから読み込めます。BellaDati ML Studioでは行ごとに、またはストリームとしてデータを読み込む手段が2つあります。 

1行ずつ読み込む

行ごとにデータを読み込む場合、ファイルの行ごとにサイクルの中身(クロージャ)が実行されます。

各行(サイクル)ごとに、下記の変数が設定されます。

  • row
  • values[n]現行の行に向けのnコラム目の戻り値
  • columns[n]nコラム目の戻り名称(ヘッダ)
  • index行の戻り番号

CSVファイルからの読込

readCSVFile()の関数の目的はCSVファイルからデータを読込する為です。 

この関数は以下のように定義されます。

Code Block
languagegroovy
readCSVFile(String file, String separator, String escape, int limit, Closure<Object> closure)

パラメータ

パラメータ「file」及び「separator」は必須であるが、パラメーラ「escape」、「limit」、「closure」は任意です。

  • file読込対象ファイル名を定義します。このファイルはプロジェクトへアップロードする必要があります。
  • separatorコンマ、セミコロンなどの各値の間に区切り文字を定義します。
  • escape - テキストのエスケープ文字を定義します。
  • limit - 読込対象行の制限を定義する。
  • closure - クロージャはファイルの各行のごとに実行されるコードブロックです。クロージャはパラメータまたは中括弧で関数の本体として書込みがあります。基本的は必須ですが、任意のパラメータとして設定することができます。詳細は、Groovyクロージャを参照してください。

使用例

Code Block
languagegroovy
linenumberstrue
def rows = 0
readCSVFile('file.csv', ',', '', 10) {
  rows++
  println index
  println values[1]
}
println rows
このコードはファイルの先頭10行の2番目の列の行インデックスと値をコンソールに印刷します。

ループを終了した後、総計反復回数を表示ます。この場合には10になります。

XLSファイルからの読込

readXLSFile()の関数の目的はXLSファイルからデータを読込する為です。 

この関数は以下のように定義されます。

Code Block
languagegroovy
readXLSFile(String file, int limit, Closure<Object> closure)

パラメータ

パラメータ「file 」は必須ですが、パラメータ「limit」及び「closure 」は任意です。

  • file - 読込対象ファイル名を定義します。このファイルはプロジェクトへアップロードする必要があります。
  • limit - 読込対象行の制限を定義する。
  • closure - クロージャはファイルの各行のごとに実行されるコードブロックです。クロージャはパラメータまたは中括弧で関数の本体として書込みがあります。基本的は必須ですが、任意のパラメータとして設定することができます。詳細は、Groovyクロージャを参照してください。

使用例

Code Block
languagegroovy
linenumberstrue
def rows = 0
readXLSFile('samplexls.xls', 5){
  rows++
  println index
  println values[1]
}

println rows
このコードはファイルの先頭5行の2番目の列の行インデックスと値をコンソールに印刷します。

ループを終了した後、総計反復回数を表示ます。この場合には5になります。

SQLデータベースからの読込

readSQLの関数の目的はSQLデータベースからデータを読込する為です。

この関数はBellaDati に事前に定義されているSQL接続を使用します。

詳細はデータソースをご参照ください。

この関数は以下のように定義されます。

Code Block
languagegroovy
readSQL(Long id, String sql, int limit, Closure<Object> closure)

パラメータ

パラメータ「id」及び「sql」は必須ですが、パラメータ「limit」及び「closure」は任意です。

  • idデータソースのIDを定義します。
  • sqlSQLクエリを定義します。
  • limit - 読込対象行の制限を定義する。
  • closure - クロージャはファイルの各行のごとに実行されるコードブロックです。クロージャはパラメータまたは中括弧で関数の本体として書込みがあります。基本的は必須ですが、任意のパラメータとして設定することができます。詳細は、Groovyクロージャを参照してください。

使用例

Code Block
languagegroovy
linenumberstrue
readSQL(1, 'select * from customers', 10) {
  println values[0]
  rows++
  println columns[0]
	}
println rows

このコードはID 1のデータベース接続を使用することで得意先テーブルから10行分で全てのコラムを読み込みます。

データセットからの読込

readDataset()の関数の目的はデータセットからデータを読込する為です。 

この関数は以下のように定義されます。

Code Block
languagegroovy
readDataset(Integer id, int limit, Closure<Object> closure)

パラメータ

パラメータ「id」は必須ですが、パラメータ「limit」及び「closure」は任意です。

  • id - データセットのIDを定義します。コードビルダーに設定されることも、データセットのURLに設定することもできます
  • limit - 読込対象行の制限を定義する。
  • closure - クロージャはファイルの各行のごとに実行されるコードブロックです。クロージャはパラメータまたは中括弧で関数の本体として書込みがあります。基本的は必須ですが、任意のパラメータとして設定することができます。詳細は、Groovyクロージャを参照してください。

使用例

Code Block
languagegroovy
linenumberstrue
readDataset(10,5) {
  println values[0]
  println columns[0]
}

このコードはID 10のデータセットを使用することで5行分で一番目のコラムの名称・値を読み込みます。

テーブルからの読込

table()の関数の目的は事前にプロジェクトに保存された一時テーブルからデータを読込する為です。このテーブルは現行のセッションにのみ使用できます。この関数は以下のように定義されます。

Code Block
languagegroovy
table(String id, Closure<Object> closure)

パラメータ

パラメータ「id」は必須ですが、パラメータ「closure」は任意です。

  • id - テーブルのID(名称)を定義します。テーブルを作成する時にIDを設定します。
  • closure - クロージャはファイルの各行のごとに実行されるコードブロックです。クロージャはパラメータまたは中括弧で関数の本体として書込みがあります。基本的は必須ですが、任意のパラメータとして設定することができます。詳細は、Groovyクロージャを参照してください。

使用例

Code Block
languagegroovy
linenumberstrue
table('table') {
  println values[0]
  }

このコードはファイルの各行毎の1番目の列の値をコンソールに印刷します。

ストリームとして読み込む
Anchor
stream
stream

ストリームとしてデータを読み込む場合、行は反復されませんが、その代わりに入力ストリームとして一度に送信します。通常は1行ずつ読むのが良いです。Pythonスクリプトなど必要に応じてストリームだけを利用すると提案します。

CSVファイルからのストリーム

streamCSVFile()の関数の目的はCSVファイルからデータをストリームする為です。この関数は以下のように定義されます。

Code Block
languagegroovy
streamCSVFile(String file, String separator, String escape, int limit)

パラメータ

パラメータ「file」及び separator 」は必須ですが、パラメータ「escape」及び「limit 」は任意です。

  • file - 読込対象ファイル名を定義します。このファイルはプロジェクトへアップロードする必要があります。
  • separator - コンマ、セミコロンなどの各値の間に区切り文字を定義します。
  • escape - テキストのエスケープ文字を定義します。
  • limit - 読込対象行の制限を定義する。

使用例

Code Block
languagegroovy
linenumberstrue
println org.apache.commons.io.IOUtils.toString(streamCSVFile('train_v2.csv',','))

このコードはコンマで区切りられるファイルの全ての値を印刷します。

XLSファイルからのストリーム

streamXLSFile()の関数の目的はXLSファイルからデータをストリームする為です。この関数は以下のように定義されます。

Code Block
languagegroovy
streamXLSFile(String file, int limit)

パラメータ

パラメータ「fileは必須ですが、パラメータ「limit 」は任意です。

  • file - 読込対象ファイル名を定義します。このファイルはプロジェクトへアップロードする必要があります。
  • limit - 読込対象行の制限を定義する。

使用例

Code Block
languagegroovy
linenumberstrue
println org.apache.commons.io.IOUtils.toString(streamXLSFile('samplexls.xls',5))

このコードはコンマで区切りられるファイルの先頭5行を印刷します。

SQLデータベースからのストリーム

streamXLSFile()の関数の目的はXLSファイルからデータをストリームする為です。この関数は以下のように定義されます。

Code Block
languagegroovy
streamSQL(Long id, String sql, int limit)

パラメータ

パラメータ「id 」は必須です。

  • id - データセットのIDを定義します。コードビルダーに設定されることも、データセットのURLに設定することもできます

使用例

Code Block
languagegroovy
linenumberstrue
println org.apache.commons.io.IOUtils.toString(streamSQL(1, 'select * from table',5))

このコードはコンマで区切りられるテーブルの先頭5行を印刷します。

データセットからのストリーム

streamDataset()の関数の目的はデータセットからデータをストリームする為です。この関数は以下のように定義されます。

Code Block
languagegroovy
streamDataset(Integer id)

パラメータ

パラメータ「id」は必須です。

  • id - データソースのIDを定義します。コードビルダーに設定されます。

使用例

Code Block
languagegroovy
linenumberstrue
println org.apache.commons.io.IOUtils.toString(streamDataset(1))

このコードがデータセットから全ての列を印刷します。

テーブルからのストリーム

streamTable()関数の目的はプロジェクトに事前に保存された一時テーブルからデータをストリームする為です。このテーブルは現行のセッションだけに利用可能です。この関数は以下のように定義されます。

Code Block
languagegroovy
streamTable(Integer id)

パラメータ

パラメータ「id」は必須です。

  • id - テーブルのID(名称)を定義します。テーブルを作成する時にIDを設定します。

使用例

Code Block
languagegroovy
linenumberstrue
println org.apache.commons.io.IOUtils.toString(streamTable('table'))

このコードがテーブルから全ての列を印刷します。

Sv translation
languagede

Laden von Daten [Original Seitentitel]

Um mit Daten in einem ML-Projekt arbeiten zu können, müssen diese zuerst geladen werden. Daten können aus einer CSV-Datei, einer XLS-Datei, einer Datenbank, einem Datensatz oder einer temporären Tabelle geladen werden. Es gibt zwei Möglichkeiten, Daten in BellaDati ML Studio zu lesen - Zeile für Zeile oder als Stream.

Zeile für Zeile lesen

Beim zeilenweisen Lesen der Daten wird der Inhalt des Zyklus (Abschluss) für jede Zeile der Datei ausgeführt. Für jede Zeile (Zyklus) werden diese Variablen festgelegt:

  • Reihe
  • Werte [n] - gibt den Wert in der n-ten Spalte für die aktuelle Zeile zurück.
  • Spalten [n] - gibt den Namen (Kopfzeile) der n-ten Spalte zurück.
  • Index - gibt die Nummer der Zeile zurück

Aus CSV-Datei lesen

Die Funktion readCSVFile () dient zum Laden von Daten aus einer CSV-Datei. Die Funktion ist wie folgt definiert:

Code Block
languagegroovy
readCSVFile(String file, String separator, String escape, int limit, Closure<Object> closure)

Parameter

Die Parameter file und separator sind obligatorisch, die Parameter Escape, Limit und Closure sind optional.

  • Datei - Definiert den Namen der Datei, die gelesen werden soll. Diese Datei muss in das Projekt hochgeladen werden.
  • Trennzeichen - Definiert das Trennzeichen zwischen Werten. Kann Komma, Semikolon usw. sein
  • Escape - Definiert ein Zeichen, das für das Escape von Text verwendet wird.
  • Limit - definiert die Anzahl der Zeilen, die geladen werden.
  • Schließung - Schließung ist ein Codeblock, der für jede Zeile der Datei ausgeführt wird. Der Abschluss muss entweder als Parameter oder als Funktionskörper in geschweiften Klammern geschrieben werden. Daher ist es optional als Parameter, aber im Allgemeinen obligatorisch. Weitere Informationen finden Sie unter Groovy Closure.

Sample usage

Code Block
languagegroovy
linenumberstrue
def rows = 0
readCSVFile('file.csv', ',', '', 10) {
  rows++
  println index
  println values[1]
}
println rows

Dieser Code gibt den Zeilenindex und den Wert der zweiten Spalte für die ersten 10 Zeilen der Datei an die Konsole aus. Nach Beendigung der Schleife wird die Gesamtzahl der Iterationen angezeigt, in diesem Fall 10.

Lesen aus XLS-Datei

Die Funktion readSQL dient zum Laden von Daten aus einer SQL-Datenbank. Diese Funktion verwendet SQL-Verbindungen, die zuvor in BellaDati definiert wurden. Weitere Informationen finden Sie unter Datenquellen.

Die Funktion ist wie folgt definiert:

Code Block
languagegroovy
readXLSFile(String file, int limit, Closure<Object> closure)

Parameter

Die Parameterdatei ist obligatorisch, die Begrenzung und die Schließung der Parameter ist optional. 
  • Datei - Definiert den Namen der Datei, die gelesen werden soll. Diese Datei muss in das Projekt hochgeladen werden.
  • Limit - definiert die Anzahl der Zeilen, die geladen werden.
  • Schließung - Schließung ist ein Codeblock, der für jede Zeile der Datei ausgeführt wird. Der Abschluss muss entweder als Parameter oder als Funktionskörper in geschweiften Klammern geschrieben werden. Daher ist es optional als Parameter, aber im Allgemeinen obligatorisch. Weitere Informationen finden Sie unter Groovy closures.

Sample usage

Code Block
languagegroovy
linenumberstrue
def rows = 0
readXLSFile('samplexls.xls', 5){
  rows++
  println index
  println values[1]
}

println rows

Dieser Code gibt den Zeilenindex und den Wert der zweiten Spalte für die ersten 5 Zeilen der Datei an die Konsole aus. Nach Beendigung der Schleife wird die Gesamtzahl der Iterationen angezeigt, in diesem Fall 5.

Lesen aus der SQL-Datenbank

Die Funktion readSQL dient zum Laden von Daten aus einer SQL-Datenbank. Diese Funktion verwendet SQL-Verbindungen, die zuvor in BellaDati definiert wurden. Weitere Informationen finden Sie unter Datenquellen.

Die Funktion ist wie folgt definiert:

 

Code Block
languagegroovy
readSQL(Long id, String sql, int limit, Closure<Object> closure)

Parameter

Die Parameter id und sql sind obligatorisch, die Parameter Limit und Closure sind optional.

  • id - Definiert die ID der Datenquelle. Sie kann vom Code-Builder festgelegt werden.
  • sql - Definiert die SQL-Abfrage.
  • limit - Definiert die Grenze der Zeilen, die geladen werden.
  • closure - Schließung ist ein Codeblock, der für jede Zeile der Datei ausgeführt wird. Der Abschluss muss entweder als Parameter oder als Funktionskörper in geschweiften Klammern geschrieben werden. Daher ist es optional als Parameter, aber im Allgemeinen obligatorisch. Weitere Informationen finden Sie unter Groovy closures.

Verwendungsbeispiel

Code Block
languagegroovy
linenumberstrue
readSQL(1, 'select * from customers', 10) {
  println values[0]
  rows++
  println columns[0]
	}
println rows

Dieser Code verwendet die Datenbankverbindung mit ID 1 und lädt alle Spalten für 10 Zeilen von Tabellenkunden.

Lesen aus dem Datensatz

Die Funktion readDataset () dient zum Laden von Daten aus einem Datensatz. Die Funktion ist wie folgt definiert:

Code Block
languagegroovy
readDataset(Integer id, int limit, Closure<Object> closure)

Parameter

Die Parameter-ID ist obligatorisch, Parameterbegrenzung und -abschluss sind optional.

  • id - Definiert die ID des Datensatzes. Es kann vom Code Builder festgelegt werden oder in der URL des Datensatzes gefunden werden.
  • limit - Definiert die Grenze der Zeilen, die geladen werden.
  • closure - Schließung ist ein Codeblock, der für jede Zeile der Datei ausgeführt wird. Der Abschluss muss entweder als Parameter oder als Funktionskörper in geschweiften Klammern geschrieben werden. Daher ist es optional als Parameter, aber im Allgemeinen obligatorisch. Weitere Informationen finden Sie unter Groovy closures.

Verwendungsbeispiel

Code Block
languagegroovy
linenumberstrue
readDataset(10,5) {
  println values[0]
  println columns[0]
}

Dieser Code verwendet einen Datensatz mit der ID 10 und lädt den Namen und den Wert der ersten Spalte für 5 Zeilen.

Lesen aus der Tabelle

FDie Funktionstabelle () kann zum Laden von Daten aus einer temporären Tabelle verwendet werden, die zuvor im Projekt gespeichert wurde. Die Tabelle ist nur für die aktuelle Sitzung verfügbar. Die Funktion ist wie folgt definiert:

Code Block
languagegroovy
table(String id, Closure<Object> closure)

Parameter

Die Parameter-ID ist obligatorisch, das Schließen von Parametern ist optional.

  • id - Definiert die ID (Name) der Tabelle. Wird beim Erstellen der Tabelle festgelegt.
  • closure - Definiert die ID (Name) der Tabelle. Wird beim Erstellen der Tabelle festgelegt.

Verwendungsbeispiel

Code Block
languagegroovy
linenumberstrue
table('table') {
  println values[0]
  }

Dieser Code gibt den Wert der ersten Spalte für jede Zeile der Tabelle an die Konsole aus.

Lesen als Stream
Anchor
stream
stream

Beim Lesen von Daten als Stream werden die Zeilen nicht iteriert, sondern als ein Eingabestrom auf einmal gesendet. In den meisten Fällen ist es besser, Zeilen für Zeilen zu lesen. Wir empfehlen die Verwendung von Streams nur bei Bedarf, z. B. bei einigen Python-Skripts.

Streaming aus einer CSV-Datei

Die Funktion streamCSVFile () wird zum Streaming von Daten aus einer CSV-Datei verwendet. Die Funktion ist wie folgt definiert:

Code Block
languagegroovy
streamCSVFile(String file, String separator, String escape, int limit)

Parameter

Die Parameter file und separator sind obligatorisch, die Parameter escape und limit sind optional.

  • file - Definiert den Namen der Datei, die gelesen werden soll. Diese Datei muss in das Projekt hochgeladen werden.
  • separator - Definiert das Trennzeichen zwischen Werten. Kann Komma, Semikolon usw. sein
  • escape - Definiert ein Zeichen, das für die Escape-Funktion von Text verwendet wird.
  • limit - Definiert die Grenze der Zeilen, die geladen werden.

Verwendungsbeispiel

Code Block
languagegroovy
linenumberstrue
println org.apache.commons.io.IOUtils.toString(streamCSVFile('train_v2.csv',','))

Dieser Code druckt alle Werte aus der Datei, getrennt durch ein Komma.

Streaming aus einer XLS-Datei

Die Funktion streamXLSFile () wird zum Streaming von Daten aus einer XLS-Datei verwendet. Die Funktion ist wie folgt definiert:

Code Block
languagegroovy
streamXLSFile(String file, int limit)

Parameter

Die Parameterdatei ist obligatorisch, die Parameterbegrenzung ist optional.

  • file - Definiert den Namen der Datei, die gelesen werden soll. Diese Datei muss in das Projekt hochgeladen werden.
  • limit - Definiert die Anzahl der Zeilen, die geladen werden sollen.

Verwendungsbeispiel

Code Block
languagegroovy
linenumberstrue
println org.apache.commons.io.IOUtils.toString(streamXLSFile('samplexls.xls',5))

Dieser Code druckt die ersten fünf Zeilen der Datei, wobei die Werte durch ein Komma getrennt sind.

Streaming aus SQL-Datenbank

Die Funktion streamXLSFile () wird zum Streaming von Daten aus einer XLS-Datei verwendet. Die Funktion ist wie folgt definiert:

Code Block
languagegroovy
streamSQL(Long id, String sql, int limit)

Parameter

Parameter id id zwingend.

  • id - Definiert die ID des Datensatzes. Es kann vom Code Builder festgelegt werden oder in der URL des Datensatzes gefunden werden.

Verwendungsbeispiel

Code Block
languagegroovy
linenumberstrue
println org.apache.commons.io.IOUtils.toString(streamSQL(1, 'select * from table',5))

Dieser Code druckt die ersten fünf Zeilen der Tabelle, wobei die Werte durch ein Komma getrennt sind.

Streaming aus Datensatz

Die Funktion streamDataset () wird zum Streaming von Daten aus einem Datensatz verwendet. Die Funktion ist wie folgt definiert:

Code Block
languagegroovy
streamDataset(Integer id)

Parameter

Die Parameter-ID ist obligatorisch.

  • id - Definiert die ID der Datenquelle. Sie kann vom Code-Builder festgelegt werden.

Verwendungsbeispiel

Code Block
languagegroovy
linenumberstrue
println org.apache.commons.io.IOUtils.toString(streamDataset(1))

Dieser Code druckt alle Zeilen aus dem Datensatz

Streaming von der Tabelle

Die Funktion streamTable () kann zum Streaming von Daten aus einer temporären Tabelle verwendet werden, die zuvor im Projekt gespeichert wurde. Die Tabelle ist nur für die aktuelle Sitzung verfügbar. Die Funktion ist wie folgt definiert:

Code Block
languagegroovy
streamTable(Integer id)

Parameter

Die Parameter-ID ist obligatorisch.

  • id -Definiert die ID (Name) der Tabelle. Wird beim Erstellen der Tabelle festgelegt.

Verwendungsbeispiel

Code Block
languagegroovy
linenumberstrue
println org.apache.commons.io.IOUtils.toString(streamTable('table'))

Dieser Code druckt alle Zeilen aus der Tabelle.