Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.
Comment: Removed translated content for 'zh'
Sv translation
languageen

To be able to work with data in a ML Project, they first need to be loaded. Data can be loaded from a CSV file, XLS file, database, data set or a temporary table. There two ways how to read data in BellaDati ML Studio - row by row or as an stream. 

Reading Row by row

When reading data row by row, the content of the cycle (closure) is executed for each row of of the file. For each row (cycle), these variables are set:

  • row
  • values[n] - returns value in n-th column for current row.
  • columns[n] - returns name (header) of n-th column.
  • index - returns number of the row.

Reading from CSV File

Function readCSVFile() is used for loading data from a CSV file. The function is defined like this:

Code Block
languagegroovy
readCSVFile(String file, String separator, String escape, int limit, Closure<Object> closure)

Parameters

Parameters file and separator are mandatory, parameters escape, limit and closure are optional.

  • file - defines the name of file which should be read. This file needs to be uploaded to the project.
  • separator - defines the separator between values. Can be comma, semicolon etc.
  • escape - defines character which is used of escaping of text.
  • limit - defines the limit of rows which will be loaded.
  • closure - closure is a block of code that is executed for each line of the file. The closure has to be written either as a parameter or as a body of the function in curly braces. Therefore it is optional as parameter but mandatory in general. See Groovy closures for more information.

Sample usage

Code Block
languagegroovy
linenumberstrue
def rows = 0
readCSVFile('file.csv', ',', '', 10) {
  rows++
  println index
  println values[1]
}
println rows

This code will print the row index and value of second column for first 10 rows of the file to the console. After finishing the loop it will display the total number of iterations, in this case 10.

Reading from XLS File

Function readXLSFile() is used for loading data from XLS file. The function is defined like this:

Code Block
languagegroovy
readXLSFile(String file, int limit, Closure<Object> closure)

Parameters

Parameters file is mandatory, parameters limit and closure are optional.

  • file - defines the name of file which should be read. This file needs to be uploaded to the project.
  • limit - defines the limit of rows which will be loaded.
  • closure - closure is a block of code that is executed for each line of the file. The closure has to be written either as a parameter or as a body of the function in curly braces. Therefore it is optional as parameter but mandatory in general. See Groovy closures for more information.

Sample usage

Code Block
languagegroovy
linenumberstrue
def rows = 0
readXLSFile('samplexls.xls', 5){
  rows++
  println index
  println values[1]
}

println rows

This code will print the row index and value of second column for first 5 rows of the file to the console. After finishing the loop it will display the total number of iterations, in this case 5.

Reading from SQL Database

Function readSQL is used for loading data from an SQL database. This function uses SQL connections which were previously defined in BellaDati. See Data Sources for more information.

The function is defined like this:

Code Block
languagegroovy
readSQL(Long id, String sql, int limit, Closure<Object> closure)

Parameters

Parameters id and sql are mandatory, parameters limit and closure are optional.

  • id - defines the id of the data source. It can be set by the Code builder.
  • sql - defines the sql query.
  • limit - defines the limit of rows which will be loaded.
  • closure - closure is a block of code that is executed for each line of the file. The closure has to be written either as a parameter or as a body of the function in curly braces. Therefore it is optional as parameter but mandatory in general. See Groovy closures for more information.

Sample usage

Code Block
languagegroovy
linenumberstrue
readSQL(1, 'select * from customers', 10) {
  println values[0]
  rows++
  println columns[0]
	}
println rows

This code will use database connection with ID 1 and it will load all columns for 10 rows from table customers.

Reading from Data Set

Function readDataset() is used for loading data from a data set. The function is defined like this:

Code Block
languagegroovy
readDataset(Integer id, int limit, Closure<Object> closure)

Parameters

Parameter id is mandatory, parameters limit and closure are optional.

  • id - defines the id of the data set. It can be set by the Code builder or it can be found in the URL of the data set.
  • limit - defines the limit of rows which will be loaded.
  • closure - closure is a block of code that is executed for each line of the file. The closure has to be written either as a parameter or as a body of the function in curly braces. Therefore it is optional as parameter but mandatory in general. See Groovy closures for more information.

Sample usage

Code Block
languagegroovy
linenumberstrue
readDataset(10,5) {
  println values[0]
  println columns[0]
}

This code will use data set with ID 10 and it will load name and value of first column for 5 rows.

Reading from Table

Function table() can be used for loading data from a temporary table which was previously stored in the project. The table is available for current session only. The function is defined like this:

Code Block
languagegroovy
table(String id, Closure<Object> closure)

Parameters

Parameters id is mandatory, parameter closure is optional.

  • id - defines the id (name) of the table. It is set when creating the table.
  • closure - closure is a block of code that is executed for each line of the file. The closure has to be written either as a parameter or as a body of the function in curly braces. Therefore it is optional as parameter but mandatory in general. See Groovy closures for more information.

Sample usage

Code Block
languagegroovy
linenumberstrue
table('table') {
  println values[0]
  }

This code will print value of first column for each row of the table to the console.

Reading as a Stream
Anchor
stream
stream

When reading data as a stream, the rows are not iterated, but instead sent all at once as na input stream. In most cases, it is better to use reading row by row. We suggest using streams only when necessary, for example with some Python scripts.

Streaming from CSV file

Function streamCSVFile() is used for streaming data from a CSV file. The function is defined like this:

Code Block
languagegroovy
streamCSVFile(String file, String separator, String escape, int limit)

Parameters

Parameters file and separator are mandatory, parameters escape and limit are optional.

  • file - defines the name of file which should be read. This file needs to be uploaded to the project.
  • separator - defines the separator between values. Can be comma, semicolon etc.
  • escape - defines character which is used of escaping of text.
  • limit - defines the limit of rows which will be loaded.

Sample usage

Code Block
languagegroovy
linenumberstrue
println org.apache.commons.io.IOUtils.toString(streamCSVFile('train_v2.csv',','))

This code will print the all values from the file, separated by a comma.

Streaming from XLS file

Function streamXLSFile() is used for streaming data from a XLS file. The function is defined like this:

Code Block
languagegroovy
streamXLSFile(String file, int limit)

Parameters

Parameters file is mandatory, parameter limit is optional.

  • file - defines the name of file which should be read. This file needs to be uploaded to the project.
  • limit - defines the limit of rows which will be loaded.

Sample usage

Code Block
languagegroovy
linenumberstrue
println org.apache.commons.io.IOUtils.toString(streamXLSFile('samplexls.xls',5))

This code will print first five rows from the file, with values separated by a comma.

Streaming from SQL database

Function streamXLSFile() is used for streaming data from a XLS file. The function is defined like this:

Code Block
languagegroovy
streamSQL(Long id, String sql, int limit)

Parameters

Parameters id id mandatory.

  • id - defines the id of the data set. It can be set by the Code builder or it can be found in the URL of the data set.

Sample usage

Code Block
languagegroovy
linenumberstrue
println org.apache.commons.io.IOUtils.toString(streamSQL(1, 'select * from table',5))

This code will print first five rows from the table, with values separated by a comma.

Streaming from Data set

Function streamDataset() is used for streaming data from a data set. The function is defined like this:

Code Block
languagegroovy
streamDataset(Integer id)

Parameters

Parameters id is mandatory.

  • id - defines the id of the data source. It can be set by the Code builder.

Sample usage

Code Block
languagegroovy
linenumberstrue
println org.apache.commons.io.IOUtils.toString(streamDataset(1))

This code will print all rows from the data set.

Streaming from Table

Function streamTable() can be used for streaming data from a temporary table which was previously stored in the project. The table is available for current session only. The function is defined like this:

Code Block
languagegroovy
streamTable(Integer id)

Parameters

Parameters id is mandatory.

  • id - defines the id (name) of the table. It is set when creating the table.

Sample usage

Code Block
languagegroovy
linenumberstrue
println org.apache.commons.io.IOUtils.toString(streamTable('table'))

This code will print all rows from the table.

Sv translation
languageja

MLプロジェクトでデータを操作するには、まずデータをロードする必要があります。データは、CSVファイル、XLSファイル、データベース、データセット、一時テーブルからロードできます。 BellaDati ML Studioで、行ごとまたはストリームとしてデータを読み取る方法は2つあります。

行ごとの読み取り

行ごとにデータを読み取る場合、サイクルの内容(クロージャー)がファイルの各行に対して実行されます。行(サイクル)ごとに、これらの変数が設定されます:

  • row
  • values[n]現在の行のn番目の列の値を返します。
  • columns[n]n番目の列の名前(ヘッダー)を返します。
  • index行の番号を返します。

CSVファイルからの読み取り

readCSVFile()関数は、CSVファイルからデータをロードするために使用されています。関数は次のように定義されます:

Code Block
languagegroovy
readCSVFile(String file, String separator, String escape, int limit, Closure<Object> closure)

パラメーター

パラメーター「file」「separator」は必須で、パラメーター「escape」「limit」「closure」は任意です。

  • file読み込むファイルの名前を定義します。このファイルをプロジェクトにアップロードする必要があります。
  • separator値間の区切り文字(カンマ、セミコロンなど)を定義します。
  • escape - テキストのエスケープに使用される文字を定義します。
  • limit - ロードされる行の制限を定義します。
  • closure - クロージャーは、ファイルの各行に対して実行されるコードのブロックです。クロージャーはパラメーターとして、または関数の本体として中括弧で記述する必要があります。従って、パラメーターとしてオプションですが、一般的に必須です。詳細については、Groovy closuresを参照してください。

使用例

Code Block
languagegroovy
linenumberstrue
def rows = 0
readCSVFile('file.csv', ',', '', 10) {
  rows++
  println index
  println values[1]
}
println rows

このコードは、ファイルの最初の10行の行インデックスと2列目の値をコンソールに出力します。ループの終了後、反復の総数(この場合は10)が表示されます。

XLSファイルからの読み取り

readXLSFile()関数は、XLSファイルからデータをロードするために使用されます。関数は次のように定義されます:

Code Block
languagegroovy
readXLSFile(String file, int limit, Closure<Object> closure)

パラメーター

パラメーター「file 」は必須で、パラメーター「limit」「closure 」は任意です。

  • file - 読み込むファイルの名前を定義します。このファイルをプロジェクトにアップロードする必要があります。
  • limit - ロードされる行の制限を定義します。
  • closure - クロージャーは、ファイルの各行に対して実行されるコードのブロックです。クロージャーは、パラメーターとして、または関数の本体として中括弧で記述する必要があります。従って、パラメータとしてオプションですが、一般的に必須です。詳細については、Groovyクロージャーを参照してください。

使用例

Code Block
languagegroovy
linenumberstrue
def rows = 0
readXLSFile('samplexls.xls', 5){
  rows++
  println index
  println values[1]
}

println rows

このコードは、ファイルの最初の5行の行インデックスと2列目の値をコンソールに出力します。ループの終了後、反復の総数(この場合は5)が表示されます。

SQLデータベースからの読み取り

readSQL関数は、SQLデータベースからデータをロードするために使用されます。この関数は、以前にBellaDatiで定義されたSQL接続を使用します。詳細については、Data Sourcesを参照してください。

関数は次のように定義されます:

 

Code Block
languagegroovy
readSQL(Long id, String sql, int limit, Closure<Object> closure)

パラメーター

パラメーター「id」「sql」は必須で、パラメーター「limit」「closure」は任意です。

  • idデータソースのIDを定義します。コードビルダーで設定できます。
  • sql - SQLクエリーを定義します。
  • limit - ロードされる行の制限を定義します。
  • closure - クロージャーは、ファイルの各行に対して実行されるコードのブロックです。クロージャーは、パラメーターとして、または関数の本体として中括弧で記述する必要があります。従って、パラメーターとしてオプションですが、一般的に必須です。詳細については、Groovyクロージャーを参照してください。

使用例

Code Block
languagegroovy
linenumberstrue
readSQL(1, 'select * from customers', 10) {
  println values[0]
  rows++
  println columns[0]
	}
println rows

このコードは、ID 1のデータベース接続を使用し、顧客テーブルから10行のすべての列をロードします。

データセットからの読み取り

readDataset()関数は、データセットからデータをロードするために使用されます。関数は次のように定義されます:

Code Block
languagegroovy
readDataset(Integer id, int limit, Closure<Object> closure)

パラメーター

パラメーター「id」は必須で、パラメーター「limit」「closure」は任意です。

  • id - データセットのIDを定義します。コードビルダーで設定するか、データセットのURLで見つけることができます。
  • limit - ロードされる行の制限を定義します。
  • closure - クロージャーは、ファイルの各行に対して実行されるコードのブロックです。クロージャーは、パラメーターとして、または関数の本体として中括弧で記述する必要があります。したがって、パラメーターとしてオプションですが、一般的に必須です。詳細については、Groovyクロージャーを参照してください。

使用例

Code Block
languagegroovy
linenumberstrue
readDataset(10,5) {
  println values[0]
  println columns[0]
}

このコードは、ID 10のデータセットを使用し、5行の最初の列の名前と値をロードします。

テーブルからの読み取り

table()関数は、プロジェクトに以前に保存された一時テーブルからデータをロードするために使用できます。このテーブルは、現在のセッションでのみ使用できます。関数は次のように定義されます:

Code Block
languagegroovy
table(String id, Closure<Object> closure)

パラメーター

パラメーター「id」は必須で、パラメーター「closure」は任意です。

  • id - テーブルのid(名前)を定義します。テーブルの作成時に設定されます。
  • closure - クロージャーは、ファイルの各行に対して実行されるコードのブロックです。クロージャーは、パラメーターとして、または関数の本体として中括弧で記述する必要があります。したがって、パラメーターとしてオプションですが、一般的に必須です。詳細については、Groovyクロージャーを参照してください。

使用例

Code Block
languagegroovy
linenumberstrue
table('table') {
  println values[0]
  }

このコードは、テーブルの各行の最初の列の値をコンソールに出力します。

ストリームとして読み込む
Anchor
stream
stream

データをストリームとして読み取る場合、行は繰り返されず、入力ストリームとして一度にすべて送信されます。ほとんどの場合、行ごとの読み取りを使用することをお勧めします。一部のPythonスクリプトなど、必要な場合にのみストリームを使用することをお勧めします。

CSVファイルからのストリーミング

streamCSVFile()関数は、CSVファイルからデータをストリーミングするために使用されます。関数は次のように定義されます:

 

Code Block
languagegroovy
streamCSVFile(String file, String separator, String escape, int limit)

パラメーター

パラメーター「fileseparator 」は必須で、パラメーター「escape」「limit 」は任意です。

  • file - 読み込むファイルの名前を定義します。このファイルをプロジェクトにアップロードする必要があります。
  • separator - 値間の区切り文字(カンマ、セミコロンなど)を定義します。 
  • escape - テキストのエスケープに使用される文字を定義します。
  • limit - ロードされる行の制限を定義します。

使用例

Code Block
languagegroovy
linenumberstrue
println org.apache.commons.io.IOUtils.toString(streamCSVFile('train_v2.csv',','))

このコードは、ファイルのすべての値をコンマで区切って出力します。

XLSファイルからのストリーミング

streamXLSFile()関数は、XLSファイルからデータをストリーミングするために使用されます。関数は次のように定義されます:

Code Block
languagegroovy
streamXLSFile(String file, int limit)

パラメーター

パラメーター「fileは必須で、パラメーター「limit」は任意です。

  • file - 読み込むファイルの名前を定義します。このファイルをプロジェクトにアップロードする必要があります。
  • limit - ロードされる行の制限を定義します。

使用例

Code Block
languagegroovy
linenumberstrue
println org.apache.commons.io.IOUtils.toString(streamXLSFile('samplexls.xls',5))

このコードは、ファイルの最初の5行を、値をコンマで区切って出力します。

SQLデータベースからのストリーミング

streamXLSFile()関数は、XLSファイルからデータをストリーミングするために使用されます。関数は次のように定義されます:

Code Block
languagegroovy
streamSQL(Long id, String sql, int limit)

パラメーター

パラメーター「id 」は必須です。

  • id - データセットのIDを定義します。コードビルダーで設定するか、データセットのURLで見つけることができます。

使用例

Code Block
languagegroovy
linenumberstrue
println org.apache.commons.io.IOUtils.toString(streamSQL(1, 'select * from table',5))

このコードは、テーブルの最初の5行を、値をコンマで区切って出力します。

データセットからのストリーミング

streamDataset()関数は、データセットからデータをストリーミングするために使用されます。関数は次のように定義されます:

Code Block
languagegroovy
streamDataset(Integer id)

パラメーター

パラメーター「id」は必須です。

  • id - データソースのIDを定義します。コードビルダーで設定できます。

使用例

Code Block
languagegroovy
linenumberstrue
println org.apache.commons.io.IOUtils.toString(streamDataset(1))

このコードは、データセットのすべての行を印刷します。

テーブルからのストリーミング

streamTable()関数は、以前にプロジェクトに保存された一時テーブルからデータをストリーミングするために使用できます。このテーブルは、現在のセッションでのみ使用できます。関数は次のように定義されます:

Code Block
languagegroovy
streamTable(Integer id)

パラメーター

パラメーター「id」は必須です。

  • id - テーブルのid(名前)を定義します。テーブルの作成時に設定されます。

使用例

Code Block
languagegroovy
linenumberstrue
println org.apache.commons.io.IOUtils.toString(streamTable('table'))

このコードは、テーブルのすべての行を印刷します。

Sv translation
languagede

Um mit Daten in einem ML-Projekt arbeiten zu können, müssen diese zuerst geladen werden. Daten können aus einer CSV-Datei, einer XLS-Datei, einer Datenbank, einem Dataset oder einer temporären Tabelle geladen werden. Es gibt zwei Möglichkeiten, Daten in BellaDati ML Studio zu lesen - Zeile für Zeile oder als Stream.

Zeile für Zeile lesen

Beim zeilenweisen Lesen der Daten wird der Inhalt des Zyklus (Abschluss) für jede Zeile der Datei ausgeführt. Für jede Zeile (Zyklus) werden diese Variablen festgelegt:

  • Reihe
  • Werte [n] - gibt den Wert in der n-ten Spalte für die aktuelle Zeile zurück.
  • Spalten [n] - gibt den Namen (Kopfzeile) der n-ten Spalte zurück.
  • Index - gibt die Nummer der Zeile zurück

Aus CSV-Datei lesen

Die Funktion readCSVFile () dient zum Laden von Daten aus einer CSV-Datei. Die Funktion ist wie folgt definiert:

Code Block
languagegroovy
readCSVFile(String file, String separator, String escape, int limit, Closure<Object> closure)

Parameter

Die Parameter file und separator sind obligatorisch, die Parameter Escape, Limit und Closure sind optional.

  • Datei - Definiert den Namen der Datei, die gelesen werden soll. Diese Datei muss in das Projekt hochgeladen werden.
  • Trennzeichen - Definiert das Trennzeichen zwischen Werten. Kann Komma, Semikolon usw. sein
  • Escape - Definiert ein Zeichen, das für das Escape von Text verwendet wird.
  • Limit - definiert die Anzahl der Zeilen, die geladen werden.
  • Schließung - Schließung ist ein Codeblock, der für jede Zeile der Datei ausgeführt wird. Der Abschluss muss entweder als Parameter oder als Funktionskörper in geschweiften Klammern geschrieben werden. Daher ist es optional als Parameter, aber im Allgemeinen obligatorisch. Weitere Informationen finden Sie unter Groovy Closure.

Sample usage

Code Block
languagegroovy
linenumberstrue
def rows = 0
readCSVFile('file.csv', ',', '', 10) {
  rows++
  println index
  println values[1]
}
println rows

Dieser Code gibt den Zeilenindex und den Wert der zweiten Spalte für die ersten 10 Zeilen der Datei an die Konsole aus. Nach Beendigung der Schleife wird die Gesamtzahl der Iterationen angezeigt, in diesem Fall 10.

Lesen aus XLS-Datei

Die Funktion readSQL dient zum Laden von Daten aus einer SQL-Datenbank. Diese Funktion verwendet SQL-Verbindungen, die zuvor in BellaDati definiert wurden. Weitere Informationen finden Sie unter Datenquellen.

Die Funktion ist wie folgt definiert:

Code Block
languagegroovy
readXLSFile(String file, int limit, Closure<Object> closure)

Parameter

Die Parameterdatei ist obligatorisch, die Begrenzung und die Schließung der Parameter ist optional. 
  • Datei - Definiert den Namen der Datei, die gelesen werden soll. Diese Datei muss in das Projekt hochgeladen werden.
  • Limit - definiert die Anzahl der Zeilen, die geladen werden.
  • Schließung - Schließung ist ein Codeblock, der für jede Zeile der Datei ausgeführt wird. Der Abschluss muss entweder als Parameter oder als Funktionskörper in geschweiften Klammern geschrieben werden. Daher ist es optional als Parameter, aber im Allgemeinen obligatorisch. Weitere Informationen finden Sie unter Groovy closures.

Sample usage

Code Block
languagegroovy
linenumberstrue
def rows = 0
readXLSFile('samplexls.xls', 5){
  rows++
  println index
  println values[1]
}

println rows

Dieser Code gibt den Zeilenindex und den Wert der zweiten Spalte für die ersten 5 Zeilen der Datei an die Konsole aus. Nach Beendigung der Schleife wird die Gesamtzahl der Iterationen angezeigt, in diesem Fall 5.

Lesen aus der SQL-Datenbank

Die Funktion readSQL dient zum Laden von Daten aus einer SQL-Datenbank. Diese Funktion verwendet SQL-Verbindungen, die zuvor in BellaDati definiert wurden. Weitere Informationen finden Sie unter Datenquellen.

Die Funktion ist wie folgt definiert:

 

Code Block
languagegroovy
readSQL(Long id, String sql, int limit, Closure<Object> closure)

Parameter

Die Parameter id und sql sind obligatorisch, die Parameter Limit und Closure sind optional.

  • id - Definiert die ID der Datenquelle. Sie kann vom Code-Builder festgelegt werden.
  • sql - Definiert die SQL-Abfrage.
  • limit - Definiert die Grenze der Zeilen, die geladen werden.
  • closure - Schließung ist ein Codeblock, der für jede Zeile der Datei ausgeführt wird. Der Abschluss muss entweder als Parameter oder als Funktionskörper in geschweiften Klammern geschrieben werden. Daher ist es optional als Parameter, aber im Allgemeinen obligatorisch. Weitere Informationen finden Sie unter Groovy closures.

Verwendungsbeispiel

Code Block
languagegroovy
linenumberstrue
readSQL(1, 'select * from customers', 10) {
  println values[0]
  rows++
  println columns[0]
	}
println rows

Dieser Code verwendet die Datenbankverbindung mit ID 1 und lädt alle Spalten für 10 Zeilen von Tabellenkunden.

Lesen aus dem Dataset

Die Funktion readDataset () dient zum Laden von Daten aus einem Dataset. Die Funktion ist wie folgt definiert:

Code Block
languagegroovy
readDataset(Integer id, int limit, Closure<Object> closure)

Parameter

Die Parameter-ID ist obligatorisch, Parameterbegrenzung und -abschluss sind optional.

  • id - Definiert die ID des Datasets. Es kann vom Code Builder festgelegt werden oder in der URL des Datasets gefunden werden.
  • limit - Definiert die Grenze der Zeilen, die geladen werden.
  • closure - Schließung ist ein Codeblock, der für jede Zeile der Datei ausgeführt wird. Der Abschluss muss entweder als Parameter oder als Funktionskörper in geschweiften Klammern geschrieben werden. Daher ist es optional als Parameter, aber im Allgemeinen obligatorisch. Weitere Informationen finden Sie unter Groovy closures.

Verwendungsbeispiel

Code Block
languagegroovy
linenumberstrue
readDataset(10,5) {
  println values[0]
  println columns[0]
}

Dieser Code verwendet einen Dataset mit der ID 10 und lädt den Namen und den Wert der ersten Spalte für 5 Zeilen.

Lesen aus der Tabelle

FDie Funktionstabelle () kann zum Laden von Daten aus einer temporären Tabelle verwendet werden, die zuvor im Projekt gespeichert wurde. Die Tabelle ist nur für die aktuelle Sitzung verfügbar. Die Funktion ist wie folgt definiert:

Code Block
languagegroovy
table(String id, Closure<Object> closure)

Parameter

Die Parameter-ID ist obligatorisch, das Schließen von Parametern ist optional.

  • id - Definiert die ID (Name) der Tabelle. Wird beim Erstellen der Tabelle festgelegt.
  • closure - Definiert die ID (Name) der Tabelle. Wird beim Erstellen der Tabelle festgelegt.

Verwendungsbeispiel

Code Block
languagegroovy
linenumberstrue
table('table') {
  println values[0]
  }

Dieser Code gibt den Wert der ersten Spalte für jede Zeile der Tabelle an die Konsole aus.

Lesen als Stream
Anchor
stream
stream

Beim Lesen von Daten als Stream werden die Zeilen nicht iteriert, sondern als ein Eingabestrom auf einmal gesendet. In den meisten Fällen ist es besser, Zeilen für Zeilen zu lesen. Wir empfehlen die Verwendung von Streams nur bei Bedarf, z. B. bei einigen Python-Skripts.

Streaming aus einer CSV-Datei

Die Funktion streamCSVFile () wird zum Streaming von Daten aus einer CSV-Datei verwendet. Die Funktion ist wie folgt definiert:

Code Block
languagegroovy
streamCSVFile(String file, String separator, String escape, int limit)

Parameter

Die Parameter file und separator sind obligatorisch, die Parameter escape und limit sind optional.

  • file - Definiert den Namen der Datei, die gelesen werden soll. Diese Datei muss in das Projekt hochgeladen werden.
  • separator - Definiert das Trennzeichen zwischen Werten. Kann Komma, Semikolon usw. sein
  • escape - Definiert ein Zeichen, das für die Escape-Funktion von Text verwendet wird.
  • limit - Definiert die Grenze der Zeilen, die geladen werden.

Verwendungsbeispiel

Code Block
languagegroovy
linenumberstrue
println org.apache.commons.io.IOUtils.toString(streamCSVFile('train_v2.csv',','))

Dieser Code druckt alle Werte aus der Datei, getrennt durch ein Komma.

Streaming aus einer XLS-Datei

Die Funktion streamXLSFile () wird zum Streaming von Daten aus einer XLS-Datei verwendet. Die Funktion ist wie folgt definiert:

Code Block
languagegroovy
streamXLSFile(String file, int limit)

Parameter

Die Parameterdatei ist obligatorisch, die Parameterbegrenzung ist optional.

  • file - Definiert den Namen der Datei, die gelesen werden soll. Diese Datei muss in das Projekt hochgeladen werden.
  • limit - Definiert die Anzahl der Zeilen, die geladen werden sollen.

Verwendungsbeispiel

Code Block
languagegroovy
linenumberstrue
println org.apache.commons.io.IOUtils.toString(streamXLSFile('samplexls.xls',5))

Dieser Code druckt die ersten fünf Zeilen der Datei, wobei die Werte durch ein Komma getrennt sind.

Streaming aus SQL-Datenbank

Die Funktion streamXLSFile () wird zum Streaming von Daten aus einer XLS-Datei verwendet. Die Funktion ist wie folgt definiert:

Code Block
languagegroovy
streamSQL(Long id, String sql, int limit)

Parameter

Parameter id id zwingend.

  • id - Definiert die ID des Datasets. Es kann vom Code Builder festgelegt werden oder in der URL des Datasets gefunden werden.

Verwendungsbeispiel

Code Block
languagegroovy
linenumberstrue
println org.apache.commons.io.IOUtils.toString(streamSQL(1, 'select * from table',5))

Dieser Code druckt die ersten fünf Zeilen der Tabelle, wobei die Werte durch ein Komma getrennt sind.

Streaming aus Dataset

Die Funktion streamDataset () wird zum Streaming von Daten aus einem Dataset verwendet. Die Funktion ist wie folgt definiert:

Code Block
languagegroovy
streamDataset(Integer id)

Parameter

Die Parameter-ID ist obligatorisch.

  • id - Definiert die ID der Datenquelle. Sie kann vom Code-Builder festgelegt werden.

Verwendungsbeispiel

Code Block
languagegroovy
linenumberstrue
println org.apache.commons.io.IOUtils.toString(streamDataset(1))

Dieser Code druckt alle Zeilen aus dem Dataset

Streaming von der Tabelle

Die Funktion streamTable () kann zum Streaming von Daten aus einer temporären Tabelle verwendet werden, die zuvor im Projekt gespeichert wurde. Die Tabelle ist nur für die aktuelle Sitzung verfügbar. Die Funktion ist wie folgt definiert:

Code Block
languagegroovy
streamTable(Integer id)

Parameter

Die Parameter-ID ist obligatorisch.

  • id -Definiert die ID (Name) der Tabelle. Wird beim Erstellen der Tabelle festgelegt.

Verwendungsbeispiel

Code Block
languagegroovy
linenumberstrue
println org.apache.commons.io.IOUtils.toString(streamTable('table'))

Dieser Code druckt alle Zeilen aus der Tabelle.